o1满血版泄露了!
没想到,OpenAI还搁那儿今年一定呢,不少网友已经率先上手体验到了(doge)。
事情是酱婶的:有网友发现,OpenAI已经在ChatGPT官网上部署了完整版o1,大家伙儿还都能卡bug直接用!
最初发现此事的网友,测试确认泄露模型具有奥特曼所说的图像推理能力。
△图源:@legit_rumors
而日志也显示该模型就是o1本模。
于是,赶在OpenAI出手修复之前,网友们抓紧大玩特玩了一波——
满血o1到底有多牛
和已经发布的o1-preview、o1-mini最直观的不同是,泄露出来的o1支持上传附件。
这也就意味着,终于能测测o1的多模态能力了。
网友们也不说废话,直接上强度,普特南数学竞赛的证明题截图一贴,甩给满血o1。
对正整数n,有fn(x)=cos(x)cos(2x)cos(3x)cos(nx)。找出最小的n,使得|fn‘’(0)|>2023。
思考了18秒之后,o1给出答案:18。
答案正确:
再来一道更复杂的,虽然在识图上遇到了一点小问题,但还是稳稳做对了。
在如此惊艳表现之下,似乎正确识别人类史上首张黑洞照片也不算什么了(doge)。
不过嘛,也不是没有翻车案例。比如,让大模型数数图里有多少个三角形。
ID为anagh的网友,给泄露模型和GPT-4o做了个同屏对比:4o速度很快,给出了错误答案19。
而满血o1花了1分39秒,狂刷一堆token给出了不同的错误答案:29。
正确答案是24。
这个bug现在已经修复了。不过,有意思的是,这次模型泄露,持续了整整3个小时。
不小心还是故意的?
有网友犀利地点出,这事儿看上去不是不小心,而是精心策划:
目的是让人们对即将发布的模型有一个预期。
不少网友赞同这样的观点:
奥特曼的目的是测试和炒作。
而由于一切看上去已经部署就绪,甚至有人猜测,o1完整版的正式上线时间就在未来一周之内。
值得注意的是,就在这次泄露事件之后,奥特曼马上在??上开始了自己的表演:
好家伙,都已经吹上o2的风了(还假装上错号)。
至于为什么是这个时间
那不得赶在Anthropic发布Claude Haiku 3.5之前搞点事嘛(doge)。
参考链接:
[1]https://x.com/legit_rumors/status/1852625385801859321
[2]https://x.com/koltregaskes/status/1852657291469709626
[3]https://x.com/anaghnairr/status/1852668741751919016
以上就是关于【o1满血版泄露!奥数题图片推理手拿把掐 奥特曼剧透o2】的相关消息了,希望对大家有所帮助!
财联社11月21日讯(编辑 史正丞)就在比特币搭乘特朗普旋风直冲10万美元之际,币圈人士又给舆论场贡献了新的谈资。
11月21日消息,微软日前宣布,以公开预览版的形式发布了AI Shell命令行工具,可为开发者和IT专业人员提供智能化的命令行体验。
11月21日消息,iQOO官微预告,iQOO Neo10系列将于11月29日发布,iQOO将同时推出Neo10和Neo10 Pro两款机型。
近日,SpaceX星舰进行了第六次试飞,虽然没有重现筷子夹火箭的壮观场面,但是助推器、飞船均按照预期软着陆在目的地,隔热措施经受了考验,并实现了猛禽发动机首次真空重新点火,可以说干得漂亮。
11月21日消息,百度今天下午发布2024年第三季度财务报告,显示季度总营收336亿元,百度核心营收265亿元,归属百度核心的净利润75.4亿元,同比增长17%,超出市场预期。
11月21日消息,据国外媒体报道称,中国90后孙宇晨花费了4500万元,拍下了一个后现代抽象艺术品《喜剧演员》(墙上贴着的香蕉)。