大模型新挑战井字棋大神卡帕西被OpenAI踢馆井字棋,竟成了大模型的新挑战。起因

量子位看科技 2025-04-28 16:21:16

大模型新挑战井字棋大神卡帕西被OpenAI踢馆

井字棋,竟成了大模型的新挑战。

起因是,网友在X上吐槽大模型玩宝可梦太菜,Karpathy出面支招:别盯着宝可梦了,试试井字棋,它们不会。

这句话立刻引发了围观:有人惊讶,有人分析原因,还有人感叹——人类简单的事,机器反而难。

但OpenAI的Noam Brown不服气,表示自家o3模型能轻松搞定井字棋,还能看图下棋。

对此,量子位亲测o3对弈,输入完整棋局,让它选择落子。

第一种方式是用O和X表示棋子,-表示空位,每次直接把完整的棋局输入给o3,并要求其用同样的方式输出。

思考约12秒之后,o3首先占据了棋盘中央的位置,我们落子之后,o3又思考了23秒,放置了第二颗X棋子。【图1】

接下来的两个回合情况是这样,其实当o3占据对角线上两个位置的时候就已经锁定了胜局。

不过有意思的是,直到已经连成一条线,o3都没发现自己已经赢了。【图2】

由于没有提示,我们误以为游戏还在继续,又放了一颗O旗之后o3才发现原来自己获胜了。【图3】

第二轮,交换先后手,我们先占据中间位置,然后o3选择了顶角……【图4】

最终,这轮游戏以平局结束。【图5】

接下来换一种方式,仿照Noam的做法把残局写在纸上拍给o3。

一开始看上去是在正常对弈,并且会以平局收场,但如果让o3自己分析接下来的趋势,竟然发现它开启了耍赖模式。【图6】

当然,在纠正了它的错误认识后,最终还是成功分析出了平局的必然结果。【图7】

(之所以改用感叹号,是因为-会被识别成Markdown符号导致棋局无法正常显示,且在4o中Markdown关闭失败)【图8】

实际上,OpenAI在之前的o3-mini时,就已经拿下了井字棋游戏,Noam还声称这是首个“始终正确回答”井字棋问题的模型。【图9】

在Karpathy的评论区,还有人晒图称Gemini也能正确处理井字棋问题。【图10】

今年2月,还有人搞了个大模型井字棋对战,并按照大模型竞技场一样计算ELO评分,当时o1-mini取得第一,然后是Claude 3.5 Sonnet和DeepSeek-R1。

Karpathy也cue到了这位网友,希望他能重启这个榜单,同时表示自己认为井字棋(对大模型而言)仍然是一个较难的任务。【图11】

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注