导读
咱们发现,当模子在测试阶段花更多时间想考时,其推剪发扬会权臣提高,这冲破了业界大王人依赖预西宾算力的传统领路。
作家 | Sequoia Capital
开端 | Z Potentials 管千里着闲逸慧 AI+
图片开端:Sequoia Capital
中枢要点
若是咱们向 1907 年的爱因斯坦提议一个对于广义相对论的问题,他需要 8 年才略回话;而 AI 的智商若按每 7 个月翻倍来推算,未必只需 9 年就能杀青这么的科学发现。
咱们正在坚贞化学习从点缀破碎造成主角,不是在预西宾的大蛋糕上加樱桃,而是用超大号的 RL 樱桃砸向整个蛋糕自身。
01
AI 推明智商的飞跃:从西宾期走向测试期的"想考"
主握东谈主:Dan Roberts 曾是 Sequoia Capital 的团队成员,在往时两年半到三年之间,他握续在匡助咱们长入" reasoning "这件事。我有约莫一年半的时间是跟他面临面同事,从他身上获益良多。是以我非常期待,他能将这些观点传递给更凡俗的群体。我想先共享一个前年的回忆片断,那是在 AI Ascent 峰会上。那时他行将从 Sequoia Capital 去职,加入 OpenAI,不外这事那时还未公开。那时 Alfred 和 Sam 正在台上发言,Alfred 一刹顺嘴一提:"对了,趁机说一下,Dan 要去 OpenAI 啦。"我那时刚好意思瞻念着 Dan 的色彩……呃,确乎很是痛苦。但总之很鼎沸你还是凯旋渡过了阿谁阶段,并欣喜来和咱们共享这背后的原因。
Dan Roberts:谢谢,其实你刚才讲的恰是我本来想用来开场的内容。那么我平直切入正题吧。正如你们很多东谈主知谈的,前年九月咱们在 OpenAI 发布了一个名为" o1 "的模子。接下来我援用一张来自咱们博客著述的图表,让我平直进入主题。
图片开端:Sequoia Capital
这张图展示的是机器学习模子的性能发扬。纵轴代表某项数学推理基准测试的得分,而横轴才是关节,骄贵的是西宾所需的筹划量。左边这张图发挥,模子性能会跟着西宾筹划量的增多而提高,这少许作念 AI 西宾的东谈主王人很熟练。但信得过令东谈主动听的是右侧这张图:它骄贵模子在测试阶段筹划量提高时,性能也随之增强。咱们训诲它推理,而它也确乎会花时间"想考";而况想考时间越长,发扬就越好。这太酷了,咱们以至把这句话印在 T 恤上。因为这不仅意味着西宾时的向上,现时连测试时的" Compute Use "也成了性能提高的新维度。那么这意味着什么?咱们领有了一个信得过能推理的模子。来作念个想维实践:咱们最近发布了一个更远大的推理模子:o3 版块。由于我本东谈主学的是物理,因此咱们用物理问题来测试它,比如 quantum electrodynamics(量子电能源学),而况它还能进行可视化。咱们在纸上写了一个问题,你可能见过近似演示,它会驱动"想考",不错反复自我考验、不休聚焦细节。
它想考了一会儿,然后驱当作答,并最终给出了正确谜底。整个经由握续约莫一分钟。趁机一提,我在博客著述发布前被条款复核这个限度,我花了整整三小时。固然这项筹划不错在四本讲义中找到,但我仍得逐渐推导每一步,确保每个负号王人没出错,并阐明它算得没错。是以咱们能作念什么?咱们不错用一分钟时间完成相等复杂的筹划,这还是弥散令东谈主惊羡。但问题是,咱们要把这种智商带向何处?让咱们作念一个更进一步的想想实践。谁最擅长想想实践?天然是 Albert Einstein。那么咱们就以他为主题吧。假定咱们回到 1907 年,那时 Einstein 还未负责驱动广义相对论的商议。咱们给他出一谈终极期末考题:对于广义相对论。趁机说一句,这个场景其实是 GPT-4.5 假造的,但我不错阐明这其实是个相等合理的发问场合。天然咱们不会真去问 Einstein 本东谈主,而是会构建一个‘ Einstein v1907 超等高配版’,确保它领有最强的推明智商和最充分的筹划资源,来帮咱们回话这个问题。
02
再行界说范式:强化学习才是改日的"主角"
那咱们会获得什么?爱因斯坦是个相等典型的视觉型想考者。他频繁通过想象电梯中的解放落体等情境来推导物理道理。学习广义相对论(GR)时,你会讲和到这类见地,比如橡皮膜上滚动小球的譬如模子,用来形象化引力和时空波折的干系。天然,他有时也会分神,比如会被量子力学的问题眩惑谨慎力。咱们的模子也会分神。图像驱动变得像个黑洞。我也搞不清为什么它老可爱把我方投射进这些场景。但这恰是我但愿用虫洞来呈现的黑洞效应。最终的限度是:GPT-4.5 没能答出来,唯有 o3 版块答对了。我在 OpenAI 的职责其实不是从事 AI 商议,而是专注于考证物理筹划。然则重心在于:这个模子确乎能得出正确谜底。换个角度看,若是这个问题是交给爱因斯坦本东谈主来解,他天然也能算出限度,只不外他需要花上八年的时间,正如他历史上花了八年才完成广义相对论相通。我的兴味是,爱因斯坦会像历史上那样,在八年后提议广义相对论,也就能回话这个问题。而咱们的模子,只需想考一分钟,就还是能复现教科书级别的复杂筹划,以至包括扰动修正项。但咱们的谋划远不啻复制已有常识。咱们但愿这些模子能信得过推动东谈主类常识的规模,助力科学走上前沿突破。
说回上头那张图。左侧骄贵模子的性能跟着西宾时长的增多而提高。而要杀青这种提高,关节在于一个中枢时间:强化学习(Reinforcement Learning, RL)。咱们所要作念的,是把西宾范围推到极致。举个例子,一年前咱们发布的 GPT-4.0 模子,仅使用了预西宾算力;但从 01 版块驱动,咱们驱动引入测试阶段的算力,也便是 RL 算力。固然这张图是暗示性的,但趋势是昭着的。到了 03 版块,所用的 RL 算力可能更大。咱们瞻望,改日某个时点,RL 将绝对主导整个西宾经由。这其实是一个反主流的不雅点,但咱们便是要强调这种范式的振荡。熟练 AI 商议的东谈主可能认得这张图,它出自多年前的一份幻灯片,时间不祥是 2019 年。
图片开端:Sequoia Capital
那张图固然复杂,但咱们现时还是不错用模子来帮咱们回来出它的中枢想路:在传统领路中,预西宾是整个"大蛋糕",而强化学习仅仅顶上的一颗小樱桃。这两种配色固然碰劲,却恰好贴切。但咱们要作念的,是透彻颠覆这个结构,不是在蛋糕上点缀樱桃,而是平直用一颗巨型的强化学习樱桃砸向整个蛋糕。那咱们具体蓄意怎么作念?很缺憾,这部分暂时弗成知道。咱们提交的幻灯片基本王人被公关团队删掉了,以至还有东谈主牵记连"这一页被删除"这么的备注页也要被删。还好,和咱们对接的 Brianna 还算讲理。实质上,咱们的筹谋还是相等明确:全面扩张算力范围。这意味着咱们将筹集约莫 5000 亿好意思元,在德克萨斯州阿比林购买地盘、成就门径、装置筹划斥地。咱们也将再次与也曾配合过的工程团队协同激动。咱们的谋划是西宾出最强的模子,并通过它创造大范围收益,再将这些收入插足到新一轮的门径成就和斥地扩容中,握续加码。而与此同期,咱们也在探索所谓的范围科学(scaling science)这恰是我现时在 OpenAI 的中枢职责内容。
03
范围科学的非常:通向 Einstein 级 AI 的九年倒计时
这张图表来自咱们对于 GPT-4 的博客著述。固然那是在我加入 OpenAI 之前,但左下角的这个点表示 GPT-4 在西宾末端时的最终蚀本值。全部的其他点则代表中间的实践限度,而图表用的是对数坐标轴,因此那些点的实质范围其实远比视觉上看起来更小。虚线部分代表的是模子预期发扬的预测线。他们精确地掷中了这条预测。换句话说,在驱动西宾这个前所未有的大模子之前,他们就还是准确地先见了它的最终效果。但跟着测试阶段算力和强化学习西宾等新花式的加入,本来的领路框架也必须被冲破。咱们要再行界说"范围化筹划"信得过的道理。这便是为什么咱们需要范围科学:因为咱们正在追求的,便是范围科学自身。正如播客主握东谈主 Dwares Patel 指出的那样:今天的模子看起来就像"笨蛋学者",它们具备远大的智商,却并莫得信得过"发现"广义相对论。也许要害出在咱们的问题想象上。咱们老是在问模子过错的问题,而在科研中,发问的表情常常比求解经由自身更垂死。咱们需要学会找到问题的信得过中枢。另一个可能的原因是:咱们过度西宾模子去解那些步调化的竞赛数学题,限度导致它们在不同常识领域的智商发展极不平衡。岂论是哪种原因,现阶段的模子恶果王人可能未达预期。但关节是:咱们仍在不休扩大范围,而这项职责一朝延续激动下去,必将带来令东谈主惊羡的突破。
临了谈谈我对改日的看法。前年我曾参加 AI 巅峰会(AI Summit),但愿本年还能再去。那时 Constantine 展示过这张图表的步调坐标版块,内部展示了一条趋势弧线:AI Agent 能处治的任务时长,正以每 7 个月翻倍的速率增长。若是这个趋势握续下去,现时能处治 1 小时任务的模子,到来岁可能就能处治 2 到 3 小时。天然咱们王人知谈,AI 领域的预测老是难以精确,但若是咱们按照这条弧线外推,酌量爱因斯坦当年花了 8 年构想广义相对论,那么咱们约莫还需要 16 个"智商翻倍周期"。也便是说,9 年之后,咱们未必就能领有一个不错自主发现广义相对论的 AI 模子。谢谢民众!
本文为 Dan 在 AI Ascent 峰会的公开演讲精要,由 Sequoia Capital 频谈整剪发布 . 著述仅代表作家本东谈主不雅点
原视频: 9 Years to AGI? OpenAI ’ s Dan Roberts Reasons About Emulating Einstein
https://www.youtube.com/watch?v=_rjD_2zn2JU&t=20s