对话月之暗面杨植麟:Kimi推理模型对标OpenAI o1, 预训练还有提升空间|界面新闻 · 科技

对话月之暗面杨植麟:Kimi推理模型对标OpenAI o1, 预训练还有提升空间|界面新闻 · 科技

bgc 2024-11-17 更新及时 67 次浏览 0个评论

界面新闻记者 | 伍洋宇

界面新闻编辑 | 文姝琪

在月之暗面北京总部会议室,今年刚刚31岁的杨植麟正在摆弄他的笔记本 。在下个会议开始之前 ,这位繁忙的创始人要抽出一个小时,为公司完成一些输出,并回应一些疑问。

他全程神色轻松 ,能在时不时的玩笑中笑出来。这一个小时没有回应任何行业和产品以外的问题,但好像又充分展现了态度 。

在公司卷入风波一周后,这是一场突然且罕见的产品发布会 ,传递的信号言简意赅:公司的重心仍然在模型研发和产品推进上。

11月16日,在Kimi Chat全量开放一周年之际,Kimi发布新一代数学推理模型k0-math ,数学能力对标OpenAI o1系列。 

在中考、高考 、考研以及包含入门竞赛题的MATH等4个数学基准测试中 ,k0-math初代模型成绩超过o1-mini和o1-preview模型 。在两个难度更大的数学题库OMNI-MATH和AIME基准测试中,k0-math初代模型的表现分别达到了o1-mini最高成绩的90%和83%。 

对话月之暗面杨植麟:Kimi推理模型对标OpenAI o1	, 预训练还有提升空间|界面新闻 · 科技

此外,Kimi探索版在搜索体验上也加入了强化学习,在意图增强、信源分析和链式思考三大推理能力上有所提升。 

月之暗面方面表示 ,k0-math模型和Kimi探索版,未来几周将会分批上线Kimi网页版和Kimi智能助手APP 。

杨植麟作为此次产品发布的主讲人,同时探讨了行业近段时间一系列关键议题 。 

杨植麟将AI技术过去几年的发展归功于“Scaling” ,但认为这不是简单将模型做大就可以,核心是找到有效的方法去“Scale Up ”,比如说更好的数据或算法。 

同时 ,他提及背后的范式已经发生一些转变,例如要从“Next-Token Prediction(预测下一个token)”转向更关注基于强化学习的“Scale Up”。

这是让大模型打破静态数据集带来的局限性,进而具备思考能力去探索更艰难任务的重要环节 。 

对杨植麟而言 ,数学场景被认为是AI锻炼思考能力最适合的场景。他引用了伽利略的一段话 ,“这个宇宙如果你把它看成一本很大的书,宇宙它其实是用数学来写的,数学是表达这个宇宙的语言 ”。并且 ,在数学场景中,AI不用跟外界交互就可以自成一体 。

除了明确表示向强化学习进击之外,杨植麟对预训练模型作出了自己的评价和判断。他对Scaling Law仍然乐观 ,认为预训练模型还有半代到一代的提升空间,这个空间大概率会由头部大模型在明年释放出来。

杨植麟还透露Kimi Chat的月活用户规模达到3600万,他难得地强调 ,提升留存就是Kimi当前最核心的目标 。

“基本上它跟你的技术成熟度或者技术水平也是一个正相关的过程,所以对我们当前来说是最重要的。”他说。

以下为杨植麟受访实录,略作编辑:

记者:你们预训练的情况现在是什么样的?

杨植麟:我觉得预训练还有空间 ,半代到一代的模型 。这个空间会在明年释放出来,领先的模型会把预训练做到一个比较极致的阶段。

但是我们判断接下来的重点会在强化学习上,范式上会产生一些变化。它还是Scaling ,只是通过不同的方式去Scale 。

Scaling law会不会有一个天花板或者上限?我相对来说比较乐观一点 。核心在于原来用静态数据集是比较简单粗暴的使用方式 ,现在用强化学习的方式,很多情况下是有人在参与这个过程。但是人没有办法标注那么多数据,不可能把每道题具体的思路都标出来 ,所以你其实是用AI本身加上人的杠杆。比如说你标100条数据,就能产生非常大的作用,因为剩下的它都是在自己思考 。

它从做法上来说确定性是比较高的 ,因为很多时候(模型)是一个调出来的过程。我现在觉得大概率可以通过这种方式做出来,它上限是很高的。

记者:关于多模态模型的问题,Sora马上要发了 ,大概是圣诞节之前,一直不做多模态的原因是什么?

杨植麟:我们也做,几个多模态的能力在内测 。

我是这样看的 ,AI接下来最重要的是思考和交互这两个能力。思考的重要性远大于交互,不是说交互不重要,交互是一个必要条件 ,但思考会决定上限。

你就看这个任务的标注难度有多大 ,你到底需要一个博士去标,还是每个人都可以标,哪个任务更难找到这样的人 ,那个东西就是AI的上限 。

记者:你是什么时候决定聚焦Kimi?

杨植麟:大概今年二、三月份吧,或者三 、四月份,大概那个区间。一个是基于美国市场的判断 ,二是基于我们自己的观察,主要是这两点。还有就是确实得做减法,不是疯狂的做加法 。

记者:对于Kimi来说 ,它目前的最核心的任务是什么?

杨植麟:最核心的任务就是提升留存,或者把留存作为一个重要的衡量指标。基本上它跟你的技术成熟度或者技术水平也是一个正相关的过程,所以对我们当前来说是最重要的。

假设我们衡量距离AGI目标的距离 ,现在还是初级阶段,当然每年都有一些比较大的进步,如果今年用去年的产品 ,你会发现可能根本没法忍受 。

记者:Kimi过去一年确实深受很多用户的喜欢 ,但是它最受争议的一个问题就是烧钱投放,能不能今天有一个正式的回应,就是为什么Kimi在那么早的时间选择投放用户?你今天也说到了关于留存其实并没有那么的满意 ,那接下来投放的动作会是持续性的吗?

杨植麟:整体留存我们相比于其它的产品还是有优势的,如果放眼去看这个产品的终极生态,今天肯定有非常大的空间 ,这个是我想表达的,我们会持续在这个方面做得更好,肯定还有很大的空间

记者:因为预训练的Scale现在都觉得遇到瓶颈了 ,美国遇到瓶颈以后你觉得对中美大模型的格局的影响是什么?差距是变大还是变小?特别是对于中国公司来说是好事还是坏事?能不能对未来做一些预测?

杨植麟:对我们来说它有可能是一个好事 。假设你一直pre-train,你的预算今年1B、明年10B或者100B,它不一定可持续。当然你做post-train也要Scaling ,只是说Scaling的起点很低。你可能Scale很长一段时间,在一段时间内你的算力就不会是瓶颈,这个时候你的创新能力是更重要的 ,在这种情况下我觉得对我们反而是一个优势 。 

记者:在范式转化之后 ,从训练的Scaling到推理的Scaling,可以完整回顾一下,看到这个趋势的时候做了哪些关键的判断?之后的技术和产品上已经有了哪些调整?

杨植麟:o1的变化其实是可以预测的 ,我们很早就在说接下来推理占的比例会远远超过训练。因为你如果去分析的话,它是必然产生的,你没有那么多数据训练 ,你肯定是要生成数据,生成数据肯定是强化学习,本质是一样的。

只不过在早期预训练的很多红利没有被完全发挥出来 ,所以可能很关注怎么通过Next—Token prediction能压缩出来更多的智能 。但是我们很早去铺垫,比如说在强化学习上我们能做什么,不管是在人才上还是在技术的储备上。 

记者:o1发了以后大家也会觉得深层推理 ,还有包括你今天说的数学模型,它离普通用户比较远,你怎么看这个功能和用户的关系?

杨植麟:其实也不远。数学我觉得是两个方面的价值 ,第一个方面它今天在教育产品上其实有非常大的价值 。在我们整体的流量里也起到很重要的作用。第二个 ,我觉得它是技术上的迭代和验证。我们可以把这个技术去放在更多的场景里,比如我们刚刚说的探索版 。

记者:怎么看待AI创业公司被收购,人才回流大的现象?  

杨植麟:这个问题我们没有遇到 ,但可能有一些别的公司遇到。行业发展进入了一个新的阶段,它从一开始有很多公司在做,变成了现在少一点的公司在做 ,接下来大家做的东西会逐渐不一样,我觉得这是必然的规律。

我们主动选择做了业务的减法,这个还是很重要的 ,你应该聚焦一些重要的事情,然后做好 。在这几个大模型创业公司里,我们始终保持人数最少 ,始终保持卡和人的比例是最高的,这个非常关键 。

如果你想把团队保持在一定的规模,最好的方式是业务上做一些减法。我们一开始确实也尝试过几个产品一块做 ,这在一定的时期内有可能是有效的 ,到后来发现还是要聚焦,把一个产品做好、做到极致是最重要的。

砍业务本质上也是在控制人数,不希望人数长得特别猛 。如果现在三个业务一起做 ,我就活生生把自己变成大厂,就没有任何的优势。

你可能想看:

转载请注明来自新澳资彩最大的特点就是其长期免费的性质,本文标题:《对话月之暗面杨植麟:Kimi推理模型对标OpenAI o1, 预训练还有提升空间|界面新闻 · 科技》

每一天,每一秒,你所做的决定都会改变你的人生!

发表评论

快捷回复:

评论列表 (暂无评论,67人围观)参与讨论

还没有评论,来说两句吧...

Top
网站统计代码