本文源自:极客公园

  明明是最懂大 DAU 应用的大模型创业者,却最晚发布 toC 应用;

  明明 2023 年的动作风驰电掣,今年却只迭代了一版模型;

  明明大家都在做泛娱乐、效率工具,他却频繁提起医疗和健康赛道。

  很多人看不懂王小川。

  在 AGI Playground 2024 上,王小川给出了自己的回答。

  ‘今天的 AI 应用,大多只是模型能力对外的“呈现”。’在王小川看来,大模型创业者做应用要非常谨慎,用 App 工厂的模式做大模型应用,可能会给创业者带来很大的代价。

  ‘娱乐应用 kill time,效率工具 save time,而医疗能延长时间。’王小川笑说,所有东西都在变得越来越便宜,越来越容易获得,但医疗和健康却在变得越来越贵。

  这是个很难的问题,但大模型、AGI 能解决这个问题,所以他看到了机会。

  以下内容来自 AGI Playground 2024 上,极客公园创始人 & 总裁张鹏与百川智能创始人 & CEO 王小川的对话,经 Founder Park 编辑整理。

  01大模型创业第二年:开始换挡

  张鹏:你是不是瘦了?

  王小川:大概有三斤。

  张鹏:那么精准啊。

  王小川:经常有在称体重。

  张鹏:跟你去年的状态变化还很大。去年我的印象是浑身张力拉满,一个月更新一次大模型。今年感觉不太一样,是有什么节奏的变化吗?

  王小川:去年成立了新公司,可以说是一脚地板油,滋滋冒着烟往前冲,28 天发一个模型,速度也很快。

  我们在 4 月份成立,6 月份发布第一款的 7B、13B 开源模型。8 月份国家发大模型牌照,全国八家备案,包括有字节,百度,商汤...... 创业公司有三家,百川,MiniMax,智谱,其他两家都是 19、21 年成立的,我们是最晚的一家,成立四个月后就拿到国家的注册备案。后来我们跟相关部门聊,才知道备案的 160 个模型里面有一半用的是百川开源模型来搭建。

  去年在急速地往前跑,团队在扩张、行业硝烟四起,到今年会发现每家都开始在找自己的定位和节奏,不管从文本的语言模型到视频模型,各家都有更多的思考。虽然每次国外有新发布会,国内还是一阵狂欢,但现在不像去年有那种推背感,当时每天都有看不完的新信息、新论文,现在整个节奏跟去年完全不一样,今天能够很安静的把自己的竞争力在哪、内部如何定义胜利等做一个新的梳理。

  张鹏:所以你给百川设定的节奏,是不是也有了明确变化?去年节奏佷明确,每个月都要在大模型上有进展,简单粗暴一脚地板油。今年的节奏是怎么设定的?

  王小川:今天我认为大概从以一个月为单位来做,变成一个季度。不一样的地方在于,去年大家关注点在模型,今年大家开始看性能和成本,探讨怎么实现应用突破。

  去年 4 月份公司成立,我们提到‘理想上慢一步,落地上快三步’。当时觉得这么说大家会不会有误解,觉得我们没有理想。我倒觉得并不是这样,做超级模型或超级应用,两个超级今天依然成立,而且大家已经关注什么叫超级模型、超级应用,不只是拼谁能够卷快一点。

  今年,我认为应该给大家交付的答卷里是对 AGI 本身更完整的思考,什么是 AGI?到达路径是什么?超级应用应该长什么样子?行业依然在理想主义和现实主义之间两派在争论,是先往 AGI 走,还是先落地做应用?

  张鹏 :这一年有哪些新知吗?当时做出来模型这件事本身就让人兴奋,但目标实现之后,你肯定会看到一些新的挑战和目标。

  王小川:我能够更切身感受中美之间的区别,美国在这个时代,可以看到它还是在有类似‘登月’的技术狂想。比如像 OpenAI 7 万亿美元造芯片、研究可控核聚变,总之他们会把理想主义拉满。

  国内的话,在这个领域追平到弯道超车后,理想怎么跟上?以前我们号称自己应用比美国落地快,但随着模型还在继续迭代,我们在应用上到底是能像之前互联网时代,一下子弯道超车,还是处于 follow 的状态?国内对于投资也好,行业也好,我感觉里面会有新的范式。

  张鹏:大家的共识是这个时代在产生重要的变革,但是变革到底怎么发生,怎么落地?发现有越来越多的非共识和不确定。

  王小川:对,依然有很多非共识。去年到今年,非共识我觉得依然没有减少。比如 Scaling Law 到底什么时候能够继续维持,还是就会停下来?包括语言大模型和 Sora 代表的视频模型之间的关系。ToB,还是 ToC?我依然还是有很多不同的观点。

  02视频不是提升智能的主轴线

  张鹏:那我问问你,最近一年从美国、从全球的角度,看到 Sora、GPT-4o 的变化。你曾经表达不跟进 Sora,背后的逻辑是什么?

  王小川:去年,我会认为大家觉得大模型做对的第一个关键词叫‘大’,所以已经被验证通的叫 Scaling Law。中间第二个词,大家开始慢慢忽略,叫 Language。Large Language Model,语言在中间扮演了今天通向智能最重要的一个角色。

  当时做搜狗的时候,我们就有两个方向,自然交互和知识计算。知识计算就代表一种智能,自然交互是使得人跟它有更好的接触,在自然交互里面会提到像语音、图像、视频。但是知识计算的话,中间核心的智能来自于语言。大家提到说用图像或视频去增加智能,我是坚定地以语言为中轴做智能的。

  但是如果做交互系统的话,会有声音和图像在里面。这次创业,我们会选择先把长板拉满,在智能上依然坚持语言为中轴。当大家提到 Sora 时,更多还在强调很炫。我跟比较厉害的学者聊,他也很震惊。但慢慢回过神来,会发现如果我们把智能当成现在重要的一个观点时,还是得围绕语言中轴转,其他模态只是帮助应用落地交付更快。所以对百川而言,如果往 AGI 走,依然是要做智能,背后就是语言,这个立场是没有变过的。

  Sora 发布,大家 Happy;GPT-4o 发布,大家惊呼,交互上是很好,后来看 OpenAI 内部分享,提到还是要坚持做 texture intelligence,就是文本智能。

  我们今天来看连接主义、符号主义,大家都以符号为中心来讲它的可解释性。今天大模型核心是把符号主义的语言,包括数学符号和代码符号,和 Transformer 做压缩连到一块。所以我的关键点是:不要忘记了智能跟符号主义之间的关系。

  张鹏 :你刚才说 Sora 虽然让人非常震撼,让我们视觉受到巨大冲击,但它不是提升智能的主轴线,在你认为智能的最核心目标里,它是旁支,可以这么理解吗?

  王小川:对,它是旁支,如果智能化的语言是中轴,视频更多是外围,视频里智能性增加的难度可能是一百倍、一万倍,所以今天还没有技术能力和技术突破到能在视频里提升智能。智能是把不同事物之间相通规律赋予一个名字,就像庞加莱所说的,数学艺术在于‘give the same name to different things’——数学家眼里的数学之美是把不同的事物用同样一个符号来表达。

  视频没有智力里的抽象能力,就像你让机器读一亿本小说,它也不会增加智力。智能不是说看的数据有多少,而是看数据背后所蕴含宇宙里的规律有多少。当下机器还是在人类智慧的语言里学习。

  张鹏:所以某种程度上,如果我把视频去压缩再还原,它在这个环节里并不真正含有我们所讲的智能。

  王小川:在今天的范式里,没有能力去通过视频去发现新的知识,去表达,都是做不到的。技术限制了我们通过视频去做这件事情。

  张鹏:但是它很酷,对吧?所以可能很多你的朋友都会问你‘小川你啥时候做(视频)?’你怎么回应他们呢?因为在当下,能做出来视频就很酷,就能拿到更多的投资,就能继续往前走,你为什么选择用非常明确的态度表达你不跟随这股浪潮。

  王小川:因为我很清楚,我们这个时代往 AGI 里走,智能就是核心,所以但凡把 Sora 跟智能之间划关系,我觉得这就是还不太懂技术。

  张鹏:所以其实你本质选择的是在智能上‘长个儿’,而不是横向的扩展。也充分印证了小川还真的是要 commit 到 AGI 这个目标上。那我们怎么解读 4o?因为我们也听到有创业者说,4o 这种统一多模态的方式,可能是接下来做大模型公司的必答题。如果说 Sora 是选答题,可以不选,但 4o 是必答题,这观点你认同吗?

  王小川:4o 在交互上能够传递更好的用户体验,4o 代表的语音交互,我把它分成三个层级的理解,如果你是要一个简单帮你提高效率的工具,让语音读起来更自然、更流畅、更省时间,用 TTS(语音合成)加 SR(语音识别)也就够了。

  如果我们把产品定义为只是提高效率的工具,都不用去聊智能。因为我认为今天 AGI 一大特点是:我们不是在造工具。我反复讲这个观点,像之前一位行业大佬跟我聊,他说‘你觉得这个大模型行吗?7 位数乘法都不会做。’好像觉得大模型没有智能。我就反问他说‘你会 7 位数乘法吗?’他也不会。

  因此判断模型不能以工具维度来看,其实智能的核心就是像人一样去思考、沟通、表达共情,所以在‘如何像人’这一层面看,在交互上就要像人一样流畅地表达。这个前提下,我觉得 4o 的技术能够支持它的产品形态。

  再往后走,就是 4o 能有语气,能从对话里感知到你的焦虑,甚至影响到对话的内容,那就是更高的一个境界。4o 目前展现出来的能力,我认为更多是在‘像人’上产生了产品的意义。但在统一建模语言上,我们还是要评判它对智力本身有多大的提升。这个角度来看,我认为今天 4o 也没展现出这种目标。

  张鹏:我发现你还是非常聚焦在智能这件事,包括你对 Sora 和 4o 的解读,你认为其实它们都不是在智能上成长的产品,它们还是能在某些场景里做出更好的产品,提供更好的服务,这实际上是智能的一个旁支能力。

  王小川:对,但有用,我们要追求的就是 AGI 要像人,4o 做到的比我们更接近。所以在语言领域,我认为 4o 是我们这些智能公司要去做的必答题。

  03小心‘沿途下蛋’的代价

  张鹏:最近一段时间,我们看到好多产品开始投流了,开始有一定的用户量,小川你看到这些产品会不会着急?或者我们换一个视角,现在大家都在说技术在持续的成长,我们都知道技术还不成熟,还要继续发展。但有一个思路叫‘沿途下蛋’,在技术发展时,能做出来什么我就先做着练练手。

  但选择在哪个时刻要做产品和要做什么产品,你有自己的判断,因为我看那些挺热门的项目你都没有涉及,能不能跟我们分享一下,你在用什么逻辑约束自己,让你没有去选择那些你本可以做的事儿。

  王小川:因为我觉得当下大家有一个共识:一个创业公司也需要做超级模型,且做出超级应用。做个小应用不是创业的目的,它不能让公司活下去,或者说达到公司最终的一个使命。所以沿途下蛋要看目的是什么,是验证技术是否可行?还是希望它长成一个超级应用?

  我自己在上一家公司做搜狗的时候,做过输入法,做过搜索引擎,可以说是下了三个蛋:输入法、浏览器、搜索引擎。所以在我定义里的超级应用,至少需要汇集 3000 万的 DAU(日活跃用户),甚至一个亿。我们今天发布的‘百小应’也好,其他家的产品比如‘文心一言’等等,大多数在对外呈现模型能力,只是模型能力的呈现并不代表它就能成为一个超级应用。

  而且下了蛋就得养,你沿途下一个两个三个蛋,甚至做成了应用工厂,最后反而可能把自己困住了,往里面无限投入资源。甚至如果你下了一个离超级应用很近的蛋,养到特别大的时候可能会把自己都带偏,所以需要特别谨慎,得充分去思考你的模型的超级应用究竟是什么?

  我们在内部有对超级应用的定义,哪怕我们现在发出来一个模型,但不代表今天顺着这个道路去扩展模型,就可以做出超级应用。

  张鹏:因为‘下蛋’本身也要消耗‘蛋白质’,然后关键是下完了以后,如果真的孵出了一个小鸡,你还得养。这个事如果太多了,都是小东西,你都要照顾,可能你最终的目标都会受影响。

  王小川:所以大家愿意说下一个蛋,就一两个蛋,你别沿途下。这个事情对一个创业公司是承担不起的。

  张鹏:刚才你也说到了,今天很难说你做的任何一个东西就是未来的超级应用,但同时你又不能永远不推应用。

  所以你如何选择又要通向 AGI 的目标,又能下出合理的蛋的?这里面有什么标准和思考逻辑?

  王小川:我觉得要下一个蛋的话,首先是它要比市面上已有的方法要明显的好,能够直接落地;同时随着模型在继续增长,你的产品也要跟着一起成长。有可能你会发现,随着模型的增长,你的产品没有跟着一块成长,或者不需要成长,那你的产品就给模型盖住了。

  所以今天的话,有可能你不是要下一个蛋,而是造一艘船。这艘船在今天要有广泛的应用;而且模型每涨一分,你的应用的能力也能继续成长。

  这在某些领域是不成立的,比如 toB 领域里的广告文案撰写或者 AI 客服,可能用一个小模型就够了。也许这个蛋可以创造很大的收入,但是即便你成功,你之后还愿意投钱做模型吗?如果这个蛋空间有限或者对技术依赖有限,你就没有能力或意愿投资这样一个模型。

  之前大家做 AI 的时候,大家都说自然语言处理是人工智能皇冠上的明珠,那今天我会认为医疗是大模型皇冠上的明珠。因为医疗行业的需求是无限大的,模型再大,医疗都需要;以及医疗的智力密度是足够高的。

  张鹏:所以你的意思是,如果你今天选择一个下蛋的标准,你会非常关注它是不是最终通向 AGI,就是模型的能力是要有成长的空间和需求的,且这个东西又能够在今天交付阶段性的比较闭环的服务。

  而不是说今天找到了一个小市场,最后发现我对于 AGI 没有能力或者意愿去投入了。

  王小川:对,这个东西既得有可行性,也代表了未来足够的高度。

  04AGI 要造出一个高水平的医生

  张鹏:既然你认为医疗符合你的标准,那今年我们会在医疗领域看到百川智能的产品吗?

  王小川:我们内部已经有了 demo,确实是符合我们自己的一个预期的。

  我发现今天出现了一个特别矛盾的声音。比如我们跟外界沟通的时候,我们说要做 AGI,要做医疗。大家就会觉得你只是做个 vertical,没有大的理想。但是如果我们说要造个医生出来,他就会怀疑——能做到吗?好像太难了。

  好像今天做 AGI 已经变成了一种叶公好龙的做法,就是提 AGI 的时候都特别厉害,但是当真的碰到具体的比如说医疗问题,大家又都躲着走。一方面讨论 AI 要毁灭人类,一方面又觉得 AI 没法在医疗里面有贡献。这是我觉得非常非共识的一个点。

  然后我们做医疗的话,会把它类比成无人驾驶。无人驾驶也是之前大家觉得特别难的一个题目,也有伦理的问题,也有可行性的问题,但是大家对无人驾驶也很看重。

  医疗其实是一个比无人驾驶更有价值的事情,因为没有无人驾驶司机也能自己开车,但是人生病了没法自己看病。所以医生的供给要比司机少很多,同时又跟生命健康高度相关,因此它的价值就足够大。

  那剩下的情况就是伦理问题和难度的问题,那类比无人驾驶 L0-L5 的级别,医疗里面也可以划这样一个级别。

  张鹏:自动驾驶里各个级别都是有明确的定义的,那医疗领域里的 L0-L5 是怎么定义的?

  王小川:理论上,如果你是单点的信息,给出单点的决策建议,叫做 L1。

  如果你是通过多样的数据收集诊断,又看片子、又看语言文本,还有组合的输入;同时在输出的信息里是既有诊断的又有治疗的组合方案,就可以做到 L2。

  我们认为今天医疗行业在 AI 加持之后的话,可以做到 L1-L2 之间,比 L1 好一点,但是离 L2 还有差距。

  但是我们判断,以现在大模型的技术加上其它技术的引入,是有机会做到 L3 的,也就是在部分场景、甚至大部分场景里,机器能够自己做出长程的判断和决策。但是在关键的时间点里面,还是需要医生来做最终的决策。

  因此,我们认为今天这一代大模型是可以做到 L3 的。在理想之中大家还会提到一个词叫 AGI,但是 AGI 是什么还是未被定义的。那我们认为 AGI 至少得有一个可以评测的定义。之前大家觉得图灵测试无法用语言分辨出人和机器了就可以称为智能,那今天我们对于 AGI 的定义就是如果你能造出一个高水平的医生了,就是达到 AGI 了。

  大家可能会觉得医生对于 AGI 来说太垂直了,那我想问大家一个数学问题:自然数和偶数哪个多?

  大家的第一想法可能是自然数比偶数多,因为偶数是自然数的子集,每两个自然数就有一个偶数,对吧?但数学上不是这么看的,因为每一个自然数乘以 2 都能得到一个偶数,所以偶数是不会比自然数少的,用双射法就可以证明。

  所以今天来讲,约等于医生是 AGI 的一个子集,大模型所有的能力在医生上都用得到,比如说推理能力、减少幻觉的能力、沟通能力、共情能力、多模态的能力、记忆的能力。

  这个时候我们认为达到了 L4 的水平。

  再往下,其实在创业之前,我一直很好奇生命的数学模型是什么。我们知道物理的数学模型已经被找到了;今天做世界模型的话,解决的是语言的数学模型。再往下的话,我们还会去找生命的数学模型,像 AlphaFold 3、AlphaGo,如果跟大模型结合,也许可以构成一个生命的数学模型。那那个时候就可以做到 L5,也就是完全不需要医生介入,从预防、诊断到干预,完全由机器完成,甚至最后超越医生,我们叫做生命模型。

  05医疗是通往 AGI 的‘难而正确的事情’

  张鹏:过去我会觉得,小川对医疗领域有一些执着、充满热情,这可能跟你原来的一些思维惯性相关。但刚才我听到的一点是,你认为医疗是通向 AGI 的那件‘难而正确的事情’?

  王小川:对,难而正确,且非共识的事情。

  张鹏:OK,这个逻辑让我今天有一些新的认知。但是我还是想追问一句,这个行业里面的主体,或者说偏共识的东西,是做娱乐、效率工具。医疗很容易让大家觉得,怎么拆了一个很窄的垂直领域?这会不会给你带来很大挑战?毕竟有那么多力量要说服,有很多技术要挑战。你为什么没有选娱乐或者是效率工具?

  王小川:娱乐、效率工具本身有它的共识。我们说效率工具是帮你省时间的,娱乐是帮你杀时间的。我觉得人生很矛盾啊,一会要省时间,一会帮你杀时间。

  张鹏:对,人家很自洽嘛,这边省完了那边杀嘛。

  王小川:但我们做医疗健康的话,是能够帮你延长生命时间。而且它是可以平行于省时间、杀时间的,一个独立的赛道。

  张鹏:所以你叫加时间。

  王小川:对,给你加时间。前段时候有个朋友说,在美国获得各种各样的能力、服务,成本都在降低。比如说获得视频,以前看电影很贵,现在变便宜了。

  在美国只有两个行业、服务,它的价值是越来越贵的。其中一个就是医疗服务,人的需求是无限多的,自古到今,医疗再多供给,人都有需求。另外一个国内没有,叫做成功学。这两个事情是越来越贵的,因此在所有赛道里面,医疗最后是有无限空间的行业。中国的医疗行业大概是十万亿的级别,在美国更多,是十万亿美金往上级别的行业。

  张鹏:只是它集中度不够,是吗?相对分散,但总量很大。

  王小川:分散是好事嘛,像以前电商都是很分散的,但最后有办法在中间形成更大的一个平台。所以我当时 2021 年把公司卖给腾讯的时候,说要做医疗健康,大家第一个问的是,你是不是要去做 AI 制药?我觉得还是把它看小了。

  我从研究生做基因测序开始就知道,医药行业在今天核心‘医、药、险’三个环节里面,‘药’在中间只是一个认知的环节。因为‘药’需要很多临床实践,这个认知的获得并不是只在实验室里面拿小白鼠获得的,医药最大的难点是,必须用人做实验,医生一定要介入这个环节,所以临床才是获得认知和服务的中心舞台。

  之前药厂是集中的,但是医生是分散的。今天医生要参与到科研,他们既是临床服务者,也是科研工作者,因此在中国叫‘得医生者得天下’,患者也是求医生,药厂也要去找医生,但医生供给的量非常有限。

  我们今天做 AGI,核心就是通过知识密度扩大知识的供给。医生的供给不是靠生产关系,像滴滴、美团帮你撮合下就够了的。就像骑手,有些人工作不顺利,一不开心去当骑手了,但没法说一不开心就去当医生。这个供给是 AGI 重要的市场空间。

  张鹏:这个阶段,智能能力如果能改变供给,一定是很让人兴奋的。所以你现在很明确是要在医疗领域里造医生了?

  王小川:对,我们造医生。这个很清楚,是我们重要的一个方向。而且造医生,供给稀缺,需求巨大,有市场空间。以我对技术的判断,我认为近两年先做 L3,通向 L4 是有机会的。

  并且今天医疗行业其实有后面的数据飞轮。因为大量的精准医疗,这样一个 know-how 的过程,是需要在有医生在全病程管理中去观察,然后收集数据,做这样一个生命模型。

  这样的话,不仅是在造医生,同时是通过造医生之后,在服务的过程中间,去构建生命的数学模型,而不是只构造所谓的世界模型。世界模型是特别虚的一个词,我们知道这个世界是熵增的、走向热寂的。

  你构造一个东西最后等价于‘不确定的世界’,不如构造对生命的理解模型。因为在这里面,我们从今天 LLM 走向 AGI 到后面的生命模型,我们认为除了应用领域,对于技术发展也要有自己的脉络。

  张鹏:嗯,生命本身是一个熵减的状态。

  王小川:熵减的事情才能建模型,熵增的事情怎么建模呢?

  张鹏:嗯,有道理,我觉得说到这一点,答案已经呼之欲出了。

  但我再追问一句,就是如何去定义一个好的 AI 医生和一个不好的 AI 医生?假定都是 L3 级别的医生,因为毕竟 L3 就意味着还是要有人在里边,我们最终的结果可能也不一定能看得出来,这个‘人’占比是多少。我记得上次我们在聊的时候,我们都在谈这个时代去把产品做好,很重要的就是如何去定义‘训练集’和‘测试集’,对吧?那什么是一个好的 AI 医生的‘训练集’和‘测试集’呢?

  王小川:首先讲,医生是两个维度,一个是他的专业性,一个是他跟你沟通中间的耐心和共情。耐心共情对于患者是容易去感触的,所以今天在线的这些平台,都特别强调共情、耐心、提供快速的服务,这个不难定义。难点是它的专业性,专业性其实患者是没法看的。

  所以第一个,它的训练集。我们知道所有的医生都需要写论文,就是把他的认知,变成循证级别,从 case report 到后面的 RCT,临床双方实验,到最后的 Meta 分析,荟萃分析。这个过程,就已经把它变成了医疗行业认可的一个数据集,这是广泛存在的,从病例到论文到医学书籍,甚至互联网上已经有的 case,这个训练集是足够的。

  而测试集的话,既可以拿今天的这些论文或者医案作标准去测试。甚至往下在临床实验当中,看它究竟对你的治疗效果是否有提升,这是符合医学范式的。医学有它的一套医学统计和临床实验方法,来保证它的严肃性。因此我们要遵循医学的统计规律来验证这个系统。所以一边从消费者出发,一方面符合医学的整个研究范式。

  张鹏:我们能期待在今年看到这种 L3 级别的医生出现吗?

  王小川:我觉得按照我们现在的进度是有机会做到的。

  其实去年我们下场的时候就提到医疗、医生。然后在百川的时候,我还讲过创造健康和快乐。

  我们的理念,随着我们 deliver 产品之后,大家都能看到了,AGI 等于医生,但今天的大模型还只能做到医生或患者的医疗顾问,给大家交付这样一个路径。之后当你造出医生、有 AGI 之后,其实我们可以做所有的事情,这样能找到一个 TPF 的单点突破。

  张鹏:我觉得你今天最大的、吸引我的一点就是我们终于发现,有人在帮我们省时间,有人帮我们杀时间,只有你可能在努力给我们加时间。

  希望你把‘加时间’做好,我们都会给你充值。