我仔细看了李想AI Talk的纪要,信息量很大,思考也挺深。距离他上次谈AI过了130多天,这次他抛出了个核心观点:人工智能要从“信息工具”、“辅助工具”进化到“生产工具”,才算真正爆发。而VLA司机大模型,就是冲着这个“生产工具”去的。
李想说AI成‘生产工具’才算爆发,理想的VLA大模型是自动驾驶的‘黎明’还是又一次‘画饼’?
我来给大家梳理梳理:
1、什么是VLA?理想的“人类智能”阶段。
VLA,全称视觉语言行动模型(Vision-Language-Action Model)。李想说,这是理想自动驾驶进化的第三阶段,是“人类智能”的开启。第一阶段是规则算法的“昆虫智能”,第二阶段是端到端+VLM(视觉语言模型)的“哺乳动物智能”。VLA可以看作是端到端和VLM的“合体升级版”,不仅能通过3D和2D视觉看懂物理世界,还能理解语言、进行CoT(思维链)推理,并真正执行动作。据说能对几十秒的路况进行推理,比之前只能推理几秒的系统看得更远、想得更深。目标就是成为一个像人类司机一样工作的AI司机,用户“跟人怎么说,就跟司机Agent怎么说”。
2、“黎明前的黑暗”与“基本功”。
对于有人觉得辅助驾驶应该被叫停,李想回应说现在是“黎明前的黑暗”,黎明马上要来了。这个比喻挺有意思,也点出了技术突破前的阵痛和挑战。他还特别强调了“基本功”的重要性,说如果规则算法、端到端这些基础没打好,根本谈不上训练VLA。这让我想起,任何行业的核心竞争力,最终都源于扎实的基本功。理想汽车提到他们有编译团队、芯片能力、操作系统能力等,才能支撑VLA这种复杂模型的运行。这确实是硬实力。
3、VLA是“现阶段能力最强的架构”,但挑战不小。
李想认为VLA能够解决全自动驾驶问题,是现阶段能力最强的架构,尽管未来是否效率最高还要打个问号。行业内也有很多企业在布局VLA,可见其潜力被广泛看好,可能成为L2到L4自动驾驶的关键跳板。但挑战也明摆着:VLA模型参数更大,对车端芯片和实时推理能力要求极高。理想表示他们能搞定,但我觉得,从技术实现到大规模可靠应用,还有很长的路要走。
4、技术迭代加速,后来者压力山大。
李想直言,今天很多企业做端到端都很吃力,是因为早期规则算法就没做好。这种技术路径的快速迭代,对那些基础不牢的企业形成了更高的准入门槛,后来者居上的可能性在降低。这话说得挺实在,也挺残酷。
我的几点看法:
1、“生产工具论”点明了AI的终极价值。 李想将AI的发展划分为信息、辅助、生产三个层级,并认为成为“生产工具”才是AI爆发的时刻。这个判断,我认为是深刻的。AI司机如果真能像人一样可靠地“打工”,那无疑是生产力的巨大解放。
2、“基本功”是所有创新的基石。 在人工智能时代,技术迭代再快,底层逻辑和核心能力的积累(即“基本功”)是无法跳跃的。这一点,理想汽车强调学习苹果、特斯拉,是看到了本质。
3、“黎明”虽可期,“黑暗”需正视。 自动驾驶的发展必然伴随着技术难题、安全挑战、伦理法规的完善过程。理想汽车有信心是好事,但全行业仍需脚踏实地,审慎前行。
总而言之,理想汽车这次AI Talk,把自家在自动驾驶领域的雄心和技术路径描绘得更清晰了。从“昆虫智能”到“哺乳动物智能”再到剑指“人类智能”的VLA,这个进化论听起来很吸引人。但真正的考验,还是在复杂多变的真实道路上,AI司机能否持续做到比绝大多数人类司机更安全、更可靠、更让人放心。
大家怎么看理想这个VLA司机大模型和李想的“生产工具论”?自动驾驶的“黎明”真的近在咫尺了吗?还是说,“黎明前的黑暗”会比我们想象的更长一些?评论区里一起聊聊。