红杉中国,以出乎意料的方式刷屏国内AI圈。 今天,红杉中国对外宣布推出一款全新的AI基准测试工具xbench,并发布了一篇解释其工作原理的论文。这是自2022年ChatGPT点燃AGI赛道之后,第一家由投资机构主导发布的基准测试(Benchmark),给火爆的AI圈增添了新的话题。 过去两年多里,AI benchmark渐渐成为评估基础大模型和AI Agent能力的通用工具,海内外高校、研究机构和AI公司推出了大量不同维度的测试体系,而众多的基础大模型和AI Agent就像一个个高三学生,不断在各种题库里刷题,测试能力、提升成绩。 然而快速发展的基础模型和AI Agent毕竟不是普通的高三学生,题库很快被刷爆,并且频频获得高分甚至满分的成绩。这时候,一个重要的问题就出现了:到底是学生变聪明了,还是卷子出了问题? 根据xbench的介绍,这是首个由投资机构发起,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制的基准测试。它将在评估和推动AI系统能力提升上限与技术边界的同时,重点量化AI系统在真实场景的效用价值,并长期捕捉Agent产品的关键突破。 面向AI产品做出基准,这在产业、高校和研究机构是常见行为,但红杉中国作为一家投资机构,拿出很重的投入度,“跨界”推出一款专门产品(甚至还附带一篇论文),放在全球投资行业也是头一遭,说明红杉中国不仅有很强的业务洞察和务实姿态,在AI行业的布局决心,还在投资业务上在持续拓展着边界。 自ChatGPT一炮而红以后,红杉中国可能是最早行动起来全面拥抱AGI的机构。AI六小龙中,红杉中国独中四元,具身智能领域大热的宇树科技、智元机器人,也都是红杉中国的被投企业,今天凭借Manus在Agentic AI领域火热的蝴蝶效应,也在A轮拿下了红杉中国的投资。 当基础大模型和AI应用的大势滚滚向前,“水大鱼大”正渐渐形成共识。今天,红杉中国打出了那象征共鸣的响指。 成为标准的制定者,打造一个高人才密度的社区,在不断探求和推动AI技术上限的过程中寻找商业化落地的机会,这或许是红杉中国在AGI时代给出的投资新范式。
红杉中国,以出乎意料的方式刷屏国内AI圈。 今天,红杉中国对外宣布推出一款全新
花花科创
2025-05-26 17:22:15
0
阅读:0