大模型自造搜索引擎通义实验室新研究
通义实验室搞出新花样:大模型自己模拟搜索引擎,居然能训练得更好,还不花API钱!
以前大家靠真实搜索引擎、配合强化学习训练模型,出现了不少问题:
文档质量不好、成本太高、模型扩展难。
阿里团队给出的解法叫“ZeroSearch”——不对接真实搜索引擎,只靠小模型自己生成“检索结果”来训练。
一是轻量微调:给模型一点点有标签的数据,它就能生成两种文档——有用的和噪声干扰的。
二是课程式抗噪训练:一开始喂模型高质量文档,后面逐渐掺水(加入噪声),让它逐步适应更复杂的检索任务。
三是强化学习闭环:通过PPO和GRPO等算法,让模型自己玩转“检索-推理”流程,API成本直接归零。
实验发现,在多个问答数据集上,无论是简单的单跳问题还是复杂的多跳问题,ZeroSearch都比传统方法更厉害。特别是在用3B甚至7B的小模型时,效果就能媲美甚至超越谷歌搜索。