小米AI团队新模型出来了,这次是多模态理解模型MiMo-VL-7B。 模型结构仍然是ViT+MLP+LLM,在2.4T数据基础上预训练得到MiMo-VL-7B-SFT,然后经过RL后训练得到MiMo-VL-7B-RL,在多项benchmark上展示了Tier 1级别的能力。 团队highlight的两点:一是预训练阶段采用了大量合成CoT数据,相比传统VL模型的直接QA数据能显著提升模型能力;第二个就是全面的RL后训练过程进一步提升模型能力。 VL模型对小米来说,个人认为恐怕有着比纯语言模型更大的业务价值:一方面是驾驶辅助系统的VLA模型对VL天然有需求;另一方面VL模型在手机上未来的智能体也天然有结合点(小米也确实单独展示了MiMO-VL在GUI领域的成绩)。 小米AI团队出活的速度还是很快的,看看接下来有没有可能做一些更大规模的模型出来。
小米AI团队新模型出来了,这次是多模态理解模型MiMo-VL-7B。 模型结构仍
晨晰聊房产经济
2025-05-30 11:14:26
0
阅读:0