一文总结视觉语言模型最新进展视觉语言模型最新全景指南还能跟上视觉语言模型发展的步

量子位看科技 2025-05-16 18:24:24

一文总结视觉语言模型最新进展视觉语言模型最新全景指南

还能跟上视觉语言模型发展的步伐吗？是时候来回顾一下它们的最新发展了！

HuggingFace一篇新博客，用八大章节总结了VLM领域的最新发展。【图1】

一起来看看文章的细节：

一、新的模型架构趋势

1. Any-to-any模型，支持多种输入和输出模态，代表模型有：

- Chameleon：可输入并输出图像和文本，未开放图像生成能力

- Lumina-mGPT：在Chameleon基础上开发的模型，增加了图像生成能力

- Qwen 2.5 Omni：采用“Thinker-Talker”架构，“Thinker”负责文本生成，“Talker”以流式方式产生自然语音响应。【图2】

2. 推理模型，擅长复杂问题推理，代表模型有：

- QVQ-72B-preview：2025 年前唯一开源的多模态推理模型

- Kimi-VL-A3B-Thinking：基于Kimi-VL优化，强化长链推理能力【图3】

3. 小巧但功能强大的模型，参数量小（

0 阅读：0

量子位看科技

感谢大家的关注

如何驾驭复杂系统复杂系统应对策略想要优化系统的一个小问题，没想到却造成了更大的麻

商汤大模型一体机获IDC推荐近日，国际数据公司（IDC）发布了《中国AI大模型

全球首例个性化基因编辑治疗碱基编辑治疗罕见遗传病婴儿全球首个接受个性化基因编辑治

怎样用AI写代码更省钱氛围编程是什么Vibe Coding（氛围编程），说的是你

Grok公开系统提示词Grok系统提示词开源Grok的系统提示词，公开了？！起因

网易公布2025年第一季度财报财报显示网易砸44亿搞研发网易公布了2025年第一

阿里巴巴发布2025财年全年业绩阿里巴巴AI产品收入连续七季度增长阿里巴巴集团发

京东创三年营收最快增速京东2025年第一季度财报京东发布了2025年第一季度财报

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

说刘强东作秀的，你们让王兴也秀一个噻，或者你们自己做一天体验一下。一个千亿身价的

目前接近完美的6部手机，有你在用的嘛？

这么老的苹果还在用

昨天，华为终端发布华为nova全球代言人易烊千玺手持华为nova14系列的海报

上强度了！某些APP装傻充愣，就是不兼容鸿蒙系统，死抱着安卓。工信部看不过眼了，

国外拆解Mate30，零部件国产率仅为30%，国外拆解Mate30 5G，零部

格力电器董明珠董事长的“海归论”，遭到一些人的批评和质疑，个人觉得大可不必。

刚刚！#一加13T#首销10分钟破两亿！这手机我也用了几天，最大的感受是真爽，单

预算2000元适合买什么手机？这次机型供参考，性价比和当年小米1999不相上下。

网传华为nova14部分规格曝光：全系内存12GB，超大杯麒麟9系芯片+红枫多光

科技最新文章

昨天，华为终端发布华为nova全球代言人易烊千玺手持华为nova14系列的海报

雷军新操作：微博设门槛，关注100天以上才能评论！就在刚才，有人偶然地发现，

华为手机冲出重围，nova14“满血复活”将搭载麒麟8010，缺席了四年给友商

网传华为nova14部分规格曝光：全系内存12GB，超大杯麒麟9系芯片+红枫多光

【华为Mate80终极爆料！麒麟9030硬刚苹果，续航直接封神？】据多方消

苹果11用了4GB运行内存。苹果12还是4GB。苹果13继续4GB。苹果1

千万别被荣耀“忽悠”了这哪里只是一台8000mAh超长续航的机型，实际用了半

重磅出击！满仓笑了，空仓慌了！外骨骼机器人外骨骼机器人外骨骼机器人据2025年政

【苹果渠道官方调价：iPhone16Pro最高降价176美元，Pro

华为首款鸿蒙系统电脑一亮相，大家都沉默了，不是因为这个电脑的配置有多豪华，也不是

随机资讯