一文总结视觉语言模型最新进展视觉语言模型最新全景指南还能跟上视觉语言模型发展的步

量子位看科技 2025-05-16 18:24:24

一文总结视觉语言模型最新进展视觉语言模型最新全景指南

还能跟上视觉语言模型发展的步伐吗?是时候来回顾一下它们的最新发展了!

HuggingFace一篇新博客,用八大章节总结了VLM领域的最新发展。【图1】

一起来看看文章的细节:

一、新的模型架构趋势

1. Any-to-any模型,支持多种输入和输出模态,代表模型有:

- Chameleon:可输入并输出图像和文本,未开放图像生成能力

- Lumina-mGPT:在Chameleon基础上开发的模型,增加了图像生成能力

- Qwen 2.5 Omni:采用“Thinker-Talker”架构,“Thinker”负责文本生成,“Talker”以流式方式产生自然语音响应。【图2】

2. 推理模型,擅长复杂问题推理,代表模型有:

- QVQ-72B-preview:2025 年前唯一开源的多模态推理模型

- Kimi-VL-A3B-Thinking:基于Kimi-VL优化,强化长链推理能力【图3】

3. 小巧但功能强大的模型,参数量小(

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注