【中国科学技术大学】计算机行业-多模态大语言模型领域进展分享-蝉鸣报告（原爱报告知识星球）

中国科学技术大学近日发布了一份名为《多模态大语言模型领域进展分享》的行业研究报告。该报告由殷述康博士在读撰写，深入探讨了多模态大语言模型（MLLM）的最新发展、架构、训练方法、评测标准以及未来的发展方向。报告指出，MLLM能够处理传统NLP任务，并在多模态输入处理、高级推理任务等方面展现出强大的能力。此外，报告还详细介绍了团队在幻觉缓解、长视频理解测评和多模态交互体验提升方面的相关工作，这些内容对于理解当前多模态大语言模型领域的最新进展和未来趋势具有重要价值。

多模态大语言模型领域进展分享

近年来，大语言模型（LLM）成为人工智能领域的热门话题。它们能解决很多传统自然语言处理任务，比如文本分类、命名实体识别等。不仅如此，大语言模型还能做更高级的任务，比如聊天机器人、写代码、解数学问题等。但LLM也有局限性，比如无法处理多模态输入，导致有些任务无法做或者很难做。

为了弥补这一不足，多模态大语言模型（MLLM）应运而生。MLLM能处理图像、文本等多种模态的输入，可以完成更多复杂的任务。比如，根据网站截图给出源代码、理解表情包的含义等。短短两年间，已有上百个MLLM模型涌现，包括大企业的闭源模型和学术社区的开源模型。

MLLM的架构一般包含三个部分：编码器、连接器和大语言模型。视觉编码器常用的是基于CLIP预训练的ViT，对于常见的224×224分辨率图片，最后共得到256个tokens。连接器则使用MLP结构或Q-Former结构，不改变视觉token的数量，使用线性层或者多层感知机做投影。

MLLM的训练分为两个阶段。第一阶段是模态对齐训练，将视觉的语义空间与文本空间对齐。通常使用大量的图文配对数据训练，如caption数据。第二阶段是指令微调训练，提升模型的指令遵循能力，学习泛化到各种任务。

MLLM的评测主要分为常规任务Benchmark和专门Benchmark。常规任务Benchmark一般聚焦某个具体的特定任务，关注特定指标。专门Benchmark则除了基本的感知能力，还关注推理等能力，任务一般更为复杂、困难。

MLLM的发展呈现出几个趋势：更高的分辨率、更丰富的输入形式、更丰富的I/O模态支持。比如，有研究提出将大分辨率的图片切成多块，每块依然是原来的分辨率，同时保留一张低分辨率的完整图片作为全局特征。也有研究支持多图、视频输入，以及输出图片、音频、视频等多种模态。

我们的团队在MLLM领域也做了一些工作。首先是幻觉缓解。在开源模型探索的早期，幻觉问题还比较严重。幻觉是指大模型在描述对象数量等方面不准确的现象。我们提出了减少模型输出的幻觉，提升准确性和用户体验的方法Woodpecker。

我们还构建了长视频理解测评基准Video-MME。现存测试集无法充分评估多模态大模型在理解长视频全局性内容的能力。Video-MME人工采集三种长度的视频各300条，每条人工标注3个问答对，提供字幕以及音频。问题设计均考虑视觉相关性，并且具有足够高的有效时长。

此外，我们还在探索提升对话交互体验的开源方案VITA。VITA不需要专门的唤醒机制来激活语音助手，支持打断语音输出，插入新用户请求，而不需要等候输出完成再输入新的用户请求。同时还能屏蔽环境噪声，提升模型对话感知的准确性。

展望未来，MLLM领域还需要支持更长的context、有效的压缩视觉token、长上下文理解能力、多模态Agent、轻量化的部署等。统一多模态生成和理解，统一的训练范式，统一的推理流程也是未来的发展方向。

这篇文章的灵感来自于《多模态大语言模型领域进展分享》这份报告。除了这份报告，还有一些同类型的报告也非常有价值，推荐阅读。这些报告我们都收录在同名星球，可以自行获取。

以上为节选样张，关注公众号【蝉鸣报告】回复领取PDF完整电子版（无广告）。

【蝉鸣报告】每日更新最新硬核报告，覆盖产业报告、全球化、经济报告、趋势等全领域。

【中国科学技术大学】计算机行业-多模态大语言模型领域进展分享

猜您想看

评论抢沙发

加入星球任意下载20000+报告

不定期更新一些报告合集

关注公众号限时领取优惠

热门标签

如何快速寻找资料？