近日,360多模态团队负责人谢春宇发布了一份名为《360多模态大模型:开放世界理解》的行业研究报告。该报告深入探讨了多模态大模型在开放世界理解领域的最新进展,包括大模型的定义、人工智能AGI的需求、视觉-语言跨模态学习的重要性,以及360多模态大模型在业务落地实践中的应用。报告详细分析了从第一代到第三代LMM的发展,以及360VL模型的技术特点和业务应用案例,展现了多模态大模型在图像描述、目标检测等方面的强大能力。这份报告不仅提供了多模态大模型技术的深刻洞见,还揭示了其在多个行业的应用潜力,是一份极具价值的行业资料。
多模态大模型:开放世界理解的新纪元
人工智能的发展日新月异,而多模态大模型的出现,标志着我们对开放世界理解能力的一次重大飞跃。这些模型不仅能处理文本,还能理解图像,甚至将两者结合起来,为我们提供了前所未有的交互和认知能力。
大模型的崛起
大模型,顾名思义,就是拥有大量参数、需要巨大算力和海量数据支持的模型。自从ChatGPT的发布,自然语言处理技术进入了全新阶段,它不仅能够进行连贯对话,还能创作诗歌、撰写文章。而新一代的GPT模型,如GPT-4,更是增加了对视觉模态的支持,这意味着它能理解图像并生成相应的自然语言,大大拓展了AI的应用范围。
视觉能力的重要性
视觉能力是通用人工智能必备的基础能力,因为它是人类智能的重要组成部分。我们通过视觉感知来理解世界、进行情境感知、交互、学习、识别物体和预测运动。视觉-语言跨模态学习,也就是VLP或VLM,是这一领域的代表性工作,它开启了CV多模态研究的大模型时代。
中文图文跨模态模型R2D2
在中文领域,360搜索推出了R2D2模型,它在中文图文检索任务上达到了SOTA(State of the Art),使用了2300万训练数据。这个模型采用了双塔base + 单塔head的混合模式,并专门针对数据噪声设计了momentum-updated encoder和masked input + soft label双蒸馏技术。
开源数据集Zero
伴随着算法和模型的发展,360还开源了图文跨模态数据集Zero,包含2.5亿中文图文对数据。这个数据集基于用户点击CTR筛选,数据质量更高,可在https://zero.so.com获取。
多模态大模型的发展
多模态大模型(LMM)是在单文本模态的语言模型LLM基础上发展起来的研究方向,旨在赋予大模型对多模态信息混合输入的理解和处理能力。从第一代到第三代LMM,我们看到了明显的代际更替,每一代都在解决前一代的问题,并在此基础上进行改进。
第三代LMM面临的挑战包括高分辨率输入的支持、图文模态间的竞争以及多模态的Scaling Law。目前,第三代LMM模型通过将输入图像切块的方式已基本解决了高分辨率图像支持的技术障碍,同期语言模型的输入窗口也普遍从1K提升到4K、8K甚至几十万字。
SEEChat和360VL的探索
360人工智能研究院在多模态大模型的探索中,选择了单模态专家模型缝合路线,推出了SEEChat项目。SEEChat项目主打能力包括严格超集和OVD(目标在图像中出现的位置)。SEEChat是一个浅层融合模型,主打Dialogue+Captioning+OVD能力,通过BLIP-2 ViT+Qformer + projection layer + chatGLM6B + LoRA的结构实现。
SEEChat升级为360VL后,在MMMU开源模型中排名第一。360VL具备图像描述、对漫画梗图的理解以及开放世界目标检测能力。这些能力使得360VL在多个业务场景中得到应用,如儿童手表拍照学英文、图像标签化、视频监控能力以及基于多模态大模型的安防视频自动化巡检。
未来展望
多模态LMM的发展预示着文本单模态LLM将只是过渡时期的形态,未来的主旋律属于多模态LMM。这些模型将在通用能力上覆盖当前非专业领域的绝大部分需求,360VL在此基础上将开放世界理解作为主打建设能力,这一能力将对办公自动化、机器人具身智能、自动驾驶等领域产生重要影响。
这篇文章的灵感来自于《360多模态大模型:开放世界理解》这份报告。除了这份报告,还有一些同类型的报告也非常有价值,推荐阅读,这些报告我们都收录在同名星球,可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。