华泰证券近日发布了一份名为《多模态大模型和应用奇点将至》的深度研究报告,该报告深入分析了多模态大模型技术的最新进展及其商业化趋势,指出多模态大模型的发展奇点即将到来。报告认为,原生多模态模型架构已获得业界认可,且在性能、延时、部署上展现出优势,特别是在视频生成等应用领域,国内公司已实现较成熟的全球化和商业化。这份报告提供了对多模态大模型未来发展的深刻见解,对理解AI行业的技术演进和商业机会具有重要价值。
多模态大模型和应用奇点将至,这是华泰研究在2025年7月9日发布的深度研究报告的核心观点。报告指出,多模态大模型的发展和应用正在迎来一个关键的转折点,这一趋势不仅受到技术进步的推动,也在全球商业化进展中体现出来。
技术进步是推动多模态大模型发展的重要因素。原生多模态模型架构已经得到了业界的认可,OpenAI和Google的原生多模态模型在性能、延时和部署上展现出了明显的优势。这些模型可以直接在全部模态数据上从头开始同步训练,无需分阶段处理,从而提高了效率和效果。
在全球范围内,多模态大模型的商业化进展迅速。一些头部公司,如OpenAI和Anthropic,已经依靠模型的“智能”实现了商业化。而在国内,视频生成赛道的公司已经实现了较为成熟的全球化和商业化。例如,快手的可灵(Kling)在上线9个月后累计收入超过1亿人民币,25Q1的年化收入(ARR)突破了1亿美金大关。
多模态大模型被认为是大语言模型发展的必然趋势。借助于Scaling Law和强化学习,大语言模型在很多领域已经超越了普通人类的智能。但是,这些模型主要处理的是文本信息,而多模态大型语言模型(MLLM)能够处理包括文本、图像、视频等多种模态的信息,大大拓展了应用场景。
从全球AI公司的商业化进展来看,无论是基于大语言模型的文本类产品,还是基于多模态大模型的产品,都呈现出海外进展快于国内、一级公司进展快于二级公司的趋势。特别是在多模态产品方面,商业化速度明显快于文本产品。
在国内,视频生成是全球化和商业化最成熟的AI应用赛道。国内厂商在视频生成领域的技术和产品已经走在了全球前列。例如,字节跳动的Seedance 1.0在文生视频、图生视频排行榜上均为Top 1,而快手可灵(Kling)、MiniMax Hailuo 02也在排行榜上名列前茅。
投资建议方面,报告认为多模态有望在算力和应用两方面带来相关投资机会。在算力侧,原生多模态模型需要更多的算力,视频的推理算力需求远大于文字,视频Agent的落地进一步催生推理算力需求。在应用侧,国内的视频生成模型领先,广告、零售、创作、教育等领域均有AI化需求。
风险提示方面,报告指出宏观经济波动、技术进步不及预期、中美竞争加剧等因素可能对行业发展产生影响。同时,研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表研究团队对该公司、该股票的推荐或覆盖。
综上所述,多模态大模型的发展和应用正在迎来一个关键的转折点,这不仅是技术进步的必然结果,也是全球商业化进展的体现。随着技术的不断进步和应用场景的不断拓展,多模态大模型有望在未来发挥更加重要的作用。
这篇文章的灵感来源于华泰研究发布的《多模态大模型和应用奇点将至》报告,该报告为我们提供了关于多模态大模型发展的深入分析和预测。除了这份报告,还有许多其他同类型的报告,也非常有价值,推荐阅读,这些报告我们都收录在同名星球,可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。