华泰研究近日发布了《2025多模态大模型和应用发展趋势及商业化进程分析报告》,这份报告深入分析了多模态大模型的发展趋势、技术架构以及商业化进程。报告指出,多模态大模型是大语言模型发展的必然趋势,其中原生多模态模型因其端到端性和统一性,成为头部厂商的首选架构。报告还详细讨论了国内外AI应用公司的商业化进展,特别是多模态产品在全球范围内的快速发展和国内出海的迅速进展。报告内容丰富,不仅提供了行业深度洞察,还对国内大模型发展的瓶颈和商业化的难点进行了思考,为行业从业者和投资者提供了宝贵的参考信息。
在2025年,多模态大模型和应用的发展迎来了新的里程碑。这些模型不仅仅是技术的突破,更是商业化进程中的一次飞跃。多模态大模型,即能够处理和理解多种数据模态(如文本、图像、视频等)的人工智能模型,正在成为推动行业进步的关键力量。
多模态是大语言模型发展的必然趋势。随着大型语言模型的快速发展,研究者们开始探索其多模态能力,以期通过结合大型视觉模型,打造出能够理解和生成多种模态信息的多模态大型语言模型(MLLM)。这些模型通过多模态指令微调,增强了遵循人类指令的能力,实现了基于图片编写网站、理解图像、光学字符识别(OCR)等功能。
在架构上,MLLM主要分为模块化和原生两种。模块化MLLM通过“pipeline”形式连接多模态与大型语言模型(LLM),而原生MLLM则是在全部模态数据上从头开始同步训练的模型,显示出更高的效率和更好的统一性。全球领先的玩家如OpenAI和Google主要采用原生MLLM架构,展现出指令跟随好、时延短、一致性强的优势。
商业化方面,海外进展快于国内,一级公司的进展快于二级公司。多模态产品在全球范围内的商业化速度相当快,尤其是在AIGC、Coding、客服等场景中,已有较成功的商业化典型。例如,OpenAI的ChatGPT和Anthropic的Claude在海外实现了10亿美金以上的年度经常性收入(ARR),而国内Chatbot还未实现很好的商业化。
国内的多模态产品也在持续迭代,可用性和商业化均向好。图像生成产品从追求更高逼真度转向提升易用性与整合度,视频生成产品则在时长、清晰度和一致性上取得突破。国内厂商在视频生成领域进展迅速,尤其是快手可灵(Kling)的商业化进展迅速,成为国内视频生成领域的标杆应用。
尽管如此,国内大模型的发展仍面临瓶颈,核心是算力受限,导致技术路线创新缓慢。国内相比海外在高性能GPU的先进性以及单集群大小上有较大差距,国内模型多依赖本土使用习惯,高价值用户数据相对稀薄,迭代速率受限。此外,全球头部模型愈发闭源,国内资源受限大多跟随。
国内商业化的难点在于模型与海外仍有差距,且用户付费习惯一般。国内AI应用收入Top 31产品中,有24个产品为出海,出海占比为77.4%。多模态是国内AI应用商业化的突破点,互联网厂商依托自身场景和资源获得先发优势。
展望未来,更长、更高质、更可控的AI视频生成将是发展方向。视频生成产品或将从几秒短剪辑走向成分钟剧情片段,从抽象试验走向拟真内容,从生成内容不可控到可控、可编辑。随着模型算法迭代和数据规模增长,视频生成的应用场景将更加广阔,包括数字人直播、游戏过场动画、教育培训影片等都将被重新定义,内容生产的门槛和成本将大幅降低。
这篇文章的灵感来自于华泰研究发布的《2025多模态大模型和应用发展趋势及商业化进程分析报告》。除了这份报告,还有一些同类型的报告也非常有价值,推荐阅读,这些报告我们都收录在同名星球,可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。