
近日,【OpenRoutera16z】发布了一份名为《State of AI: An Empirical 100 Trillion Token Study with OpenRouter》的行业研究报告。这份报告基于OpenRouter平台对超过100万亿个真实世界的大型语言模型(LLM)交互进行了分析,揭示了LLM在不同任务、地理区域和时间上的使用模式,以及开发者和最终用户如何在实际中与LLM互动的复杂性和多面性。报告中还探讨了模型构建者、AI开发者和基础设施提供者的影响,并概述了如何利用对使用情况的数据驱动理解来更好地设计和部署LLM系统。这份报告提供了对LLM实际应用的深刻见解,对理解当前AI领域的发展趋势和未来方向具有重要价值。

去年标志着大型语言模型(LLMs)的演变和实际应用的转折点。OpenAI在2024年12月5日发布了首个被广泛采用的推理模型o1,使得领域从单次传递模式生成转向了多步骤的推理推断,加速了部署、实验和新类别应用的发展。然而,我们对这些模型实际使用情况的经验理解却滞后于这一快速变化。本文利用OpenRouter平台,分析了超过100万亿个真实世界LLM互动的token,涵盖了任务、地理和时间。
我们的实证研究观察到开放权重模型的大量采用,创造性角色扮演(不仅仅是许多人认为占主导地位的生产任务)和编码辅助类别的异常受欢迎,以及代理推理的兴起。此外,我们的留存分析识别出了基础用户群体:早期用户的参与度远比后来的用户群体持久。我们将这一现象称为“灰姑娘的‘玻璃鞋’效应”。这些发现强调了开发者和最终用户在实际中与LLMs的互动是复杂且多面的。我们讨论了这些发现对模型构建者、AI开发者和基础设施提供商的影响,并概述了如何通过数据驱动的使用理解来更好地设计和部署LLM系统。
报告中提到,大型语言模型的应用领域正在迅速扩展,从单一的文本续写转向了多步骤的推理和决策。这种转变不仅体现在技术任务上,比如编程和数学问题解决,还扩展到了创造性角色扮演和故事讲述等领域。这些模型不再仅仅是生成文本的工具,而是成为了能够执行复杂任务、调用外部工具和进行长期上下文推理的智能体。
在编程领域,LLMs已经成为开发者不可或缺的助手。报告显示,编程相关的请求占总token量的比重稳步增长,从2025年初的约11%增长到近期的超过50%。这一趋势反映了从探索性或对话性使用向应用任务的转变,如代码生成、调试和数据脚本编写。随着LLMs嵌入开发人员工作流程,它们作为编程工具的角色正在被规范化。
报告还揭示了LLMs在全球范围内的使用情况。北美虽然仍是最大的单一区域市场,但其占总支出的比重已不到一半。欧洲的贡献稳定,而亚洲的份额则显著增长,从最初的约13%增长到约31%。这表明亚洲不仅是前沿模型的生产者,也是迅速扩张的消费者。此外,中文、俄文和西班牙文等非英文语言的token量也占据了相当的比例,显示了多语言用户群体的持续参与。
报告中的数据还显示,LLMs的使用不再是简单的问答或孤立指令,而是成为了结构化、代理式的循环,调用外部工具,管理任务状态,并在更长的上下文中持续交互。这种代理推理正在成为LLMs使用的新模式,对模型提供商来说,这意味着需要提供更低延迟、更好的工具处理能力和更强的上下文支持。
在成本与使用动态方面,LLM市场并未表现出商品化的特征。价格本身并不能完全解释使用情况。用户在成本和推理质量、可靠性以及能力范围之间进行权衡。闭源模型继续捕获高价值、与收入相关的工作负载,而开源模型主导低成本和高容量任务。这种市场细分表明,差异化仍然是战略优势的来源。
最后,报告提出了“灰姑娘的玻璃鞋”现象,即早期用户群体一旦找到与模型的深度匹配,就会形成持久的留存。这种现象强调了在快速发展的AI生态系统中,存在一种高价值工作负载的潜在分布,这些工作负载在连续的模型迭代中仍未得到解决。每个新的前沿模型都被视为“试穿”这些未解决的问题。当新发布的模型恰好匹配了之前未满足的技术和经济约束时,它就实现了精确的匹配——这就是比喻中的“玻璃鞋”。
这篇文章的灵感来自于一份关于大型语言模型实际使用情况的实证研究报告。除了这份报告,还有一些同类型的报告也非常有价值,推荐阅读,这些报告我们都收录在同名星球,可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。
蝉鸣报告(原爱报告知识星球)







