罗宾 5G 知识社群

知识块 #250624WE8164

中美大模型的能力差距在缩小

Robin | 2025-06-24

研究机构 Artificial Analysis 的智能指数综合了 MMLU-Pro、GPQA 等多种大模型基准测试结果，分析显示，2022 ~ 2023 美国基础大模型要比中国领先一年，而 2025 年差距缩小到了三个月。

LLM 中国美国

数据来源 Artificial Analysis 靖亚资本

分享链接 http://robin5G.com/250624WE8164

延伸阅读

LLM Abdin

当前，30 亿参数的 “小模型“ 的性能已经达到最开始 ChatGPT 所使用的 1750 亿参数模型的效果。这得益于更好的压缩技术（distillation 蒸馏、quantization 量化等），以及更高质量的训练数据。

这个小型化过程会带来显著的好处：边缘侧和端侧通常算力是有限的，没办法部署大模型，但小型的模型如果性能够，就可以用的起来。（而边缘和端侧等低延迟特性就可以发挥起来了）。

与此同时，我们也想到了另一个问题，甲方企业 CIO 的难题。通常一个 IT 项目从立项招标到部署应用，起码要耗费几个月，甚至更久的时间。而模型改进（如下图所示）是以月为单位进步的，很可能甲方企业根据标书购买的大模型还没有部署上线，就已经落后，而且落后很多。

大模型时代的 IT 投资保护是一个值得思考的话题。

车联网 ABI Research

ABI Research 估算中国在 2022 年，（乘用车）车联网的装机量会超过 4,000 万辆。预计到 2026 年就会突破一亿辆。

汽车的个头比较 “大”，流量消费的潜力和应用发挥空间，不是传统 IoT 所能概括的。

流媒体 WSJ

文字媒体、短视频和影视剧长视频是三种典型的内容形式。每种形式互联网平台型公司的控制能力是有很大差别的。

无论是文字的门户网站或者社交网络，还是短视频的 Tiktok，大型互联网公司都牢牢把握分发渠道，成为价值链的主导者。

但影视剧长视频不是这样，至少不完全是这样。以派拉蒙电影公司为例，其旗下流媒体服务 Paramount+ 正在取得高速的用户发展，2022Q4 其付费订阅用户增长到了 990 万户。

Paramount+ 对派拉蒙经典标志也进行了精彩的演绎，充分体现了物理世界和数字世界的关联与差别。