知识块 #250624WE8164
中美大模型的能力差距在缩小
Robin  |  2025-06-24

研究机构 Artificial Analysis 的智能指数综合了 MMLU-Pro、GPQA 等多种大模型基准测试结果,分析显示,2022 ~ 2023 美国基础大模型要比中国领先一年,而 2025 年差距缩小到了三个月。

数据来源 Artificial Analysis 靖亚资本
分享链接 http://robin5G.com/250624WE8164
延伸阅读
LLM Abdin

当前,30 亿参数的 “小模型“ 的性能已经达到最开始 ChatGPT 所使用的 1750 亿参数模型的效果。这得益于更好的压缩技术(distillation 蒸馏、quantization 量化等),以及更高质量的训练数据。

这个小型化过程会带来显著的好处:边缘侧和端侧通常算力是有限的,没办法部署大模型,但小型的模型如果性能够,就可以用的起来。(而边缘和端侧等低延迟特性就可以发挥起来了)。

与此同时,我们也想到了另一个问题,甲方企业 CIO 的难题。通常一个 IT 项目从立项招标到部署应用,起码要耗费几个月,甚至更久的时间。而模型改进(如下图所示)是以月为单位进步的,很可能甲方企业根据标书购买的大模型还没有部署上线,就已经落后,而且落后很多。

大模型时代的 IT 投资保护是一个值得思考的话题。

车联网 ABI Research

ABI Research 估算中国在 2022 年,(乘用车)车联网的装机量会超过 4,000 万辆。预计到 2026 年就会突破一亿辆。

汽车的个头比较 “大”,流量消费的潜力和应用发挥空间,不是传统 IoT 所能概括的。

流媒体 WSJ

文字媒体、短视频和影视剧长视频是三种典型的内容形式。每种形式互联网平台型公司的控制能力是有很大差别的。

无论是文字的门户网站或者社交网络,还是短视频的 Tiktok,大型互联网公司都牢牢把握分发渠道,成为价值链的主导者。

但影视剧长视频不是这样,至少不完全是这样。以派拉蒙电影公司为例,其旗下流媒体服务 Paramount+ 正在取得高速的用户发展,2022Q4 其付费订阅用户增长到了 990 万户。

Paramount+ 对派拉蒙经典标志也进行了精彩的演绎,充分体现了物理世界和数字世界的关联与差别。