罗宾 5G 知识社群

知识块 #2508108UYBCX

AI 自动完成软件工程任务的 “任务时长” 变化

Robin | 2025-08-10

以 50% 的成功率为目标，大模型工具来自动完成软件工程的任务的任务时长（Task Duration for Humans）在 GPT-4 及以前都处于很低的状态。

从 Claude 3.5 Sonnet 开始，这个时长在显著增加。即，AI Coding 开始发挥明显作用。而 GPT-5 可以将时长提升到 2 个小时以上。

AI Coding LLM GPT-5

数据来源 METR

分享链接 http://robin5G.com/2508108UYBCX

延伸阅读

LLM The Information

The Information 披露了 AI 搜索引擎服务商 Perplexity 的财务数字，作为初创公司目前还处于大幅亏损状态。

值得看的是其收入构成：绝大部分来自最终用户的订阅费（Subscription），来自 API 和广告等其他模式的而收入很少。

成本方面，其向 OpenAI 和 Anthropic 支付了大模型 API 能力调用费为 800 万美元，而给 AWS 的云计算费用为 4,800 万美元。看来，还是云计算的算力类服务更消耗资金。

法律服务花费了 500 万美元。这样一对比，大模型方面的 800 万美元也不算多了。

a16z 从 0 到 IPO |...

知名风险投资基金 a16z 创始合伙人 Marc Andreessen 认为，一个创意出现，必须具备的三个前提因素：⑴ 技术因素；⑵ 经济因素；⑶ 顾客的心理因素。

技术因素和经济因素很容易理解，而比较难在于 “顾客的心理因素”。

举个例子，前几年企业上公有云，技术上成熟了，公有云可能成本更低，但为什么很多企业还不愿意呢？以为心理和观念上，还不太容易接受把企业数据跑在云端。

零售 WSJ

华尔街日报基于国家统计局的数据绘制了一张图，显示了零售领域不同商品的销售额增长情况。

相对靠左侧的数据是 2020 年前六个月对比去年的增幅，后者为仅第六月对比去年的增幅。

可以看到前者基本为负数，后者大部分已转正，甚至达到近 20% 的增幅，有些报复性消费的感觉。排名前几名的是：化妆品、饮料、通信终端、日用品和烟酒。