知识块 #2508108UYBCX
AI 自动完成软件工程任务的 “任务时长” 变化
Robin  |  2025-08-10

以 50% 的成功率为目标,大模型工具来自动完成软件工程的任务的任务时长(Task Duration for Humans)在 GPT-4 及以前都处于很低的状态。

从 Claude 3.5 Sonnet 开始,这个时长在显著增加。即,AI Coding 开始发挥明显作用。而 GPT-5 可以将时长提升到 2 个小时以上。

数据来源 METR
分享链接 http://robin5G.com/2508108UYBCX
延伸阅读
LLM The Information

The Information 披露了 AI 搜索引擎服务商 Perplexity 的财务数字,作为初创公司目前还处于大幅亏损状态。

值得看的是其收入构成:绝大部分来自最终用户的订阅费(Subscription),来自 API 和广告等其他模式的而收入很少。

成本方面,其向 OpenAI 和 Anthropic 支付了大模型 API 能力调用费为 800 万美元,而给 AWS 的云计算费用为 4,800 万美元。看来,还是云计算的算力类服务更消耗资金。

法律服务花费了 500 万美元。这样一对比,大模型方面的 800 万美元也不算多了。

a16z 从 0 到 IPO |...

知名风险投资基金 a16z 创始合伙人 Marc Andreessen 认为,一个创意出现,必须具备的三个前提因素:⑴ 技术因素;⑵ 经济因素;⑶ 顾客的心理因素。

技术因素和经济因素很容易理解,而比较难在于 “顾客的心理因素”。

举个例子,前几年企业上公有云,技术上成熟了,公有云可能成本更低,但为什么很多企业还不愿意呢? 以为心理和观念上,还不太容易接受把企业数据跑在云端。

零售 WSJ

华尔街日报基于国家统计局的数据绘制了一张图,显示了零售领域不同商品的销售额增长情况。

相对靠左侧的数据是 2020 年前六个月对比去年的增幅,后者为仅第六月对比去年的增幅。

可以看到前者基本为负数,后者大部分已转正,甚至达到近 20% 的增幅,有些报复性消费的感觉。 排名前几名的是:化妆品、饮料、通信终端、日用品和烟酒。