AI 爬虫这种 “无止尽” 的爬取网站 Web 数据,同时带来极少的用户访问流量。绝大部份回答就在对话框解决,极少有人会不辞辛苦跳转链接到企业官网 ——— 这是与 “传统搜索为大家引流量” 截然不同的模式。
越来越多企业的官网都在用 Cloudflare 的服务来判断每次访问是否是“真人”。
“尽量让真人访问官网” 会成为越来越多的付费类的技术需求。
对于大模型公司,最核心的技能之一就是不断升级的超级爬虫,这些东西在 Paper 和媒体采访时基本不会讲。
但在招聘人员的面试笔试中,爬虫技术就是重点了 ……
#什么是面子上的
#什么是里子内的

ICONIQ Capital 调研显示,大多数 Gen AI 应用公司都依赖于第三方大模型 API。
对比绩效普通的公司,高增长公司有更高的比例在微调现有的基础模型,甚至从头开始开发自己的专有模型。
Bank of America 研究团队绘制了一张图,展示了 1980 到 2030 年,半导体行业的四次大浪潮。
(1) 1984 - 1990 年:大型主机时代(全球 PC 出货量超过 2500 万台前),半导体行业年收入达到 510 亿美元;
(2) 1990 - 2002 年:PC + 互联网时代(首款黑莓手机上市前),半导体行业年收入达到 1,410 亿美元;
(3) 2002 - 2018 年:移动互联网时代(机器产生的数据超过人类产生数据之前),半导体行业年收入达到 4,690 亿美元;
(4) 2018 - 2030 年,Bank of America 预测半导体年收入可达 1 万亿美元。
每个阶段对比上一个阶段成长大约 2~3x 倍。
华尔街日报基于国家统计局的数据绘制了一张图,显示了零售领域不同商品的销售额增长情况。
相对靠左侧的数据是 2020 年前六个月对比去年的增幅,后者为仅第六月对比去年的增幅。
可以看到前者基本为负数,后者大部分已转正,甚至达到近 20% 的增幅,有些报复性消费的感觉。 排名前几名的是:化妆品、饮料、通信终端、日用品和烟酒。
