2025-07-10
“尽量让真人访问官网” 技术需求的崛起

AI 爬虫这种 “无止尽” 的爬取网站 Web 数据,同时带来极少的用户访问流量。绝大部份回答就在对话框解决,极少有人会不辞辛苦跳转链接到企业官网 ——— 这是与 “传统搜索为大家引流量” 截然不同的模式。

越来越多企业的官网都在用 Cloudflare 的服务来判断每次访问是否是“真人”。

“尽量让真人访问官网” 会成为越来越多的付费类的技术需求。

对于大模型公司,最核心的技能之一就是不断升级的超级爬虫,这些东西在 Paper 和媒体采访时基本不会讲。

但在招聘人员的面试笔试中,爬虫技术就是重点了 ……

#什么是面子上的

2025-01-11
大模型爬虫对互联网网站资源的访问占比

Mozilla 工程师 Dennis Schubert 通过其参与维护的 diaspora 开源项目的网站访问日志,在过去 60 天的 Web 访问请求中,有 70% 来自大模型公司的爬虫访问。

大模型公司的这种玩法,会在事实上对内容源头的网站产生类似 DDoS 攻击的效果,即大量网站开销来在 bot 机器人。

与之形成对比的,传统搜索引擎 Google 和 Bing 的爬虫只占了网站访问负载的 0.3% 不到。

传统搜索引擎和大模型理论上都可以给内容源网站引流,但大模型爬虫比例如此之大,越来越多网站会思考 “性价比问题”。

所有网站访问中,来