Cloudflare 规范 AI 爬虫:从屏蔽到收费,普通人能分到蛋糕吗?

📅 2026/7/5 23:45:18 👁️ 阅读次数 📝 编程学习
Cloudflare 规范 AI 爬虫:从屏蔽到收费,普通人能分到蛋糕吗?

最严厉的「爬虫政策」

7 月 1 日,Cloudflare 发博客称,从 9 月 15 日起,使用其服务的网站默认屏蔽混合用途 AI 爬虫,逻辑从「默认允许,可屏蔽」变为「默认屏蔽,可允许」。这是互联网基础设施层首次对 AI 数据获取「立法」,背景是互联网 bot 流量超人类流量,比预计提前到 2027 年。

Cloudflare 将 AI 爬虫分为「Search」「Agent」「Training」三类,网站主可分别设置允许或屏蔽。此分类针对 Google,其 Googlebot 是混合爬虫,虽有选退工具,但仍为 AI 功能收集数据,导致 Google 获约两倍于其他 AI 公司的网页访问量。

Cloudflare 还设「最严规则优先」原则,屏蔽 Training 爬虫会一并屏蔽 Googlebot 等混合爬虫,以打破「捆绑」。其公布的爬取与回流比显示,Google 约 14:1,OpenAI 1700:1,Anthropic 73000:1,AI 时代旧「社会契约」崩坏。

从「保安」到「收银员」

Cloudflare 不满足于只挡爬虫,去年 7 月推「Pay Per Crawl」,今年升级为「Pay Per Use」,按内容在 AI 系统产生的价值收费,意在构建市场。

初始合作伙伴是 Ceramic.ai 和 You.com,大出版商支持。但今年 3 月 Cloudflare 发布爬虫 API 引发出版商不安,屏蔽设置曾无效,后修复。其称爬虫合规,这被指是「两边下注」策略。

Cloudflare 身兼规则制定、执行和市场参与者角色,虽有进步,但不能将其视为内容创作者的「救世主」,它在构建「AI 内容税收站」。

普通人能分到蛋糕吗?

支持 Cloudflare 的多是大型出版商,它们有能力与 AI 公司签协议,Cloudflare 是额外工具。

理论上小内容主可借助 Cloudflare 设权限获补偿,但「Pay Per Use」仅两个小合作伙伴,大公司未参与。且小创作者屏蔽爬虫可能减少曝光,AI 搜索还使出版商流量和收入受损,即便模式全面铺开,付费也难补损失。

超 50% 的 AI 爬虫流量用于重复抓取,解决效率问题与创作者获利是两回事。

「菩萨」也有自己的庙

Cloudflare 被赞「赛博菩萨」,将 AI 数据掠夺公开化值得肯定。但它管理 20% 的网络流量,AI 公司可转向其他站点,Google 等爬虫有选退工具,英国监管机构施压 Google。

其政策不能定内容权益分配,却揭示互联网「收费站」从搜索引擎向基础设施层转移的趋势,收费站变了,收费者未必变。