Cloudflare 规范 AI 爬虫：从屏蔽到收费，普通人能分到蛋糕吗？

📅 2026/7/5 23:45:18 👁️ 阅读次数 📝 编程学习

7 月 1 日，Cloudflare 发博客称，从 9 月 15 日起，使用其服务的网站默认屏蔽混合用途 AI 爬虫，逻辑从「默认允许，可屏蔽」变为「默认屏蔽，可允许」。这是互联网基础设施层首次对 AI 数据获取「立法」，背景是互联网 bot 流量超人类流量，比预计提前到 2027 年。

Cloudflare 将 AI 爬虫分为「Search」「Agent」「Training」三类，网站主可分别设置允许或屏蔽。此分类针对 Google，其 Googlebot 是混合爬虫，虽有选退工具，但仍为 AI 功能收集数据，导致 Google 获约两倍于其他 AI 公司的网页访问量。

Cloudflare 还设「最严规则优先」原则，屏蔽 Training 爬虫会一并屏蔽 Googlebot 等混合爬虫，以打破「捆绑」。其公布的爬取与回流比显示，Google 约 14:1，OpenAI 1700:1，Anthropic 73000:1，AI 时代旧「社会契约」崩坏。

Cloudflare 不满足于只挡爬虫，去年 7 月推「Pay Per Crawl」，今年升级为「Pay Per Use」，按内容在 AI 系统产生的价值收费，意在构建市场。

初始合作伙伴是 Ceramic.ai 和 You.com，大出版商支持。但今年 3 月 Cloudflare 发布爬虫 API 引发出版商不安，屏蔽设置曾无效，后修复。其称爬虫合规，这被指是「两边下注」策略。

Cloudflare 身兼规则制定、执行和市场参与者角色，虽有进步，但不能将其视为内容创作者的「救世主」，它在构建「AI 内容税收站」。

支持 Cloudflare 的多是大型出版商，它们有能力与 AI 公司签协议，Cloudflare 是额外工具。

理论上小内容主可借助 Cloudflare 设权限获补偿，但「Pay Per Use」仅两个小合作伙伴，大公司未参与。且小创作者屏蔽爬虫可能减少曝光，AI 搜索还使出版商流量和收入受损，即便模式全面铺开，付费也难补损失。

超 50% 的 AI 爬虫流量用于重复抓取，解决效率问题与创作者获利是两回事。

Cloudflare 被赞「赛博菩萨」，将 AI 数据掠夺公开化值得肯定。但它管理 20% 的网络流量，AI 公司可转向其他站点，Google 等爬虫有选退工具，英国监管机构施压 Google。

其政策不能定内容权益分配，却揭示互联网「收费站」从搜索引擎向基础设施层转移的趋势，收费站变了，收费者未必变。

编程学习技术分享实战经验

资讯详情