Perplexity被指绕过限制，大规模抓取禁AI访问的网站内容，Cloudflare采取措施并收费

201 0

? 产品介绍
2025年8月，全球网络基础设施龙头Cloudflare（市值5000亿人民币）发布调查报告，矛头直指AI搜索新锐Perplexity。报告指出，Perplexity通过技术手段大规模抓取明确禁止AI访问的网站内容，涉及数万个域名、日均数百万次请求。此次冲突揭示了AI训练数据需求与网站主权间的深层矛盾，也推动Cloudflare推出革命性的内容收费工具。

Perplexity成立于2022年，由前OpenAI、Google工程师创立，主打对话式AI搜索引擎。其产品依赖全网数据抓取提供即时答案，但此次争议直指其数据获取方式的合规性。

? 适用人群

网站管理员与出版商：需防御违规抓取的内容创作者
AI开发者：关注数据获取伦理的技术团队
数字权益研究者：追踪互联网协议变革的观察者

? 核心功能与技术实现
Cloudflare为应对违规抓取，推出以下核心技术方案：

功能模块	技术原理	优先级
爬虫指纹识别	机器学习分析网络信号（UA、IP轮换模式、ASN动态），生成爬虫行为数字指纹	⭐⭐⭐⭐⭐
AI迷宫防御	向可疑爬虫注入虚假内容消耗其资源，延迟有效数据获取	⭐⭐⭐⭐
Pay Per Crawl	基于区块链的微支付系统，AI公司按次付费抓取，收益直接分配至网站所有者账户	⭐⭐⭐⭐⭐
实时协议拦截	动态解析robots.txt指令，对违规UA（如伪装为Chrome的Perplexity爬虫）实时阻断	⭐⭐⭐⭐
多模态验证	结合流量行为分析与内容特征检测，区分人类访问与AI爬虫（如页面停留时长、点击热力图）	⭐⭐⭐

? 技术细节：
UA伪装检测：Perplexity爬虫被拦截后，切换为Chrome/124.0.0.0标识模仿Mac用户，但机器学习识别其高频请求与IP轮换规律。
ASN动态屏蔽：爬虫轮换自治网络编号（ASN）逃避封禁，Cloudflare通过IP聚类分析锁定其核心网段。

? 工具使用技巧
网站所有者可通过三步快速部署防护：

启用Cloudflare「认证爬虫」白名单：仅放行遵守规则的机器人（如OpenAI公开标识其GPTBot）。

设置robots.txt强化声明：在根目录文件中添加：

User-agent: PerplexityBot  
Disallow: /  
User-agent: Perplexity-User  
Disallow: /

接入Pay Per Crawl市场：为合规AI抓取设置费率（如$0.01/次），将数据转化为可持续收益。

? 访问地址

Cloudflare爬虫管理控制台：cloudflare.com/bots
Pay Per Crawl系统入口：cloudflare.com/ai-market
免费AI爬虫拦截工具：cloudflare.com/ai-gateway

? 结语

当Perplexity以“用户代理”之名绕过robots.txt协议时，互联网的信任基石正被动摇。Cloudflare的强硬措施与收费系统，不仅是一次技术反制，更是对“数据价值重分配”的宣言。未来，内容或许不再因流量定价，而由其填补AI知识空缺的能力定义——这场战争，才刚刚开始。

AI快讯

文章版权归作者所有，未经允许请勿转载。

Perplexity被指绕过限制，大规模抓取禁AI访问的网站内容，Cloudflare采取措施并收费

? 结语

阿里巴巴2026届秋招启动：7000+offer来袭，AI岗位占比突破八成！

抽象AI短剧火爆，单部播放超1.8亿，大厂开始布局

相关文章

苹果提AI训练新方法RLCF，用任务清单替代人工评分，提升模型复杂指令能力。

快手可灵AI联合星芒短剧出品《新世界加载中》，成AI影视标杆

宇树科技王兴兴：人形机器人与四足机器狗全球出货量第一

美国NSF与NVIDIA 投资打造开放源代码的多模态 AI 模型，提升科研效率。

暂无评论

热门文章