Perplexity被指绕过限制,大规模抓取禁AI访问的网站内容,Cloudflare采取措施并收费

AI快讯2天前发布 ai-tab
5 0

🚀 产品介绍
2025年8月,全球网络基础设施龙头Cloudflare(市值5000亿人民币)发布调查报告,矛头直指AI搜索新锐Perplexity。报告指出,Perplexity通过技术手段大规模抓取明确禁止AI访问的网站内容,涉及数万个域名、日均数百万次请求。此次冲突揭示了AI训练数据需求与网站主权间的深层矛盾,也推动Cloudflare推出革命性的内容收费工具。

Perplexity成立于2022年,由前OpenAI、Google工程师创立,主打对话式AI搜索引擎。其产品依赖全网数据抓取提供即时答案,但此次争议直指其数据获取方式的合规性。


👥 适用人群

  • 网站管理员与出版商:需防御违规抓取的内容创作者
  • AI开发者:关注数据获取伦理的技术团队
  • 数字权益研究者:追踪互联网协议变革的观察者

🔧 核心功能与技术实现
Cloudflare为应对违规抓取,推出以下核心技术方案:

功能模块技术原理优先级
爬虫指纹识别机器学习分析网络信号(UA、IP轮换模式、ASN动态),生成爬虫行为数字指纹⭐⭐⭐⭐⭐
AI迷宫防御向可疑爬虫注入虚假内容消耗其资源,延迟有效数据获取⭐⭐⭐⭐
Pay Per Crawl基于区块链的微支付系统,AI公司按次付费抓取,收益直接分配至网站所有者账户⭐⭐⭐⭐⭐
实时协议拦截动态解析robots.txt指令,对违规UA(如伪装为Chrome的Perplexity爬虫)实时阻断⭐⭐⭐⭐
多模态验证结合流量行为分析与内容特征检测,区分人类访问与AI爬虫(如页面停留时长、点击热力图)⭐⭐⭐

💡 技术细节

  • UA伪装检测:Perplexity爬虫被拦截后,切换为Chrome/124.0.0.0标识模仿Mac用户,但机器学习识别其高频请求与IP轮换规律。
  • ASN动态屏蔽:爬虫轮换自治网络编号(ASN)逃避封禁,Cloudflare通过IP聚类分析锁定其核心网段。

🎯 工具使用技巧
网站所有者可通过三步快速部署防护:

  1. 启用Cloudflare「认证爬虫」白名单:仅放行遵守规则的机器人(如OpenAI公开标识其GPTBot)。
  2. 设置robots.txt强化声明:在根目录文件中添加:
    User-agent: PerplexityBot  
    Disallow: /  
    User-agent: Perplexity-User  
    Disallow: /  
  3. 接入Pay Per Crawl市场:为合规AI抓取设置费率(如$0.01/次),将数据转化为可持续收益。

🌐 访问地址

  • Cloudflare爬虫管理控制台:cloudflare.com/bots
  • Pay Per Crawl系统入口:cloudflare.com/ai-market
  • 免费AI爬虫拦截工具:cloudflare.com/ai-gateway

💎 结语

当Perplexity以“用户代理”之名绕过robots.txt协议时,互联网的信任基石正被动摇。Cloudflare的强硬措施与收费系统,不仅是一次技术反制,更是对“数据价值重分配”的宣言。未来,内容或许不再因流量定价,而由其填补AI知识空缺的能力定义——这场战争,才刚刚开始。


© 版权声明
trae-字节旗下AI代码助手

相关文章

暂无评论

none
暂无评论...