根据互联网基础设施提供商Cloudflare的说法,即使一些网站明确禁止Perplexity爬虫程序访问,该爬虫程序仍然在继续获取来自成千上万其他网站的内容。Cloudflare公司在周一表示,他们已经从他们认可的机器人程序列表中将Perplexity移除,并对其进行了屏蔽,以制止其欺骗性的抓取行为。


根据互联网基础设施提供商Cloudflare的说法,即使一些网站明确禁止Perplexity爬虫程序访问,该爬虫程序仍然在继续获取来自成千上万其他网站的内容。Cloudflare公司在周一表示,他们已经从他们认可的机器人程序列表中将Perplexity移除,并对其进行了屏蔽,以制止其欺骗性的抓取行为。
Perplexity 总部位于旧金山,由 Aravind Srinivas(首席执行官,前 OpenAI 研究员)、Denis Yarats(前 Facebook AI)、Johnny Ho 和 Andy Konwinski(Databricks 联合创始人)于 2022 年创立。该公司已获得包括 Elad Gil、Nat Friedman(前 GitHub 首席执行官)和 Nvidia 等投资者的融资,并且估值180亿美元上个月筹集了 1 亿美元。
最近的冲突源于 Cloudflare 的客户抱怨称,尽管 Perplexity 已实施 robots.txt 指令和特定的防火墙规则来阻止这家人工智能公司宣称的爬虫程序,但 Perplexity 仍在抓取他们的网站数据。Cloudflare 工程师 Gabriel Corral、Vaibhav Singhal、Brian Mitchell 和 Reid Tatoris 在测试中证实,“Perplexity 的爬虫程序确实在特定页面上被阻止了。”
为了测试 Perplexity 的行为,Cloudflare 创建了多个新购买的域名,并设置了 robots.txt 文件,禁止所有自动访问。“我们进行了一项实验,向 Perplexity AI 询问了有关这些域名的问题,发现 Perplexity 仍然会提供有关每个受限制域名上托管的具体内容的详细信息。”
接下来发生的事情让他们大吃一惊。Perplexity 似乎并没有遵守封锁规定,反而改变了策略。“我们观察到,Perplexity 不仅使用了他们声明的用户代理,还在 macOS 上使用了一款通用浏览器,试图在他们声明的爬虫程序被屏蔽时模拟 Google Chrome。”工程师们说道。写道.
Copyright © 2025 OKX .All Rights Reserved