AI 爬虫放行指南:GPTBot、ClaudeBot、PerplexityBot 怎么配

更新于 2026-06-12 · AIMention 团队

要点速览

  • 不少网站根本不知道自己拦了 AI 爬虫——建站模板自带的防爬规则、多年前配的防采集,都可能误伤。
  • 要认识的爬虫就这几个:GPTBot(OpenAI)、ClaudeBot(Anthropic)、PerplexityBot(Perplexity)、Google-Extended(Google 的 AI 训练)。
  • 推荐的姿势:公开的营销内容对 AI 爬虫放行,后台、API、用户数据照旧禁止。
  • 改完用站点体检工具复查一遍,别留全站 Disallow 的漏网规则。

为什么第一件事是查爬虫

GEO 的前提是 AI 读得到你。训练数据靠爬虫抓,实时检索也靠爬虫抓,robots.txt 里一行 Disallow: / 就能把所有努力清零。

更麻烦的是,这种拦截往往是无意的:建站平台的默认模板带了激进的防爬规则,防采集插件一刀切,或者多年前为了防内容农场设的规则,早就没人记得了。所以别凭印象,去看一眼。

主流 AI 爬虫认一认

按对 GEO 的影响排个序:

  • GPTBot — OpenAI 的训练数据爬虫,决定 ChatGPT 对你有没有『记忆』。
  • ClaudeBot / anthropic-ai — Anthropic 家的,对应 Claude。
  • PerplexityBot — Perplexity 的检索爬虫,影响最立竿见影:它抓不到你,你就上不了 Perplexity 的引用列表。
  • Google-Extended — 控制内容能不能用于 Google 的 AI 训练(Gemini)。注意:它不影响传统 Google 搜索收录,那是 Googlebot 的事。
  • OAI-SearchBot / ChatGPT-User — OpenAI 的搜索和联网浏览代理,影响 ChatGPT 联网回答时能不能引到你。

robots.txt 该怎么配

原则一句话:公开内容放行,私有路径照禁。营销页、产品页、指南文章,对 AI 爬虫全开;登录后台、API、用户数据路径,继续 Disallow。保险起见,可以给 GPTBot、ClaudeBot、PerplexityBot、Google-Extended 各写一个显式的 Allow 区块,态度明确,也防止被通配规则误伤。

有的团队担心内容被拿去训练,又想要 AI 推荐的流量。可以折中:检索类的(PerplexityBot、OAI-SearchBot)放行,训练类的(GPTBot、Google-Extended)自己权衡。不过对大多数想被 AI 推荐的品牌,我们的建议是都放——被 AI『记住』本来就是 GEO 要的结果。

排查三步

  • 打开 你的域名/robots.txt,搜 Disallow: /,确认它只出现在后台、API 这类私有路径的区块里。
  • 上面列的几个 User-agent 挨个对一遍,看有没有被显式禁止,或者被通配规则连带禁了。
  • 用工具复核。AIMention 的站点体检会自动查 AI 爬虫许可、llms.txt 和结构化数据,一分钟出结果。

常见问题

放行 AI 爬虫,网站会被爬挂吗?

基本不会。主流 AI 爬虫都守抓取频率的规矩,正常网站感知不到负载。实在不放心,在 CDN 层限个速,比一禁了之强。

屏蔽 Google-Extended 影响 Google 排名吗?

不影响。Google-Extended 只管内容用不用于 AI 训练,搜索收录归 Googlebot 管,两条线互不干扰。

怕内容被白嫖,又想要 AI 流量,怎么平衡?

按内容分区。营销内容(产品页、指南、FAQ)被 AI 学走、引用,对你是赚的;真正值钱的付费内容、数据资产,单独放一个路径禁掉。别全站一刀切。

继续阅读

AI 现在怎么介绍你的品牌?

五分钟接入 AIMention,免费查看 ChatGPT、Gemini、Perplexity 对你和竞品的真实回答。

免费开始监测