AI 爬虫放行指南：GPTBot、ClaudeBot、PerplexityBot 怎么配

更新于 2026-06-12 · AIMention 团队

要点速览

✓不少网站根本不知道自己拦了 AI 爬虫——建站模板自带的防爬规则、多年前配的防采集，都可能误伤。
✓要认识的爬虫就这几个：GPTBot（OpenAI）、ClaudeBot（Anthropic）、PerplexityBot（Perplexity）、Google-Extended（Google 的 AI 训练）。
✓推荐的姿势：公开的营销内容对 AI 爬虫放行，后台、API、用户数据照旧禁止。
✓改完用站点体检工具复查一遍，别留全站 Disallow 的漏网规则。

为什么第一件事是查爬虫

GEO 的前提是 AI 读得到你。训练数据靠爬虫抓，实时检索也靠爬虫抓，robots.txt 里一行 Disallow: / 就能把所有努力清零。

更麻烦的是，这种拦截往往是无意的：建站平台的默认模板带了激进的防爬规则，防采集插件一刀切，或者多年前为了防内容农场设的规则，早就没人记得了。所以别凭印象，去看一眼。

主流 AI 爬虫认一认

按对 GEO 的影响排个序：

GPTBot — OpenAI 的训练数据爬虫，决定 ChatGPT 对你有没有『记忆』。
ClaudeBot / anthropic-ai — Anthropic 家的，对应 Claude。
PerplexityBot — Perplexity 的检索爬虫，影响最立竿见影：它抓不到你，你就上不了 Perplexity 的引用列表。
Google-Extended — 控制内容能不能用于 Google 的 AI 训练（Gemini）。注意：它不影响传统 Google 搜索收录，那是 Googlebot 的事。
OAI-SearchBot / ChatGPT-User — OpenAI 的搜索和联网浏览代理，影响 ChatGPT 联网回答时能不能引到你。

robots.txt 该怎么配

原则一句话：公开内容放行，私有路径照禁。营销页、产品页、指南文章，对 AI 爬虫全开；登录后台、API、用户数据路径，继续 Disallow。保险起见，可以给 GPTBot、ClaudeBot、PerplexityBot、Google-Extended 各写一个显式的 Allow 区块，态度明确，也防止被通配规则误伤。

有的团队担心内容被拿去训练，又想要 AI 推荐的流量。可以折中：检索类的（PerplexityBot、OAI-SearchBot）放行，训练类的（GPTBot、Google-Extended）自己权衡。不过对大多数想被 AI 推荐的品牌，我们的建议是都放——被 AI『记住』本来就是 GEO 要的结果。

排查三步

打开你的域名/robots.txt，搜 Disallow: /，确认它只出现在后台、API 这类私有路径的区块里。
上面列的几个 User-agent 挨个对一遍，看有没有被显式禁止，或者被通配规则连带禁了。
用工具复核。AIMention 的站点体检会自动查 AI 爬虫许可、llms.txt 和结构化数据，一分钟出结果。

常见问题

▸放行 AI 爬虫，网站会被爬挂吗？

基本不会。主流 AI 爬虫都守抓取频率的规矩，正常网站感知不到负载。实在不放心，在 CDN 层限个速，比一禁了之强。

▸屏蔽 Google-Extended 影响 Google 排名吗？

不影响。Google-Extended 只管内容用不用于 AI 训练，搜索收录归 Googlebot 管，两条线互不干扰。

▸怕内容被白嫖，又想要 AI 流量，怎么平衡？

按内容分区。营销内容（产品页、指南、FAQ）被 AI 学走、引用，对你是赚的；真正值钱的付费内容、数据资产，单独放一个路径禁掉。别全站一刀切。