AI 爬虫放行指南:GPTBot、ClaudeBot、PerplexityBot 怎么配
更新于 2026-06-12 · AIMention 团队
要点速览
- ✓不少网站根本不知道自己拦了 AI 爬虫——建站模板自带的防爬规则、多年前配的防采集,都可能误伤。
- ✓要认识的爬虫就这几个:GPTBot(OpenAI)、ClaudeBot(Anthropic)、PerplexityBot(Perplexity)、Google-Extended(Google 的 AI 训练)。
- ✓推荐的姿势:公开的营销内容对 AI 爬虫放行,后台、API、用户数据照旧禁止。
- ✓改完用站点体检工具复查一遍,别留全站 Disallow 的漏网规则。
为什么第一件事是查爬虫
GEO 的前提是 AI 读得到你。训练数据靠爬虫抓,实时检索也靠爬虫抓,robots.txt 里一行 Disallow: / 就能把所有努力清零。
更麻烦的是,这种拦截往往是无意的:建站平台的默认模板带了激进的防爬规则,防采集插件一刀切,或者多年前为了防内容农场设的规则,早就没人记得了。所以别凭印象,去看一眼。
主流 AI 爬虫认一认
按对 GEO 的影响排个序:
- GPTBot — OpenAI 的训练数据爬虫,决定 ChatGPT 对你有没有『记忆』。
- ClaudeBot / anthropic-ai — Anthropic 家的,对应 Claude。
- PerplexityBot — Perplexity 的检索爬虫,影响最立竿见影:它抓不到你,你就上不了 Perplexity 的引用列表。
- Google-Extended — 控制内容能不能用于 Google 的 AI 训练(Gemini)。注意:它不影响传统 Google 搜索收录,那是 Googlebot 的事。
- OAI-SearchBot / ChatGPT-User — OpenAI 的搜索和联网浏览代理,影响 ChatGPT 联网回答时能不能引到你。
robots.txt 该怎么配
原则一句话:公开内容放行,私有路径照禁。营销页、产品页、指南文章,对 AI 爬虫全开;登录后台、API、用户数据路径,继续 Disallow。保险起见,可以给 GPTBot、ClaudeBot、PerplexityBot、Google-Extended 各写一个显式的 Allow 区块,态度明确,也防止被通配规则误伤。
有的团队担心内容被拿去训练,又想要 AI 推荐的流量。可以折中:检索类的(PerplexityBot、OAI-SearchBot)放行,训练类的(GPTBot、Google-Extended)自己权衡。不过对大多数想被 AI 推荐的品牌,我们的建议是都放——被 AI『记住』本来就是 GEO 要的结果。
排查三步
- 打开 你的域名/robots.txt,搜 Disallow: /,确认它只出现在后台、API 这类私有路径的区块里。
- 上面列的几个 User-agent 挨个对一遍,看有没有被显式禁止,或者被通配规则连带禁了。
- 用工具复核。AIMention 的站点体检会自动查 AI 爬虫许可、llms.txt 和结构化数据,一分钟出结果。
常见问题
▸放行 AI 爬虫,网站会被爬挂吗?
基本不会。主流 AI 爬虫都守抓取频率的规矩,正常网站感知不到负载。实在不放心,在 CDN 层限个速,比一禁了之强。
▸屏蔽 Google-Extended 影响 Google 排名吗?
不影响。Google-Extended 只管内容用不用于 AI 训练,搜索收录归 Googlebot 管,两条线互不干扰。
▸怕内容被白嫖,又想要 AI 流量,怎么平衡?
按内容分区。营销内容(产品页、指南、FAQ)被 AI 学走、引用,对你是赚的;真正值钱的付费内容、数据资产,单独放一个路径禁掉。别全站一刀切。