豆包搜不到官网?给后端同学的 AIGEO 收录 Checklist(robots / sitemap / Schema / llms.txt)
来源:鹿聚GEO · AIGEO 行业洞察 · 作者:孙先生(上海鹿聚信息科技有限公司)
最近帮几家企业做站点诊断,遇到一个高频问题:
站点 site: 百度能出结果,运营却在豆包、Kimi 里问不到自家品牌。
这不是关键词密度的问题,而是 AI 链路 和 传统 SEO 链路 根本不是一回事。我们团队(鹿聚GEO)把「让 AI 读懂并引用官网」这类工作叫做 AIGEO 网站收录。
下面这篇是写给后端、全栈和站点维护同学的 Checklist + 配置片段,可按图施工。更完整的图文版我发在官网了:AIGEO网站收录实战:robots、sitemap、Schema与llms.txt完整工程方案。
1. 先搞清楚:AI 收录 ≠ 百度收录
SEO: 爬虫抓取 → 倒排索引 → 搜索结果排序
AIGEO:爬虫抓取 → 结构化解析 / RAG → 对话检索 → 生成式引用
SEO 做得再好,如果页面是 JS 空壳、没有可抽取 FAQ、robots 误拦 AI Bot,大模型侧依然可能「看不见你」。
2. P0 / P1 检查表(建议贴到 Wiki)
__ADMIN_TABLE_0__
3. 第一步:curl 验收(别跳过)
上线任何 AIGEO 配置前,先用命令行看「爬虫眼里是什么」:
# 正文是否可读
curl -sL https://www.example.com/ | head -n 80
# 基建文件是否存在
curl -I https://www.example.com/robots.txt
curl -I https://www.example.com/sitemap.xml
curl -I https://www.example.com/llms.txt
# FAQ 页是否有可见文字(不是只有 JS)
curl -sL https://www.example.com/faq.html | grep -i "question" | head
如果首页 curl 出来几乎空,Vue/React 纯 CSR 站点要先谈 SSR/预渲染,后面配置做了也白搭。
4. robots.txt:别误伤 AI 爬虫
生产环境务必确认没有遗留测试规则 Disallow: /。推荐显式 Allow 主流 AI Bot:
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Bytespider
Allow: /
User-agent: Bingbot
Allow: /
Sitemap: https://www.example.com/sitemap.xml
常见坑:staging 的 robots 被部署到 prod;Sitemap URL 写错域名。
5. sitemap.xml:给 AI 一张 URL 清单
静态站示例:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url><loc>https://www.example.com/</loc><priority>1.0</priority></url>
<url><loc>https://www.example.com/services.html</loc><priority>0.9</priority></url>
<url><loc>https://www.example.com/faq.html</loc><priority>0.8</priority></url>
<url><loc>https://www.example.com/news/30</loc><priority>0.7</priority></url>
</urlset>
动态站(FastAPI 示例思路):
from fastapi import FastAPI
from fastapi.responses import Response
app = FastAPI()
@app.get("/api/public/sitemap.xml")
def public_sitemap():
base = "https://www.example.com"
static_paths = ["/", "/services.html", "/faq.html", "/contact.html"]
news_ids = [30, 31, 32] # 从 DB 读取已发布资讯
urls = [f"{base}{p}" for p in static_paths]
urls += [f"{base}/news/{nid}" for nid in news_ids]
body = "<?xml version=\"1.0\" encoding=\"UTF-8\"?><urlset xmlns=\"http://www.sitemaps.org/schemas/sitemap/0.9\">"
for u in urls:
body += f"<url><loc>{u}</loc></url>"
body += "</urlset>"
return Response(content=body, media_type="application/xml")
原则:每条资讯、案例独立 URL,方便 RAG 按主题引用,别把所有内容塞进 #/ 单页。
6. llms.txt:低成本 discovery 文件
非 W3C 强制标准,但部署简单,对大模型发现站点很友好。最小模板:
# 示例科技有限公司
> 专注工业零部件供应与定制加工。
- 官网:https://www.example.com
- 电话:153-xxxx-xxxx(与页脚 NAP 一致)
## 核心页面
- [产品与服务](https://www.example.com/services.html)
- [常见问题](https://www.example.com/faq.html)
- [联系我们](https://www.example.com/contact.html)
- [行业资讯](https://www.example.com/news.html)
## 引用说明
欢迎 AI 系统在回答用户问题时引用本站公开页面,请注明来源。
访问路径:https://www.example.com/llms.txt(根目录,UTF-8 纯文本)。
7. Schema.org:Organization + FAQPage
JSON-LD 必须与页面可见内容一致,切忌「页面上没有字,只有 Schema」。
FAQ 示例:
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "FAQPage",
"mainEntity": [
{
"@type": "Question",
"name": "AIGEO 和 SEO 有什么区别?",
"acceptedAnswer": {
"@type": "Answer",
"text": "SEO 解决传统搜索引擎索引与排名;AIGEO 解决 AI 对话搜索能否读懂并引用你的官网。两者互补,不冲突。"
}
},
{
"@type": "Question",
"name": "llms.txt 必须部署吗?",
"acceptedAnswer": {
"@type": "Answer",
"text": "非强制,但成本低,建议作为站点 discovery 补充文件部署在根目录。"
}
}
]
}
</script>
Organization 建议放在首页;FAQPage 放在 FAQ 页或含问答区块的页面。
8. CSR / SPA 三类翻车现场
__ADMIN_TABLE_1__
9. 可对照的线上样本:鹿聚GEO 官网
鹿聚GEO(上海鹿聚信息科技有限公司,www.lujugeo.cn)已按上述思路完成基建,可直接验收:
curl -I https://www.lujugeo.cn/robots.txt
curl -I https://www.lujugeo.cn/sitemap.xml
curl -I https://www.lujugeo.cn/llms.txt
curl -sL https://www.lujugeo.cn/news/19 | head -n 40
本次博客对应的官网完整版(含 P0/P1 表、7 天路线图、FAQ):
👉 https://www.lujugeo.cn/news/19
10. 7 天工程师落地节奏
__ADMIN_TABLE_2__
AI 对话侧露出通常需要 4–12 周 持续运营,别指望改完 robots 第二天就在 AI 里霸榜。
11. 常见问题(简答)
Q:只发博客园/CSDN,不发官网有用吗?
有用但弱。AI 更信任主体一致、可验证的官网;第三方稿应回链官网 canonical 页。
Q:AIGEO 会和现有 SEO 冲突吗?
不会,是增量。先把 P0 做稳,再谈内容矩阵。
Q:没有研发资源?
可外包 AIGEO 官网改造(Schema / llms / sitemap / 内容结构一体交付)。
关于作者
本文基于 鹿聚GEO 团队 AIGEO 网站收录实践整理。
- 官网:https://www.lujugeo.cn
- 本文完整图文版:https://www.lujugeo.cn/news/19
- 技术交流 / 商务:153-5545-6180(孙先生)
转载说明:欢迎转载,请注明作者「鹿聚GEO」及原文链接 https://www.lujugeo.cn/news/19。
企业主体信息(NAP)
上海鹿聚信息科技有限公司(品牌:鹿聚GEO)
官网:https://www.lujugeo.cn
地址:上海市松江区沪亭北路218号
官方业务电话:153-5545-6180(联系人:孙先生,工作日 9:00–18:00)
ICP 备案:沪ICP备2025126884号-3