做 SEO 有两个层次:内容层(写什么、怎么写)和技术层(让搜索引擎/AI 能正确读懂你的内容)。技术层不是加分项,而是地基——地基打不好,内容再好也白搭。
这篇文章梳理技术 SEO 的核心文件和标签,重点覆盖 robots.txt、sitemap.xml、meta 标签,以及近两年新出现的 llms.txt。
robots.txt
robots.txt 放在网站根目录(https://yoursite.com/robots.txt),告诉爬虫哪些路径可以访问、哪些不行。
基本语法
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /
Sitemap: https://yoursite.com/sitemap.xml
User-agent: *表示对所有爬虫生效Disallow优先级高于Allow- 文件末尾附上
Sitemap路径是标准做法
针对 AI 爬虫
传统 robots.txt 配置往往只考虑 Googlebot,但 2023 年之后出现了一批 AI 爬虫。如果你希望内容进入 AI 的知识库或检索池,需要明确允许它们:
# 传统搜索引擎
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# AI 爬虫
User-agent: GPTBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
Sitemap: https://yoursite.com/sitemap.xml
反过来,如果你不希望内容被用于 AI 训练,可以把 Allow 改成 Disallow。但需要注意:robots.txt 只是一个”君子协定”,爬虫可以选择不遵守,对恶意爬虫没有强制效力。
常见错误
Disallow: /禁止所有爬虫——整站从搜索结果消失,但很多人在开发阶段设置了这个,上线后忘记改- 过度封锁:把
/api/之类的路径 Disallow 掉通常没问题,但不要把包含重要内容的路径也封掉 - 语法错误:每条规则之间要有空行,
User-agent和Disallow/Allow之间不能有多余字符
用 Google Search Console 里的”robots.txt 测试器”可以快速验证配置是否正确。
sitemap.xml
sitemap.xml 是一个索引文件,列出你希望搜索引擎抓取的所有 URL。它不是强制要求,但能加速新内容被发现,尤其是对于内链结构薄弱或者新站点。
基本格式
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://yoursite.com/</loc>
<lastmod>2026-02-24</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://yoursite.com/blog/post-1/</loc>
<lastmod>2026-02-20</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
changefreq和priority是提示性字段,Google 不一定遵守- 真正有用的是
lastmod,帮助爬虫判断内容是否更新过 - 把 sitemap 地址写进
robots.txt的Sitemap字段,并在 Google Search Console 里手动提交
大型站点
如果页面超过 50,000 条,需要用 sitemap index 文件把多个子 sitemap 组织起来:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://yoursite.com/sitemap-posts.xml</loc>
</sitemap>
<sitemap>
<loc>https://yoursite.com/sitemap-pages.xml</loc>
</sitemap>
</sitemapindex>
现代框架(Next.js、Astro、Nuxt)通常有插件或内置方案自动生成 sitemap,不需要手写。
Meta 标签
meta 标签写在 HTML 的 <head> 里,是搜索引擎和社交平台理解页面内容的主要信号。
title 和 meta description
<title>技术 SEO 基础:robots.txt、meta 标签与 llms.txt | 博客名</title>
<meta name="description" content="一篇关于技术 SEO 基础设施的实践指南,覆盖 robots.txt、sitemap、meta 标签和 llms.txt。">
| 字段 | 建议长度 | 说明 |
|---|---|---|
| title | 50–60 字符 | 超出部分在搜索结果中会被截断;每个页面唯一,包含核心关键词 |
| meta description | 150–160 字符 | 不直接影响排名,但影响搜索结果的点击率(CTR) |
注意:Google 有时会忽略你写的 meta description,自动从页面内容中提取它认为更相关的摘要。所以内容本身的质量比 meta description 更重要。
Open Graph 标签
Open Graph 协议由 Facebook 制定,控制内容在社交平台分享时的展示形式——标题、描述、缩略图。Twitter/X 有自己的 Twitter Card 格式,但大部分内容和 OG 重叠。
<!-- Open Graph -->
<meta property="og:title" content="技术 SEO 基础:robots.txt、meta 标签与 llms.txt">
<meta property="og:description" content="一篇关于技术 SEO 基础设施的实践指南。">
<meta property="og:image" content="https://yoursite.com/og-image.png">
<meta property="og:url" content="https://yoursite.com/blog/seo-technical-basics/">
<meta property="og:type" content="article">
<!-- Twitter Card -->
<meta name="twitter:card" content="summary_large_image">
<meta name="twitter:title" content="技术 SEO 基础:robots.txt、meta 标签与 llms.txt">
<meta name="twitter:description" content="一篇关于技术 SEO 基础设施的实践指南。">
<meta name="twitter:image" content="https://yoursite.com/og-image.png">
OG 图片推荐尺寸:1200×630px。用 Facebook Sharing Debugger 或 Twitter Card Validator 验证效果。
canonical 标签
canonical 标签告诉搜索引擎,某个页面的”权威版本”是哪个 URL。主要用于处理重复内容问题:
<link rel="canonical" href="https://yoursite.com/blog/seo-technical-basics/">
常见场景:
- 分页内容(
/page/1、/page/2都指向第一页的 canonical) - URL 参数(
?sort=date、?ref=twitter产生的重复页面) - HTTP 和 HTTPS 版本共存
- 跨站内容分发(把原创来源指定为 canonical)
robots meta 标签
robots.txt 控制的是”能不能爬取”,而 <meta name="robots"> 控制的是”能不能索引和跟踪链接”:
<!-- 允许索引和跟踪链接(默认行为,不需要显式写) -->
<meta name="robots" content="index, follow">
<!-- 不索引这个页面,但跟踪页面上的链接 -->
<meta name="robots" content="noindex, follow">
<!-- 索引但不在搜索结果中显示摘要 -->
<meta name="robots" content="index, nosnippet">
noindex 常用于:登录页、感谢页、测试页、筛选条件产生的重复内容页。
结构化数据(JSON-LD)
结构化数据帮助搜索引擎理解页面内容的语义,并可能在搜索结果中触发富媒体展示(Rich Results)——比如文章的发布日期、评分星级、FAQ 展开列表等。
推荐使用 JSON-LD 格式,写在 <script> 标签里:
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "BlogPosting",
"headline": "技术 SEO 基础:robots.txt、meta 标签与 llms.txt",
"datePublished": "2026-02-24",
"dateModified": "2026-02-24",
"author": {
"@type": "Person",
"name": "caterpi11ar"
},
"description": "一篇关于技术 SEO 基础设施的实践指南。"
}
</script>
常用的 Schema 类型:
Article/BlogPosting:文章Product:产品FAQPage:FAQBreadcrumbList:面包屑导航Organization:组织信息
用 Google Rich Results Test 验证结构化数据是否有效。
llms.txt
llms.txt 是 2024 年提出的一个新标准,放在网站根目录(/llms.txt),用 Markdown 格式告诉 AI 语言模型你的网站有哪些重要内容、值得优先读取。
定位类似 robots.txt,但服务的对象是 LLM,而不是传统搜索爬虫。
产生背景
AI 爬虫的上下文窗口有限,无法处理一个网站的全部内容。同时,现代网站充斥着导航、广告、Cookie 声明等噪音,AI 很难从中提取真正有价值的信息。llms.txt 提供了一个精简的索引,引导 AI 直接找到核心内容。
文件格式
# 网站名称
> 一句话描述这个网站是做什么的。
## 文档
- [快速上手](https://yoursite.com/docs/quickstart): 5 分钟内完成基础配置
- [API 参考](https://yoursite.com/docs/api): 完整的接口文档
- [常见问题](https://yoursite.com/docs/faq): 高频问题解答
## 博客
- [技术 SEO 基础](https://yoursite.com/blog/seo-technical-basics): robots.txt、meta 标签与 llms.txt 的完整指南
- [SPA 迁移 Next.js](https://yoursite.com/blog/spa-to-next): 出海应用解决 SEO 问题的路径
## 产品
- [功能介绍](https://yoursite.com/features): 主要功能一览
- [定价](https://yoursite.com/pricing): 套餐方案
## 可选链接
> 以下内容不影响核心理解,但提供额外背景。
- [关于我们](https://yoursite.com/about)
- [更新日志](https://yoursite.com/changelog)
格式说明:
- 顶部用
#写网站名,用>写简介 - 用
##分组内容,每组下面是带描述的链接列表[标题](URL): 描述 - 结尾可以有一个
## 可选链接区块,放次要内容
现实情况
截至 2025 年中,已发布 llms.txt 的网站约 950 个,主要是开发者工具和技术文档类网站(Hugging Face、Vercel、Zapier 等)。OpenAI、Google、Anthropic 尚未正式确认会使用这个文件来指导爬虫行为。
所以 llms.txt 目前是低成本、低风险的探索性投入——创建一个文件,几乎没有维护成本,如果标准普及则提前占位,如果不普及也没有损失。
对于博客和内容类网站,更务实的做法是先把内容本身的结构做好(清晰的标题层级、直接的开头段落、准确的描述),而不是依赖 llms.txt 来”补救”结构混乱的内容。
一个检查清单
做完技术 SEO 配置后,可以按这个列表快速验证:
robots.txt
- 文件存在且可访问(
/robots.txt) - 开发/测试环境的
Disallow: /在生产环境已移除 - 包含主流 AI 爬虫的允许规则(如果希望内容进入 AI 知识库)
-
Sitemap字段指向正确的 sitemap 地址
sitemap.xml
- 文件存在且包含全部重要页面
- 已在 Google Search Console 提交
-
lastmod字段与实际更新时间一致
Meta 标签
- 每个页面有唯一的
<title>,50–60 字符 - 每个页面有
meta description,150–160 字符 - OG 标签完整(og:title、og:description、og:image、og:url)
- OG 图片尺寸 1200×630px
- canonical 标签指向正确的权威 URL
结构化数据
- 文章页有
BlogPostingSchema - 用 Rich Results Test 验证无错误
llms.txt(可选)
- 文件存在于根目录(
/llms.txt) - 包含关键内容的分组链接和描述
工具汇总
| 工具 | 用途 |
|---|---|
| Google Search Console | 索引状态、robots.txt 测试、sitemap 提交 |
| Rich Results Test | 验证结构化数据 |
| PageSpeed Insights | Core Web Vitals |
| Facebook Sharing Debugger | 验证 OG 标签 |
| Screaming Frog | 全站爬取,批量检查 meta 标签和链接 |
| Schema.org | 结构化数据类型参考 |