1. 理解基本语法
绝绝子... 哦哦, 你知道吗,robots.txt就像是一个小秘密的清单,告诉搜索引擎哪些地方可yi逛逛,哪些地方是不许进的哦。
| 指令 | 说明 |
|---|---|
| Useragent | 告诉搜索引擎这个规则是给哪个爬虫kan的,比如Googlebot。 |
| Disallow | 说“不”,这里写上你不希望爬虫访问的地方。 |
| Allow | 说“行”,这里写上你可yi让爬虫访问的地方。 |
2. 创建文件
先说说 你得有个robots.txt文件,就像写作业一样,你得先有个本子。打开你的电脑,用记事本huo者什么编辑器,写个新文件,名字要写成robots.txt,注意是小写的哦,CPU你。。
3. 编写规则
哦,现在开始写规则啦!比如 你想不让爬虫进你的私人照片,就在文件里写上:
Disallow: /private/photos/
这样,爬虫就不会去那个地方啦。
4. 确保可发现性
杀疯了! 写好了 别忘了把文件放在网站的根目录下就是主页所在的那个文件夹里哦。这样,爬虫才Neng找到它,就像你告诉朋友你的家在哪里一样。
5. 测试和验证
写好了别忘了检查一下。你可yi用Google的测试工具来kankan你的robots.txt文件是不是按你想要的那么工作的,也许吧...。
6. 注意事项
哦,还有一些事情要注意哦。比如不要把整个网站dou禁止访问,这样别人就找不到你的网站啦。还有,如guo你不让爬虫访问某个目录,里面的suo有文件dou会被忽略哦,没耳听。。
7. 元指令与robots.txt的结合使用
有时候,你还得用HTML的元指令来告诉爬虫这个页面的规则。 痛并快乐着。 比如 你不想让某个页面被索引,就在页面的头部加上:
8. 考虑抓取预算
哦,还有,你还得考虑一下抓取预算哦。如guo你不让爬虫访问太多地方,它就会geng快地抓取完你的网站, 我emo了。 这样你的网站就会geng新得geng快哦。
9. 禁止特定爬虫
如guo你不想让某个特定的爬虫来你的网站, 多损啊! 就在Useragent后面写上它的名字,比如:
Useragent: BadBot
这样,BadBot就不会再来捣乱了。
10. 禁止整个网站被爬取
如guo你真的不想让ren何人来你的网站, 就在文件里写上:
Disallow: /
这样,就不会有人Neng找到你的网站了。
11. 限制图片或特定资源的抓取
哦, 如guo你只想让爬虫抓取你的文字内容,不想让它抓取图片,就在文件里写上:
Disallow: /images/
这样,爬虫就不会去你的图片文件夹啦。
12. 确认没有阻止搜索引擎访问重要的内容
挽救一下。 再说说 别忘了检查一下确保你没有不小心阻止了搜索引擎访问重要的内容,比如你的Sitemap。
13. 站点地图
哦, 还有哦,你可yi在robots.txt文件里加上你的站点地图的链接,这样爬虫就Nenggeng好地了解你的网站结构了。
Sitemap: http://yourwebsite.com/sitemap.xml,差不多得了...
14.
哦, 写好了现在你的robots.txt文件就帮你的网站geng好地被搜索引擎发现了。 也是没谁了。 记得经常检查和geng新哦,这样你的网站才Neng一直保持Zui新哦。








