wellwap微万微信二维码

微万建站详述什么是robots.txt蜘蛛文件及使用技巧

wellwap
微万品牌建站
09/09/2018
网站蜘蛛文件robots.txt是搜索引擎访问网站时要查看的第一个文件,它告诉蜘蛛程序在服务器上什么文件是可以被查看的,什么文件是被禁止抓取的。 
 
当搜索蜘蛛访问一个网站时,它会首先检查该站点根目录下是否存在robots.txt,如果文件存在,搜索机器人就会按照该文件中的内容来抓取允许访问的内容;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被禁止的页面。 
 
robots.txt必须放在网站的根目录下,而且文件名必须全部小写。 
 
微万建站详述什么是robots.txt蜘蛛文件及使用技巧
 
什么是robots文件
robots是站点与spider搜索引擎蜘蛛沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
 
Robots使用说明
1、robots.txt可以告诉百度等搜索引擎您网站的哪些页面可以被抓取,哪些页面不可以被抓取。
2、Robots工具目前支持48k的文件内容检测,请保证您的robots.txt文件不要过大,目录最长不超过250个字符。
 
robots.txt使用技巧 
1、避免在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样并不会增加网站的收录率。 
2、在robots.txt文件里设置不要让搜索蜘蛛索引的文件。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、js文件、css样式表文件、模板文件和背景图片等。 这些文件不会增加网站的收录率,还会浪费服务器资源。
3、如果网站是动态网页,并且为这些动态网页生成了静态页面,以供搜索蜘蛛更容易抓取。那么需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。 
4、robots.txt文件里是可以直接引用sitemap网站地图文件的。例如: 
Sitemap: http://www.wellwap.com/sitemap.xml
这样做的好处就是,搜索引擎的蜘蛛抓取robots.txt文件时,会读取其中的sitemap路径,从而顺利抓取其中各个链接的网页。 

关于robots.txt的更多相关资料可参考:https://ziyuan.baidu.com/college/courseinfo?id=267&page=12

微万品牌建站可为每个客户免费制作、检测robots文件,以确保搜索引擎正确的抓取网站页面。如需新建网站、网站改版、网站托管等服务,欢迎与我们联系!

 
阅读 178 更多内容

微万原创文章,未经允许请勿擅自篡改抄袭,转载请保留本页链接。

微万遵循行业规范,转载的稿件会明确标注来源,版权归原作者所有,如内容发布或转载涉及侵权,请联系删除。

微信二维码

微信长按识别或扫一扫,企业网站建设、网站托管维护、企业管理系统开发、微信小程序制作、域名主机、网站备案、网站改版等提供专业技术解答。

如喜欢这篇文章或这篇文章对您有帮助,
那就把它分享出去让更多人能得到帮助吧。

精彩推荐

猜你喜欢