一招搞定帝国CMS中robots.txt文件用法
本文通过实例介绍了robots.txt文件在imperial CMS中的使用方法。分享给大家,供大家参考。具体分析如下:
在Imperial CMS中使用robots.txt文件之前,请解释robots.tx的作用。
Robots协议(也称为爬虫协议、爬虫规则、机器人协议等。)是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。Robots协议是互联网网站领域的通用道德准则。其目的是保护网站数据和敏感信息,确保用户的个人信息和隐私不受侵犯。因为不是命令,所以需要搜索引擎自觉遵守。一些病毒,如恶意软件,经常通过忽略robots协议来获取网站的后台数据和个人信息。
Robots.txt文件是一个文本文件。您可以使用任何常见的文本编辑器来创建和编辑它,例如Windows系统附带的记事本。Robots.txt是协议,不是命令。Robots.txt是在搜索引擎中访问网站时要查看的第一个文件。robots.txt文件告诉蜘蛛在服务器上可以查看哪些文件。
建议学习帝国cms课程。
搜索蜘蛛访问一个站点时,会先检查该站点的根目录下是否有robots.txt,如果有,搜索机器人会根据文件的内容确定访问范围;如果该文件不存在,所有搜索蜘蛛将能够访问网站上所有不受密码保护的页面。百度官方建议,只有当你的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎包括网站上的所有内容,请不要创建robots.txt文件。
如果把网站看成酒店的一个房间,robots.txt就是主人挂在房间门口的一个“请勿打扰”或者“欢迎打扫”的牌子。该文档告诉访问搜索引擎哪些房间可以访问和访问,哪些房间因为存放贵重物品或可能涉及住户和访客的隐私而不对搜索引擎开放。但robots.txt既不是命令,也不是防火墙,就像看门人无法阻止小偷等恶意入侵者一样。
Imperial CMS默认robots.txt是:
代码如下:
#
EmpireCMS的# robots.txt
#
user -代理:* *允许所有搜索引擎抓取。
Disallow: /d/ *禁止所有搜索引擎对D目录进行爬网。
Disallow: /e/class/ *禁止所有搜索引擎搜索/e/class/目录。
Disallow: /e/data/ *禁止所有搜索引擎搜索/e/data/目录。
Disallow: /e/enews/ *禁止所有搜索引擎搜索/e/enews/目录。
Disallow: /e/update/ *禁止所有搜索引擎在登录后抓取/e/update/ directory并复制。
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 如遇到加密压缩包,默认解压密码为"www.qnziyw.cn",如遇到无法解压的请联系管理员!
青柠资源网 » 一招搞定帝国CMS中robots.txt文件用法
常见问题FAQ
- 免费下载或者VIP会员专享资源能否直接商用?
- 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍
- 提示下载完但解压或打开不了?
- 最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或 联络我们。
- 找不到素材资源介绍文章里的示例图片?
- 对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单