robots.txt是搜索引擎中的一個協議,當你的網站有一些內容不想給蜘蛛爬取,那可以利用robots.txt來告訴蜘蛛不要去爬取這些頁面,不爬取這些頁面當然就不收錄了。
robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。
robots.txt規則怎么寫
新建一個txt文本,命名為robots.txt,比如說你不想給蜘蛛去爬你網站后臺這個文件夾,那就就這樣寫,該文件放在網站根目錄
User-agent: *
Disallow: /admin/
解釋:
User-agent: * 這個是代表所有搜索引擎
Disallow: /admin/ 禁止爬取admin這個文件夾
Disallow: / 代表根目錄所有
Allow: / 代表允許 例子:比如說你禁止webdesgn文件夾 但是你又想讓他收錄webdesign下的wangzhanjianshe 寫法Allow: /webdesign/wangzhanjianshe/*.html 收錄webdesign下的wangzhanjianshe下的所有html
如果你只想對百度有效,那就這樣寫。User-agent: Baiduspider 這樣只對百度有效,其它搜索引擎不受限制。
搜索引擎蜘蛛的名字:Baiduspider 百度蜘蛛、Googlebot 谷歌蜘蛛、Bingbot 必應蜘蛛、360Spider 360蜘蛛、Sogouspider 搜狗蜘蛛