查找引擎優(yōu)化入門第38課：什么是robots.txt？robots.txt寫法與

發(fā)布時間：2018-08-17 文章來源：本站瀏覽次數(shù)：3376

什么是robots.txt？robots.txt寫法與查找引擎優(yōu)化的聯(lián)系？

什么是robots.txt呢？它是咱們網(wǎng)站上的一個文件。有的網(wǎng)站上沒有，也沒有聯(lián)系。這個文件起到的效果是通知查找引擎，哪個文件能夠查看，哪個文件不能夠查看。查找引擎應(yīng)當(dāng)恪守這樣的規(guī)矩。

關(guān)于研討查找引擎優(yōu)化的高手來說，這是自己網(wǎng)站上一個很有用的文件。關(guān)于咱們初學(xué)者來說，能夠先了解一下就和，不用深究，今后在學(xué)習(xí)和實踐中會慢慢地就會有較深化地了解了。

當(dāng)查找引擎拜訪一個站點時，它要先看一下網(wǎng)站根目錄里有沒有這個文件。如是一個網(wǎng)站沒有這個文件，那么查找引擎就能夠查看悉數(shù)網(wǎng)站文件和跟蹤悉數(shù)鏈接。假如有這個文件，就要依照文件的要求來查看網(wǎng)站。

robots.txt文件具體的寫法和用法，這關(guān)于一個查找引擎優(yōu)化高手對錯常有用的。新手能夠大概了解一下就行：
本帖躲藏的內(nèi)容robots.txt在SEO中效果

在進(jìn)行網(wǎng)站優(yōu)化的時候，經(jīng)常會運用robots文件把一些內(nèi)容不想讓蜘蛛抓取，曾經(jīng)寫過一篇網(wǎng)站優(yōu)化robots.txt文件的運用, 現(xiàn)在寫這編文章在彌補一點點常識！什么是robots.txt文件

查找引擎經(jīng)過一種爬蟲spider程序（又稱查找蜘蛛、robot、查找機器人等），主動搜集互聯(lián)網(wǎng)上的網(wǎng)頁并獲取相關(guān)信息。　
　
鑒于網(wǎng)絡(luò)安全與隱私的考慮，查找引擎遵從robots.txt協(xié)議。經(jīng)過根目錄中創(chuàng)立的純文本文件robots.txt，網(wǎng)站能夠聲明不想被robots拜訪的部分。每個網(wǎng)站都能夠自主操控網(wǎng)站是否情愿被查找引擎錄入，或者指定查找引擎只錄入指定的內(nèi)容。當(dāng)一個查找引擎的爬蟲拜訪一個站點時，它會首先查看該站點根目錄下是否存在robots.txt，假如該文件不存在，那么爬蟲就沿著鏈接抓取，假如存在，爬蟲就會依照該文件中的內(nèi)容來斷定拜訪的范圍。

robots.txt有必要放置在一個站點的根目錄下，并且文件名有必要悉數(shù)小寫。robots.txt文件的格局　　

User-agent: 界說查找引擎的類型　　

Disallow: 界說制止查找引擎錄入的地址　　

Allow: 界說答應(yīng)查找引擎錄入的地址　　

咱們常用的查找引擎類型有： (User-agent區(qū)別大小寫)　　

google蜘蛛：Googlebot 　　

百度蜘蛛：Baiduspider 　　

yahoo蜘蛛：Yahoo!slurp 　　

alexa蜘蛛：ia_archiver 　　

bing蜘蛛：MSNbot　　

altavista蜘蛛：scooter 　　

lycos蜘蛛：lycos_spider_(t-rex) 　　

alltheweb蜘蛛：fast-webcrawler 　　

inktomi蜘蛛： slurp　　

Soso蜘蛛:Sosospider　　

Google Adsense蜘蛛:Mediapartners-Google　　

有道蜘蛛:YodaoBotrobots.txt文件的寫法

　　User-agent: * 這兒的*代表的一切的查找引擎品種，*是一個通配符

　　Disallow: /admin/ 這兒界說是制止爬尋admin目錄下面的目錄

　　Disallow: /require/ 這兒界說是制止爬尋require目錄下面的目錄

　　Disallow: /ABC/ 這兒界說是制止爬尋ABC目錄下面的目錄

　　Disallow: /cgi-bin/*.htm 制止拜訪/cgi-bin/目錄下的一切以".htm"為后綴的URL(包括子目錄)。

　　Disallow: /*?* 制止拜訪網(wǎng)站中一切的動態(tài)頁面　

　Disallow: /jpg$ 制止抓取網(wǎng)頁一切的.jpg格局的圖片

　　Disallow:/ab/adc.html 制止爬去ab文件夾下面的adc.html文件。

　　Allow: /cgi-bin/　這兒界說是答應(yīng)爬尋cgi-bin目錄下面的目錄

　　Allow: /tmp 這兒界說是答應(yīng)爬尋tmp的整個目錄

　　Allow: .htm$ 僅答應(yīng)拜訪以".htm"為后綴的URL。

　　Allow: .gif$ 答應(yīng)抓取網(wǎng)頁和gif格局圖片

robots.txt文件用法舉例　　

例1. 制止一切查找引擎拜訪網(wǎng)站的任何部分

User-agent: * 　　

Disallow: / 　　

實例剖析：淘寶網(wǎng)的 Robots.txt文件　

User-agent: Baiduspider 　　

Disallow: /　　

很顯然淘寶不答應(yīng)百度的機器人拜訪其網(wǎng)站下其一切的目錄。

上一條：查找引擎優(yōu)化入家世31課...

下一條：搜索引擎優(yōu)化第3課：搜索...

查找引擎優(yōu)化入門第38課：什么是robots.txt？robots.txt寫法與

查找引擎優(yōu)化入門第38課：什么是robots.txt？robots.txt寫法與