歡迎來(lái)到合肥浪訊網(wǎng)絡(luò)科技有限公司官網(wǎng)
  咨詢服務(wù)熱線:400-099-8848

怎么檢索和剖析網(wǎng)站日志文件

發(fā)布時(shí)間:2018-05-22 文章來(lái)源:本站  瀏覽次數(shù):3654

作為SEOer,咱們運(yùn)用的林林總總的東西,以搜集林林總總的技能問(wèn)題,網(wǎng)站剖析,抓取確診,百度站長(zhǎng)東西等。所有這些東西是有用的,但都無(wú)法比擬在網(wǎng)站日志數(shù)據(jù)剖析查找引擎蜘蛛抓取,就像Googlebot到爬取您的網(wǎng)站并您的網(wǎng)站上留下了一個(gè)實(shí)在的記錄。這是網(wǎng)絡(luò)效勞器日志。日志是一個(gè)強(qiáng)壯的源數(shù)據(jù)常常沒有得到充分使用,但有助于堅(jiān)持您的網(wǎng)站的查找引擎抓取檢查的完整性。

效勞器日志是由一個(gè)特定的效勞器進(jìn)行具體記錄了每一個(gè)動(dòng)作。在一個(gè)Web效勞器的情況下,你能夠得到許多有用的信息。怎么檢索和剖析日志文件,并根據(jù)您的效勞器的呼應(yīng)代碼(404,302,500等)的辨認(rèn)問(wèn)題。我將它分解成2個(gè)部分,每個(gè)部分突出不同的問(wèn)題,能夠發(fā)現(xiàn)在您的Web效勞器日志

一、獲取日志文件

查找引擎抓取網(wǎng)站信息必會(huì)在效勞器上留下信息,這個(gè)信息就在網(wǎng)站日志文件里。咱們經(jīng)過(guò)日志能夠了解查找引擎的拜訪情況,一般經(jīng)過(guò)主機(jī)效勞商注冊(cè)日志功用,再經(jīng)過(guò)FTP拜訪網(wǎng)站的根目錄,在根目錄下能夠看到一個(gè)log或許weblog文件夾,這里邊就是日志文件,咱們把這個(gè)日志文件下載下來(lái),用記事本(或?yàn)g覽器)翻開就能夠看到網(wǎng)站日志的內(nèi)容。那么究竟這個(gè)日志里邊躲藏了什么玄機(jī)呢?其實(shí)日志文件就像飛機(jī)上的黑匣子。咱們能夠經(jīng)過(guò)這個(gè)日志了解許多信息,那么究竟這個(gè)日志給咱們傳遞了什么內(nèi)容呢?下面先做一個(gè)簡(jiǎn)單的闡明。

日期:這將讓你一天查找引擎抓取速度的發(fā)展趨勢(shì)進(jìn)行剖析。

被爬取文件:這將通知你哪些被抓取的目錄和文件,并在某些路段或類型的內(nèi)容能夠協(xié)助查明問(wèn)題。

情況碼:(只列出常見到并能直接反正網(wǎng)站問(wèn)題的情況碼)

200情況碼:懇求已成功,懇求所希望的呼應(yīng)頭或數(shù)據(jù)體將隨此呼應(yīng)回來(lái)。

302情況碼:懇求的資源現(xiàn)在暫時(shí)從不同的URI呼應(yīng)懇求。

404情況碼:懇求失利,懇求所希望得到的資源未被在效勞器上發(fā)現(xiàn)。

500情況碼:效勞器遇到了一個(gè)未曾預(yù)料的情況,導(dǎo)致了它無(wú)法完成對(duì)懇求的處理。

- - 供給了哪些網(wǎng)頁(yè)被爬蟲運(yùn)轉(zhuǎn)到并反響出什么樣的問(wèn)題。

從哪里來(lái):盡管這不一定是有用的剖析查找機(jī)器人,它是非常有價(jià)值的,其他的流量剖析。

哪種爬蟲:這個(gè)會(huì)通知你哪個(gè)查找引擎爬蟲在你的網(wǎng)頁(yè)上運(yùn)轉(zhuǎn)的。

二、解析網(wǎng)站日志文件

現(xiàn)在你需求一個(gè)日志剖析東西,由于假如你的網(wǎng)站有幾M或幾十M甚至百M(fèi)以上的日志數(shù)據(jù)時(shí),你不可能一條條去看。再說(shuō),就算日志數(shù)據(jù)不多,一條條看也是不科學(xué)的。


查找引擎抓取您的網(wǎng)站有最快的方法是看在正在效勞的效勞器呼應(yīng)代碼。404(找不到頁(yè)面)可能意味著抓取那寶貴的資源被浪費(fèi)了;302重定向懇求的資源現(xiàn)在暫時(shí)從不同的URI呼應(yīng)懇求;500是效勞器遇到了一個(gè)未曾預(yù)料的情況,導(dǎo)致了它無(wú)法完成對(duì)懇求的處理,能夠剖分出效勞器呈現(xiàn)的問(wèn)題。盡管網(wǎng)站辦理東西供給了一些信息,這樣的過(guò)錯(cuò),會(huì)給你的網(wǎng)站形成一個(gè)非常大的影響。


302呈現(xiàn)的問(wèn)題數(shù)量是能夠承受的,可是不代表能夠放著不去處理,咱們應(yīng)該有更好的方法來(lái)處理這些問(wèn)題,或許用一個(gè)robots.txt指令應(yīng)掃除這些頁(yè)面被抓取。

404也需求處理,找出潛在的問(wèn)題是阻隔404目錄或許運(yùn)用rel =”nofollow”注釋這些404鏈接。當(dāng)然404的頁(yè)面也有必要要有。

結(jié)語(yǔ)

百度網(wǎng)站辦理為您供給抓取過(guò)錯(cuò)的信息,但在許多情況下,它們約束了數(shù)據(jù)。作為SEO的,咱們應(yīng)該使用全部可用的數(shù)據(jù),究竟只要一個(gè)數(shù)據(jù)源,你能夠真正依托自己的源。日志不說(shuō)謊!

上一條:節(jié)日暴升詞查找潛力發(fā)掘二...

下一條:正確運(yùn)用百度共享東西 讓...