收錄頁面在百度中的錯(cuò)誤應(yīng)該運(yùn)用好百度站長平臺(tái)的抓取異常
2016-01-15 15:30:43
10652
頁面出現(xiàn)抓取異常是很危險(xiǎn)的!出現(xiàn)抓取異常若不及時(shí)解決,不僅僅會(huì)對(duì)您的站點(diǎn)帶來流量損失,
嚴(yán)重的情況下蜘蛛還可能降低您的站點(diǎn)的評(píng)價(jià),在抓取、索引、排序上都可能會(huì)受到一定程度的負(fù)面影響
應(yīng)該運(yùn)用好百度站長平臺(tái)的抓取異常

從那些方面來找出收錄頁面在百度中的錯(cuò)誤
1.服務(wù)器錯(cuò)誤
返回碼中返回503(其含義是“Service Unavailable”),這樣百度spider會(huì)過段時(shí)間再來嘗試抓取這個(gè)鏈接,如果網(wǎng)站已空閑,則會(huì)被成功抓取。
造成服務(wù)器錯(cuò)誤的原因有多種:網(wǎng)站處于正在進(jìn)行維護(hù);該網(wǎng)站有程序出現(xiàn)批量錯(cuò)誤。最好的解決辦法就是找出程序的錯(cuò)誤并做出適當(dāng)?shù)男薷模绻蔷W(wǎng)站正在進(jìn)行維護(hù),請(qǐng)采用百度站長平臺(tái)的閉站保護(hù)進(jìn)行規(guī)范后然后再進(jìn)行操作。
2.訪問被拒絕
訪問被拒絕最主要的問題就是百度蜘蛛發(fā)起抓取網(wǎng)頁的時(shí)候,httpcode返回的都是403狀態(tài)碼,這樣同樣會(huì)造成百度蜘蛛抓取不到規(guī)范的網(wǎng)頁。造成訪問被拒絕的原因也有多種:網(wǎng)站權(quán)限受限制;IP地址被拒絕;服務(wù)器流量超負(fù)荷。這幾種錯(cuò)誤原因解決辦法也很容易,找出網(wǎng)頁所在目錄給與百度蜘蛛足夠的權(quán)限去抓取頁面,查看百度蜘蛛的IP地址是否被封禁,服務(wù)器流量過大的話那就升級(jí)服務(wù)器。
3.找不到頁面
找不到頁面最主要的問題就是百度蜘蛛發(fā)起抓取網(wǎng)頁的時(shí)候,httpcode返回的都是404狀態(tài)碼,這種錯(cuò)誤是網(wǎng)頁最主要的,幾乎所有的網(wǎng)站都有這種頁面存在。造成找不到頁面的原因可以列舉一大把:過期的團(tuán)購網(wǎng)頁;誤刪數(shù)據(jù)庫;論壇垃圾帖子刪除。其實(shí)這些問題能夠輕而易舉的就解決了,建立合適的404頁面,遇到404狀態(tài)碼就返回404頁面。
4.其他錯(cuò)誤
其他錯(cuò)誤包括的項(xiàng)目就比較多了,但問題大概還是差不多的,就是百度蜘蛛抓起網(wǎng)頁的時(shí)候httpcode返回的4XX狀態(tài)碼,除了403和404之外的其他狀態(tài)碼。這種問題的來源也是蠻多的:請(qǐng)求的URL太長【參數(shù)太多】;要求驗(yàn)證身份;不支持的媒體類型;瀏覽器不接收所請(qǐng)求的頁面。解決這些問題比較復(fù)雜,URL過長的話需要解決參數(shù)的排序位置,身份驗(yàn)證的就要從部分網(wǎng)站權(quán)限控制和其他程序問題來控制了,媒體類型盡量做到每個(gè)類型就覆蓋到自己的網(wǎng)站
運(yùn)用好百度站長平臺(tái)的抓取異常這個(gè)欄目選項(xiàng),你就能找到百度蜘蛛在抓取網(wǎng)頁的時(shí)候遇到的瓶頸,解決掉這些對(duì)蜘蛛爬取的有阻攔的問題,你就能把所有在百度已經(jīng)收錄的頁面統(tǒng)計(jì)出來,然后根據(jù)不同的問題解決掉就可以了