時(shí)間:2015-03-20 13:39:38 瀏覽:2865次
百度站長(zhǎng)中的抓取診斷工具在很多程度上幫助站長(zhǎng)實(shí)現(xiàn)了快速收錄的目的?,F(xiàn)在百度再次發(fā)布公告在該工具組中增加了詳細(xì)錯(cuò)誤說明功能,這將更加便捷站長(zhǎng)們快速了解網(wǎng)站情況。那今天筆者小丹就將相關(guān)信息分享與大家。
百度站長(zhǎng)平臺(tái)抓取診斷工具全新升級(jí),增加抓取錯(cuò)誤詳細(xì)說明,同時(shí)優(yōu)化了工具界面,幫助站長(zhǎng)更快捷的了解網(wǎng)站頁面在百度spider中的抓取狀態(tài)和抓取內(nèi)容,以來確定網(wǎng)頁在百度中的抓取是否符合預(yù)期。
升級(jí)版抓取診斷工具地址:http://zhanzhang.baidu.com/crawltools/index
抓取診斷工具,可以讓站長(zhǎng)從百度蜘蛛的視角查看抓取內(nèi)容,自助診斷百度蜘蛛看到的內(nèi)容,和預(yù)期是否一致。每個(gè)站點(diǎn)每周可使用70次,抓取結(jié)果只展現(xiàn)百度蜘蛛可見的前200KB內(nèi)容。
一、抓取診斷工具功能亮點(diǎn):
1、模擬百度spider抓取,診斷抓取內(nèi)容是否符合預(yù)期:能夠模擬PCUA和移動(dòng)UA對(duì)網(wǎng)頁進(jìn)行抓取,抓取結(jié)果能夠展現(xiàn)spider可見的前200KB內(nèi)容,幫助站長(zhǎng)診斷網(wǎng)站在百度中的抓取是否存在問題。該工具每個(gè)站點(diǎn)每周可使用70次。
2、能夠檢查網(wǎng)頁是否被加了黑鏈或隱藏文本。
3、通知百度更新網(wǎng)站IP:檢查百度訪問的網(wǎng)站IP是否正確,若抓取IP錯(cuò)誤,可通過報(bào)錯(cuò)通知百度更新IP。
4、增加詳細(xì)的抓取失敗說明:對(duì)抓取失敗的頁面,增加了詳細(xì)的說明,輔助站長(zhǎng)快速解決網(wǎng)站問題。
二、抓取診斷工具的作用:
1、診斷抓取內(nèi)容是否符合預(yù)期,譬如很多商品詳情頁面,價(jià)格信息是通過JavaScript輸出的,對(duì)百度蜘蛛不友好,價(jià)格信息較難在搜索中應(yīng)用。問題修正后,可用診斷工具再次抓取檢驗(yàn)。
2、診斷網(wǎng)頁是否被加了黒鏈、隱藏文本。網(wǎng)站如果被黑,可能被加上隱藏的鏈接,這些鏈可能只在百度抓取時(shí)才出現(xiàn),需要用此抓取工具診斷。
3、檢查網(wǎng)站與百度的連接是否暢通,若是IP信息不一致,可以報(bào)錯(cuò)通知百度更新IP。
三、抓取診斷工具常見錯(cuò)誤類型解析
1、url規(guī)范
百度支持抓取的url長(zhǎng)度不超過1024,如果您的鏈接長(zhǎng)度過長(zhǎng),請(qǐng)?jiān)诒WC正常訪問的情況下,適當(dāng)精簡(jiǎn),保證鏈接能被百度正常抓取和收錄。
2、重定向錯(cuò)誤
重定向是指百度spider訪問鏈接時(shí)發(fā)生了跳轉(zhuǎn),如果跳轉(zhuǎn)后的鏈接超長(zhǎng)或者連續(xù)跳轉(zhuǎn)的次數(shù)超過5次,就會(huì)發(fā)生重定向錯(cuò)誤而導(dǎo)致抓取失敗。
3、服務(wù)器連接錯(cuò)誤
這種情況是指,由于服務(wù)器響應(yīng)過慢或您的網(wǎng)站屏蔽了百度spider,而導(dǎo)致百度無法訪問您的網(wǎng)站。從而會(huì)導(dǎo)致百度無法正常收錄或者更新您網(wǎng)站的內(nèi)容。您可能看到以下具體錯(cuò)誤:連接超時(shí)、連接失敗、連接被拒、無響應(yīng)、響應(yīng)遭到截?cái)?、連接重置、標(biāo)頭遭到截?cái)?、超時(shí)。
4、如何處理服務(wù)器連接錯(cuò)誤?
減少動(dòng)態(tài)網(wǎng)頁請(qǐng)求的過多網(wǎng)頁加載。如果網(wǎng)站為多個(gè)網(wǎng)址提供相同內(nèi)容,則會(huì)被視為動(dòng)態(tài)提供內(nèi)容(例如,www.example.com/shoes.php?color=red&size=7與www.example.com/shoes.php?size=7&color=red提供的內(nèi)容相同)。動(dòng)態(tài)網(wǎng)頁的響應(yīng)時(shí)間可能會(huì)很長(zhǎng),并會(huì)因此導(dǎo)致超時(shí)問題?;蛘?,服務(wù)器可能會(huì)返回超載狀態(tài),要求百度spider放慢抓取該網(wǎng)站的速度。一般來說,建議您盡量使用簡(jiǎn)短的參數(shù)并謹(jǐn)慎使用。
確保您網(wǎng)站的托管服務(wù)器沒有停止運(yùn)行、超載或配置不當(dāng)。如果連接問題、超時(shí)問題或響應(yīng)問題仍然存在,請(qǐng)與您的網(wǎng)站托管服務(wù)提供商聯(lián)系,并考慮增強(qiáng)您的網(wǎng)站處理流量的能力。
檢查網(wǎng)站是否不小心屏蔽了百度spider的IP。您可能會(huì)由于系統(tǒng)級(jí)問題而阻止了百度訪問,例如DNS配置問題、配置不當(dāng)?shù)姆阑饓駾oS防護(hù)系統(tǒng)、內(nèi)容管理系統(tǒng)配置問題。防御系統(tǒng)是保證托管服務(wù)正常運(yùn)行的關(guān)鍵因素之一,并且這些系統(tǒng)通常會(huì)配置為自動(dòng)阻止超量的服務(wù)器請(qǐng)求。由于百度spider發(fā)出的請(qǐng)求通常要比普通用戶多,因此可能會(huì)觸發(fā)這些防御系統(tǒng),導(dǎo)致它們阻止百度spider訪問并抓取您的網(wǎng)站。要解決此類問題,您需要確定網(wǎng)站基礎(chǔ)架構(gòu)中的哪個(gè)部分在阻止百度spider,然后取消該阻止。如果您沒有控制防火墻的權(quán)限,就需要與您的托管服務(wù)提供商聯(lián)系解決此問題。
5、robots封禁問題
在抓取診斷工具中如果返回的抓取失敗結(jié)論是robots封禁,請(qǐng)確認(rèn)您是否對(duì)該網(wǎng)址設(shè)置了robots,阻止百度spider抓取網(wǎng)站的某些內(nèi)容,如果您未使用robots文件屏蔽百度,請(qǐng)點(diǎn)擊旁邊的報(bào)錯(cuò)鏈接,百度會(huì)立即更新您站點(diǎn)的robots信息;如果是您的誤操作導(dǎo)致了封禁,請(qǐng)及時(shí)修改robots文件,避免造成您的網(wǎng)站在百度收錄量和流量的下降。
6、DNS問題
DNS錯(cuò)誤是指由于服務(wù)器停止運(yùn)行或DNS到您網(wǎng)域的路由存在問題,導(dǎo)致百度spider無法與DNS服務(wù)器通信。
7、如何處理DNS錯(cuò)誤?
確保百度能夠抓取您的網(wǎng)站。對(duì)重要網(wǎng)頁(例如您的首頁)采用抓取診斷工具,如果它能順利返回您的首頁內(nèi)容,那么您就可以認(rèn)為百度能夠正常訪問您的網(wǎng)站。
對(duì)于持續(xù)的或反復(fù)出現(xiàn)的DNS錯(cuò)誤,請(qǐng)與您的DNS提供商聯(lián)系。通常情況下,您的DNS提供商即為網(wǎng)站托管服務(wù)提供商。
配置您的服務(wù)器,使其能夠以404或500等HTTP錯(cuò)誤代碼對(duì)不存在的主機(jī)名作出響應(yīng)。
8、404錯(cuò)誤
一般情況下,當(dāng)百度spider訪問到不存在的網(wǎng)頁(因?yàn)槟鷦h除或重命名了網(wǎng)頁且沒有將舊網(wǎng)址重定向到新網(wǎng)頁,或者鏈接中存在拼寫錯(cuò)誤)時(shí),就會(huì)出現(xiàn)“未找到”狀態(tài)錯(cuò)誤(通常是404 HTTP狀態(tài)代碼)。
9、訪問遭拒絕
一般情況下,百度會(huì)通過跟蹤網(wǎng)頁間的鏈接來查找內(nèi)容。百度spider必須能夠訪問某個(gè)網(wǎng)頁才能抓取該網(wǎng)頁。如果您意外地看到了“訪問遭拒”錯(cuò)誤,可能是由于以下幾種原因?qū)е碌模?/P>
(1)百度spider無法訪問您網(wǎng)站上的網(wǎng)址,因?yàn)槟W(wǎng)站上的所有或部分內(nèi)容要求用戶登錄后才能查看。
(2)您的服務(wù)器要求用戶使用代理進(jìn)行身份驗(yàn)證,或者您的托管服務(wù)提供商阻止百度spider訪問您的網(wǎng)站。
10、參數(shù)錯(cuò)誤
由于請(qǐng)求的語法格式有誤,不符合服務(wù)器對(duì)請(qǐng)求的某些限制,或者請(qǐng)求本身存在一定的錯(cuò)誤,服務(wù)器無法理解此請(qǐng)求,導(dǎo)致抓取失敗。
11、socket讀寫錯(cuò)誤
當(dāng)百度spider訪問服務(wù)器,進(jìn)行tcp通信的時(shí)候,socket讀寫發(fā)生異常,導(dǎo)致數(shù)據(jù)不能正常返回。請(qǐng)檢查服務(wù)器連接狀況和防火墻設(shè)置是否符合預(yù)期。
12、讀取http頭或者頁面內(nèi)容時(shí)失敗
您的服務(wù)器收到了我們的完整請(qǐng)求,但是返回信息時(shí)不完整,http頭或者響應(yīng)正文發(fā)生了截?cái)?,?dǎo)致網(wǎng)頁內(nèi)容不能正常讀取。
四、怎樣使用抓取診斷工具:
第一步:注冊(cè)并登錄百度站長(zhǎng)平臺(tái)
第二步:添加網(wǎng)站并驗(yàn)證歸屬,具體驗(yàn)證網(wǎng)站歸屬方法可見幫助文檔
http://www.baidu.com/search/sitemap_help.html 。
第三步:進(jìn)入站長(zhǎng)工具頁面,選擇“抓取診斷工具”進(jìn)入使用。
(轉(zhuǎn)載請(qǐng)注明轉(zhuǎn)自:flw114.cn/news/n1637.htm,謝謝!珍惜別人的勞動(dòng)成果,就是在尊重自己!)
24小時(shí)服務(wù)熱線:400-1180-360
業(yè)務(wù) QQ: 444961110電話: 0311-80740308
渠道合作: 444961110@qq.com
河北供求互聯(lián)信息技術(shù)有限公司(河北供求網(wǎng))誕生于2003年4月,是康靈集團(tuán)旗下子公司,也是河北省首批從事網(wǎng)站建設(shè)、電子商務(wù)開發(fā),并獲得國(guó)家工業(yè)和信息化部資質(zhì)認(rèn)證的企業(yè)。公司自成立以來,以傳播互聯(lián)網(wǎng)文化為已任, 以高科技為起點(diǎn),以網(wǎng)絡(luò)營(yíng)銷研究與應(yīng)用為核心,致力于為各企事業(yè)單位提供網(wǎng)絡(luò)域名注冊(cè)、虛擬主機(jī)租用、網(wǎng)站制作與維護(hù)、網(wǎng)站推廣和宣傳、網(wǎng)站改版與翻譯、移動(dòng)互聯(lián)網(wǎng)營(yíng)銷平臺(tái)開發(fā)與運(yùn)營(yíng)、企業(yè)郵局、網(wǎng)絡(luò)支付、系統(tǒng)集成、軟件開發(fā)、電子商務(wù)解決方案等優(yōu)質(zhì)的信息技術(shù)服務(wù),與中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心、騰訊、百度、阿里巴巴、搜狗、360、電信、聯(lián)通、中國(guó)數(shù)據(jù)、萬網(wǎng)、中資源、陽光互聯(lián)、點(diǎn)點(diǎn)客、北龍中網(wǎng)、電信通等達(dá)成戰(zhàn)略合作伙伴關(guān)系。
版權(quán)所有 ? 河北供求互聯(lián)信息技術(shù)有限公司-優(yōu)秀的石家莊網(wǎng)站建設(shè)公司,為您提供石家莊網(wǎng)站建設(shè)、網(wǎng)站推廣等優(yōu)質(zhì)服務(wù).
服務(wù)熱線:400-1180-360 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:冀B2-20105159 冀ICP備09010972號(hào)
掃一掃
贈(zèng)送神秘大禮
全國(guó)免費(fèi)服務(wù)熱線
400-1180-360