欧美猛男军人gay巨大,午夜无码影院在线

搜索引擎的工作原理之抓取

來源：flw114.cn　作者：筆者小丹　時間：2020-05-19 11:21:53　瀏覽：2351次

搜索引擎的存在是為了發(fā)現(xiàn)，抓取，整合互聯(lián)網(wǎng)中的內(nèi)容，在用戶進行提出問題進行搜索時候能夠快速的為用戶提出相關的結果展示。為了讓我們的網(wǎng)站能夠展示在搜索引擎結果中，我們的內(nèi)容必須要對搜索引擎友好，可見性。也就是說在SEO優(yōu)化的難題中，首先是要讓搜索引擎發(fā)現(xiàn)我們的網(wǎng)站，否則我們的網(wǎng)站內(nèi)容則永遠不可能出現(xiàn)的搜索引擎結果頁中。
搜索引擎的主要有三個功能板塊：

1、抓?。涸诰W(wǎng)絡上抓取內(nèi)容，查看網(wǎng)站找到的每個URL的代碼對于的相應內(nèi)容。

2、索引：存儲和組織在爬網(wǎng)過程中找到的內(nèi)容，頁面進入索引后，就會在運行中顯示為相關查詢的結果。

3、排名：提供最能回答用戶查詢的內(nèi)容，這意味著搜索結果的排序方式從最相關到最不相關。

抓取是一種發(fā)現(xiàn)過程，搜索引擎在其中發(fā)現(xiàn)一組機器人也就是我們所說的搜索引擎蜘蛛，來尋找新的和更新的內(nèi)容。內(nèi)容可以有所不同，可以是網(wǎng)頁，圖片，視頻，PDF等但無論格式如何，內(nèi)容都是通過鏈接發(fā)現(xiàn)的。

Googlebot首先獲取一些網(wǎng)頁，然后按照這些網(wǎng)頁上的鏈接查找新的URL。通過沿著鏈接的這種路徑跳動，蜘蛛可以找到新內(nèi)容并將其添加到名為Caffeine的索引中，以后當用戶搜索到該URL上的內(nèi)容為很適合。搜索引擎處理并存儲他們在索引中找到的信息，索引是他們發(fā)現(xiàn)并認為足以為用戶服務的所有內(nèi)容的龐大數(shù)據(jù)庫。當有人進行搜索時，搜索引擎會在索引中搜索高度相關的內(nèi)容，然后對這些內(nèi)容進行排序，以解決用戶的查詢，我們搜索結果的相關性排序稱為排名。通常，我們可以假設網(wǎng)站的排名越高，搜索引擎認為該網(wǎng)站與查詢的相關性就越高。

有可能阻止我們的部分或全部網(wǎng)站訪問搜索引擎爬網(wǎng)程序，或者指示搜索引擎避免將某些頁面存儲在其索引中。盡管我們這樣做有一定的原因，但是如果我們希望用戶找到我們的內(nèi)容，則必須首先確保抓取工具可以訪問該內(nèi)容并將其編入索引。否則，一切的優(yōu)化工作將都是徒勞。我們都認為SEO排名是由數(shù)據(jù)來決定的，所以是客觀的，公平的。其實不然！許多初學者想知道特定搜索引擎的相對重要性。大多數(shù)人都知道Google擁有最大的市場份額，但是對Bing，Yahoo和其他公司進行優(yōu)化對它有多重要呢？事實是，盡管存在30多個主要的網(wǎng)絡搜索引擎，但SEO社區(qū)實際上只關注Google。因為絕大多數(shù)人都在Google搜索網(wǎng)站。如果我們將Google Images，Google Maps和YouTube包括在內(nèi)，則超過90％的網(wǎng)絡搜索是在Google上進行的，這是Bing和Yahoo的總和的近20倍。

介紹了搜索引擎的主要功能原理，下面我們來分析搜索原理的第一部分—爬行抓取。

正如我們剛剛了解到的那樣，確保對我們的網(wǎng)站進行爬網(wǎng)和建立索引是在搜索引擎結果頁中顯示的先決條件。如果我們已經(jīng)有一個網(wǎng)站，則最好先查看索引中有多少頁面，然后再開始。這將對Google是否正在爬網(wǎng)并找到我們想要的所有頁面，以及我們不需要的所有頁面產(chǎn)生一些深刻的見解。檢查索引頁面的一種方法是高級搜索運算符“ site：aaa.com”。轉到Google，然后在搜索欄中輸入“ site：aaa.com”這將返回Google在其指定網(wǎng)站的索引中具有的結果。Google所顯示的結果數(shù)量并不確切，但是它確實使我們對網(wǎng)站上哪些頁面建立了索引以及它們當前在搜索結果中的顯示方式有一個明確的了解。為了獲得更準確的結果，請在Google Search Console中監(jiān)控和使用“索引覆蓋率”報告。如果我們目前沒有免費的Google Search Console帳戶，可以注冊一個。使用此工具，我們可以提交網(wǎng)站的網(wǎng)站地圖，并監(jiān)視實際上已將多少已提交的頁面添加到Google的索引中。

如果我們沒有在搜索結果中顯示任何位置，則可能有以下幾種原因：

1、我們的網(wǎng)站是全新的，尚未進行爬網(wǎng)。

2、我們的網(wǎng)站未從任何外部網(wǎng)站鏈接到。

3、我們網(wǎng)站的導航使機器人很難有效地對其進行爬網(wǎng)。

4、我們的網(wǎng)站包含一些稱為蜘蛛指令的基本代碼，這些基本代碼會阻止搜索引擎。

如果我們使用Google Search Console或“ site：aaa.com”高級搜索運算符，但發(fā)現(xiàn)索引中缺少某些重要頁面和/或某些不重要的頁面被錯誤地編入索引，則可以進行一些優(yōu)化實施，以更好地指導Googlebot我們要如何抓取網(wǎng)絡內(nèi)容。告訴搜索引擎如何抓取我們的網(wǎng)站可以使我們更好地控制索引中的內(nèi)容。大多數(shù)人都考慮過確保Google可以找到自己的重要頁面，但是很容易忘記，有些頁面可能是我們不希望Googlebot找到的。這些內(nèi)容可能包括諸如內(nèi)容稀少的舊URL，重復的URL特殊的促銷代碼頁，登臺或測試頁之類的內(nèi)容。

要使Googlebot遠離我們網(wǎng)站的某些頁面和部分，請使用robots.txt。Robots.txt文件位于網(wǎng)站的根目錄中，建議我們應該和不應該搜索網(wǎng)站的哪些部分，以及它們搜索網(wǎng)站的速度，通過特定的robots.txt指令。那么，Googlebot如何處理robots.txt文件呢？

1、如果Googlebot找不到網(wǎng)站的robots.txt文件，則會繼續(xù)抓取該網(wǎng)站。

2、如果Googlebot找到了網(wǎng)站的robots.txt文件，則通常會遵守建議并繼續(xù)抓取該網(wǎng)站。

3、如果Googlebot在嘗試訪問網(wǎng)站的robots.txt文件時遇到錯誤，并且無法確定該網(wǎng)站是否存在，它將不會抓取該網(wǎng)站。

抓取是Googlebot離開前將在我們的網(wǎng)站上抓取的URL的平均數(shù)量，因此抓取預算優(yōu)化可確保Googlebot不會浪費時間在不重要的頁面上進行抓取，而忽略了重要頁面的風險。在擁有成千上萬個網(wǎng)址的大型網(wǎng)站上，抓取預算是最重要的，但是阻止抓取工具訪問我們絕對不在意的內(nèi)容絕不是一個壞主意。只要確保不阻止爬網(wǎng)程序訪問我們添加了其他指令的頁面即可。如果某個頁面禁止了Googlebot，將無法看到該頁面上的說明。當然，并非所有的網(wǎng)絡機器人都遵循robots.txt。有惡意的人會構建不遵循此協(xié)議的漫游器。實際上，一些不良用戶會使用robots.txt文件來查找我們的私人內(nèi)容所在的位置。盡管將爬網(wǎng)程序阻止在諸如登錄和管理頁面之類的私人頁面中以使其不顯示在索引中似乎合乎邏輯，但將這些URL的位置放在可公開訪問的robots.txt文件中也意味著存在惡意意圖的人可以更輕松地找到它們。最好讓這些頁面NoIndex并在登錄表單后設置它們，而不是將它們放在robots.txt文件中。

通過將某些參數(shù)附加到URL，某些站點在多個不同的URL上提供相同的內(nèi)容。如果我們曾經(jīng)在線購物，則可能已通過過濾器縮小了搜索范圍，每次優(yōu)化時，URL都會略有變化。Google如何知道要提供給用戶的URL版本？ Google在自行找出代表性URL方面做得很好，但是我們可以使用Google Search Console中的URL Parameters功能來確切告訴Google我們希望他們?nèi)绾螌ΥW(wǎng)頁。如果我們使用此功能告訴Googlebot“不使用參數(shù)抓取網(wǎng)址”，那么我們實際上是在要求從Googlebot隱藏該內(nèi)容，這可能會導致這些頁面從搜索結果中刪除。如果這些參數(shù)創(chuàng)建了重復的頁面，那就是我們想要的，但是如果我們希望這些頁面被索引，那是不理想的。

蜘蛛可以找到我們所有的重要內(nèi)容嗎？既然我們已經(jīng)知道了確保搜索引擎抓取工具遠離我們不重要的內(nèi)容的一些策略，那么讓我們了解一下可以幫助Googlebot查找重要頁面的優(yōu)化方法。有時，搜索引擎將能夠通過爬網(wǎng)找到我們網(wǎng)站的某些部分，但是其他頁面或部分可能由于某種原因而被遮蓋。重要的是要確保搜索引擎能夠發(fā)現(xiàn)我們想要索引的所有內(nèi)容而不僅僅是首頁。如果我們要求用戶在訪問某些內(nèi)容之前登錄，填寫表格或回答調(diào)查，搜索引擎將不會看到那些受保護的頁面。爬網(wǎng)程序是不會登錄的。機器人程序無法使用搜索表單。有些人認為，如果他們在自己的網(wǎng)站上放置搜索框，則搜索引擎將能夠找到其訪客搜索的所有內(nèi)容。非文本媒體形式如圖片，視頻，GIF等不應用于顯示希望被索引的文本。盡管搜索引擎在識別圖片方面變得越來越好，但并不能保證它們現(xiàn)在仍能夠閱讀和理解圖片。始終最好在網(wǎng)頁的<HTML>標記內(nèi)添加文本。就像爬蟲需要通過其他站點的鏈接來發(fā)現(xiàn)我們的站點一樣，它也需要我們自己站點上的鏈接路徑來引導頁面之間的鏈接。如果我們有要搜索引擎查找的頁面，但未從任何其他頁面鏈接到該頁面，則與隱藏頁面一樣好。許多網(wǎng)站都犯了嚴重的錯誤，即以搜索引擎無法訪問的方式來構建導航結構，從而阻礙了其在搜索結果中列出的功能。

常見的導航錯誤可能使爬網(wǎng)程序無法看到我們的所有站點：移動導航顯示的結果與pc導航不同，菜單項不在HTML中的任何類型的導航，例如啟用JavaScript的導航。Google在抓取和理解Java方面已經(jīng)做得更好，但是仍然不是一個完美的過程。確保某些東西被Google找到，理解和建立索引的更可靠方法是將其放入HTML中。個性化或相對于其他類型的訪問者顯示獨特的導航方式似乎掩蓋了搜索引擎爬蟲，忘記通過導航鏈接到我們網(wǎng)站上的主頁-記住，鏈接是爬蟲遵循的進入新頁面的路徑。這就是為什么網(wǎng)站必須具有清晰的導航和有用的URL文件夾結構至關重要的原因。

信息體系結構是一種組織和標記網(wǎng)站上的內(nèi)容以提高用戶效率和可發(fā)現(xiàn)性的實踐。最好的信息體系結構是直觀的，這意味著用戶不必費心思量即可瀏覽我們的網(wǎng)站或查找內(nèi)容。那么可以使用網(wǎng)地圖，網(wǎng)站地圖就是它的外觀，爬網(wǎng)程序可用來發(fā)現(xiàn)我們的內(nèi)容并將其編入索引的站點上URL列表。確保Google查找優(yōu)先級最高的頁面的最簡單方法之一是創(chuàng)建符合Google標準的文件，然后通過Google Search Console提交文件。盡管提交網(wǎng)站地圖并不能代替良好的站點導航，但可以肯定地幫助爬網(wǎng)程序遵循通往所有重要頁面的路徑。確保僅包含要由搜索引擎索引的URL，并確保為抓取工具提供一致的方向。例如，如果我們已經(jīng)通過robots.txt阻止了該網(wǎng)址，則不要在我們的網(wǎng)站地圖中包含該網(wǎng)址，或者在我們的網(wǎng)站地圖中包含重復的網(wǎng)址，而不是首選的范本。如果我們的網(wǎng)站沒有其他鏈接到該網(wǎng)站，則仍可以通過在Google Search Console中提交XML網(wǎng)站地圖來對其進行索引。不能保證他們將在索引中包含一個提交的URL，但是去嘗試一下。

有很多朋友有過這樣的疑問：蜘蛛嘗試訪問我們的URL時是否出錯？

其實，在搜索我們網(wǎng)站上的URL的過程中，蜘蛛可能會遇到錯誤。我們可以轉到Google Search Console的“抓取錯誤”報告，以檢測可能發(fā)生此錯誤的網(wǎng)址該報告將向我們顯示服務器錯誤和未發(fā)現(xiàn)的錯誤。服務器日志文件還可以向我們顯示此信息，以及其他信息如抓取頻率的數(shù)據(jù)庫，但是由于訪問和剖析服務器日志文件是一種更高級的策略。我們必須先了解服務器錯誤和“未找到”錯誤，然后才能對抓取錯誤報告進行有意義的任何操作。

4xx代碼：當搜索引擎抓取工具由于客戶端錯誤而無法訪問我們的內(nèi)容時

4xx錯誤是客戶端錯誤，這意味著請求的URL語法錯誤或無法實現(xiàn)。最常見的4xx錯誤之一是“ 404 –未找到”錯誤。這些可能是由于URL錯字，已刪除頁面或斷開的重定向而引起的，僅舉幾個例子。當搜索引擎搜索到404時，它們將無法訪問該URL。當用戶點擊404時，他們可能會感到沮喪而離開。

5xx代碼：當搜索引擎抓取工具由于服務器錯誤而無法訪問我們的內(nèi)容時

5xx錯誤是服務器錯誤，這意味著網(wǎng)頁所在的服務器無法滿足用戶或搜索引擎訪問該頁面的請求。在Google Search Console的“抓取錯誤”報告中，有一個專門針對這些錯誤的標簽。這些通常是由于對URL的請求超時而導致的，因此Googlebot放棄了該請求。查看Google的文檔，以了解有關解決服務器連接問題的更多信息。

不過，有一種方法可以告知用戶和搜索引擎我們的頁面已301（永久）重定向。

假設我們將頁面從aaa.com/b-c/移至aaa.com/d/。搜索引擎和用戶需要一個橋梁，以從舊URL過渡到新URL。該橋是301重定向。當我們實施301時：當我們未實施301時：鏈接資產(chǎn)將鏈接的資產(chǎn)從頁面的舊位置轉移到新URL。如果沒有301，則來自先前URL的權限不會傳遞到URL的新版本。索引幫助Google查找和索引頁面的新版本，僅在我們的網(wǎng)站上出現(xiàn)404錯誤并不會損害搜索性能，但是讓排名/被投放的頁面404可能會導致它們不在索引之列，排名和訪問量隨之而來。用戶體驗確保用戶找到他們要查找的頁面。允許訪問者單擊無效鏈接會將他們帶到錯誤頁面，而不是預期的頁面，這可能會用戶降低體驗。

301狀態(tài)代碼本身表示該頁面已永久移動到新位置，因此請避免將URL重定向到不相關的頁面，即原來的URL內(nèi)容實際上不存在的URL。如果頁面正在為查詢排名，而我們將其301鏈接到具有不同內(nèi)容的URL，則該頁面的排名可能會下降，因為與該特定查詢相關的內(nèi)容不再存在。301負責任地移動URL。我們還可以選擇302重定向頁面，但這應該保留給臨時移動，以及在不太需要傳遞鏈接凈值的情況下。302有點像繞道而行我們暫時通過某條路徑吸引流量，但不會永遠這樣。所以，一定要注意重定向鏈接。如果Googlebot必須進行多次重定向，可能很難到達我們的頁面。Google稱這些為“重定向鏈”，他們建議盡可能限制它們。如果我們將aaa.com/1重定向到aaa.com/2，然后再決定將其重定向到aaa.com/3，則最好消除中間人，只需將aaa.com/1重定向到aaa.com/3。在確定我們的網(wǎng)站針對爬網(wǎng)能力進行了優(yōu)化之后，下一個優(yōu)化操作就是要確保它可以被索引。

(轉載請注明轉自：flw114.cn，謝謝!珍惜別人的勞動成果，就是在尊重自己!）

上一篇：搜索引擎的工作原理之索引 下一篇：SEO是什么，為什么那么重要？: 返回列表

搜索引擎的工作原理之抓取

最新案例

網(wǎng)站建設知識

更多 +聯(lián)系我們

更多 +關于我們