今天我們來講解下“百度搜索引擎工作原理(詳細講解)!”如果想要做好網站SEO,就必須要了解百度搜索引擎的工作原理,然后我們才可以對應的去操作,對吧!SEO優化操作其實就是根據搜索引擎的原理去順應操作,百度喜歡什么,我們就提供什么,然后得到百度的認可,給予我們相應的排名,下面我們詳細進行講解“百度引擎的工作原理”!
搜索引擎工作過程非常復雜,我這里只簡單介紹搜索引擎是怎樣實現網頁排名的,并且我只是針對注冊類博客的SEO需要了解的知識。本文章介紹的內容相對于真正的搜索引擎技術,來說只是皮毛,不過對博客的SEO已經足夠用了。我盡量最容易理解的方式,并且不設計到算法和深奧的理論知識。

搜索引擎的工作過程大體上可以分成三個階段:爬行和抓取、預處理、返回搜索結果。
爬行和抓取
搜索引擎蜘蛛通過跟蹤鏈接訪問網頁,獲得頁面HTML代碼存入數據庫。
搜索引擎蜘蛛是怎樣抓取網頁的呢?
發現某一個鏈接 → 下載這一個網頁 → 加入到臨時庫 → 提取網頁中的鏈接 → 在下載網頁 → 循環。

首先搜索引擎的蜘蛛需要去發現鏈接,至于怎么發現就簡單了,就是通過鏈接發現鏈接。其方式有深度優先和廣度優先。當然我們注冊的博客基本不考慮網站目錄結構的問題。通常網站結構通常分為以下三個層次:首頁——頻道——文章頁。理想的網站結構應該是更扁平一些,從首頁到內容頁的層次盡量少,這樣搜索引擎處理起來,會更簡單。
對于博客SEO,要想讓蜘蛛抓取我們的文章,就必須為文章導入鏈接。無論是外部鏈接還是同一個博客的內部鏈接,都可以增大蜘蛛發現網頁并爬行的概率。否則蜘蛛根本沒有機會知道頁面的存在。
比如:我寫系列博客喜歡把相關文章的連接寫在博文里,雖然開始我的文章沒有一篇被百度收錄。一天,有一篇文章上了http協議分析工具上了博客園-原創精華區,因為其頁面權重高,百度蜘蛛抓取也就越頻繁。隨著這一篇博文的收錄,我的所有博文就都被百度收錄了。
預處理
索引程序對抓取來的頁面數據主要進行關鍵詞提取、生成倒排索引、頁面PageRank值計算、關鍵詞與頁面相關性、TrustRank值計算等處理,以備排名程序調用。這是搜索引擎能在極短時間內返回搜索結果的關鍵。其中我們最關心的是PR值和相關性。
PageRank原理
了解PageRank也就是理解為什么SEO要求一定數量高質量的外鏈。
PageRank可以形象的比喻成:一個頁面的排名是由鏈接來"投票"的結果,并且是權重不等的投票,優秀的網站為你投的一票會為你的排名更靠前,垃圾網站就沒啥用。因此高質量的外鏈是對SEO是很有幫助的。
經過頁面PageRank值計算之后,網頁會得到一個與頁面主題(內容)無關的排名。

PageRank值決定因數:(來自維基百科)
PageRank works by counting the number and quality of links to a page to determine a rough estimate of how important the website is. The underlying assumption is that more important websites are likely to receive more links from other websites。
上面這段話的大意是:PR值是通過指向該頁面鏈接的數量和質量來決定。
鏈接的質量怎么理解?
假設一個網頁PR值較高(重要性高),那么出現在該網頁內的連接質量就比較好。通常一些權威網站PR值較高。
這也就意味著網頁之間的重要性會傳遞。一個鏈接傳遞的PR值決定于導入鏈接所在頁面的PR值,發出鏈接的頁面本身PR值越高,所能傳遞出去的PR也越高。
關鍵詞與頁面的相關性
了解相關鍵詞與頁面的相關性就是要理解為什么SEO要求做好文章的錨文本以及關鍵字優化。

影響頁面與搜索關鍵詞相關性的因素有鏈接分析、詞頻及密度、關鍵詞位置及形式、關鍵詞距離等因素,其中鏈接分析占了相當大的比重。
不得不提的是百度創始人李彥宏的超鏈分析專利。
建立一個鏈接詞庫,記錄鏈接錨文字的一些相關信息,如錨文字中包含哪些關鍵詞,發出鏈接的頁面索引,包含特定錨文字的鏈接總數,包含特定關鍵詞的鏈接都指向哪些頁面。詞庫不僅包含關鍵詞原型,也包含同一個詞干的其他衍生關鍵詞。
根據這些鏈接數據,尤其是錨文字,計算出基于鏈接的網頁的相關性。在用戶搜索時,將得到的基于鏈接的相關性與基于關鍵詞匹配的傳統相關性綜合使用,得到更準確的排名。
頁面有越多以搜索詞為錨文字的導入鏈接(這句話得仔細體會),說明頁面的相關性越強。鏈接分析還包括了鏈接源頁面本身的主題、錨文字周圍的文字等,比如一個服裝類的網站有指向java語言學習頁面的連接,那么這個頁面和搜索關鍵詞的相關性就低。
返回搜索結果
用戶輸入關鍵詞后,排名程序調用索引庫數據,匹配關鍵詞,然后按一定格式生搜索結果頁面。這是因為前面的預處理,搜索引擎能在極短時間內返回結果。
百度搜索結果顯示格式

自然結果格式解析
百度自然界結果的一條記錄格式如下:

第一行是頁面標題,通常取自頁面HTML代碼中的標題標簽(Title Tag)。這是結果列表中最醒目的部分,用戶點擊標題就可以訪問對應的網頁。所以頁面標題標簽的寫法,無論對排名還是點擊率都有重要意義。
第二、三行是頁面說明。頁面說明有的時候取自頁面HTML中的說明標簽(DescriptionTag),有的時候是從頁面可見文字中動態抓取相關內容。所以顯示什么頁面說明文字是用戶查詢時才決定的。
第四行是百度快照和百度口碑的好評率,注意這個好評率是整個網站的好評率,而不是單個網頁。
好了,通過以上的講解,我想大家已經大概的了解了百度搜索引擎的工作原理,簡單的說,我們發布了內容,百度會通過一系列的判斷步驟,來判斷我們的文章是不是精品的,符合用戶需求的,如果符合,那么百度就會優先收錄,給予一個優質的排名,其實很簡單,好了,今天就講解到這里,希望可以幫助到大家。
