一、搜索引擎蜘蛛抓取流程原理
搜索引擎蜘蛛先抓取網頁內容,將抓取網頁存儲于臨時索引庫中,再分析這些內容的價值,如果這些內容符合搜索引擎收錄的標準,就將這些內容存儲于搜索引擎的正式索引庫中,反之則將這些內容從臨時索引庫中刪除,這也是有些站長查到蜘蛛來抓取了網頁卻沒有收錄的原因。
搜索引擎蜘蛛抓取流程原理圖
你的網頁要參與搜索引擎關鍵詞排名,只有當你的網頁被搜索引擎收錄了才有資格,否則連參與排名的資格都沒有,至于排在哪一頁,這個就得是搜索引擎算法說了算了,搜索引擎算法分析你網頁內容的當前價值,然后根據你網頁的價值給出你網頁關鍵詞合理的排名。
搜索蜘蛛抓取流程:先抓取網頁—臨時索引庫—分析篩選—正式索引庫—最后才能參與網頁關鍵詞排序。
spider抓取系統的基本框架圖
搜索蜘蛛的工作流程步驟為先抓取網頁內容,再分析抓取回來的網頁內容,內容合格則收錄此內容,不合格則不收錄此內容,每時每刻不停的重復此步驟,可將搜索引擎簡單地理解為是一個內容抓取程序。
1、http的工作原理
在瀏覽器中輸入網址向網站服務器端發送一個http訪問請求,服務端接收到此請求并進行解析,向客戶端以http的形式進行響應,并以圖文并茂的形式展現在用戶眼前。
對于服務端來說,向客戶端返回的都是http代碼,它并不知道返回是文字還是圖片,最后返回的結果是需要瀏覽器渲染用戶才可以看到圖文并茂的網頁。
作為SEO優化工作人員,對于搜索引擎的工作原理我們還是需要了解一點的。
http的工作原理圖
2、搜索引擎抓取三步曲
搜索蜘蛛對于一個新網頁內容,先會抓取網頁鏈接,再進行分析過濾網頁鏈接內容,達到收錄標準的內容則進行收錄,未達到收錄標準的內容則直接刪除了,已收錄的內容根據搜索算法規則進行排序,最后呈現關鍵詞查詢與排序結果。
作為我們只需要知道搜索引擎蜘蛛抓取的三步曲就行了,為“抓取—過濾—收錄”這么一個過程。

二、如何提升抓取減少過濾
搜索引擎蜘蛛都是以匿名身份抓取所有網頁內容的,如果你的網頁內容加了密,需要輸入帳號密碼才可以訪問,那么這種網頁搜索引擎是無法進行正常抓取的,需要網頁開放加密權限才可以抓取,如果你的網頁內容需要參與搜索排名,一定千萬注意不要限制了搜索引擎抓取網頁內容。

無ALT屬性的圖片、視頻、JS文件、flash動畫、ifame框架等內容搜索引擎都是不能識別的,搜索引擎只能識別文字和數字,如果你的網頁中存在有搜索引擎不能識別的內容,就很有可能會被搜索引擎蜘蛛給過濾掉,所以我們在設計網頁的時候,就要避免在網頁中加入搜索引擎不能識別的內容,如果你的網頁內容都不能被搜索蜘蛛給識別到,又何談收錄及排名了?
搜索蜘蛛抓取了網頁內容后,第一步就是過濾,過濾掉不符合搜索引擎收錄標準的內容,搜索蜘蛛收錄網頁內容基本步驟為篩選、剔除、再篩選、收錄到正式索引庫,正式收錄網頁后接著就是分析當前網頁內容的價值,最后就是決定當前網頁關鍵詞排序的位置。
篩選過濾我們可簡單理解為對無價值、質量度低的內容進行剔除,保留對用戶有價值、質量高的內容,如果你想提高你網站內容的收錄率,就建議多更新對用戶有價值質量高、符合搜索收錄規則的內容,不要更新低質拼接的垃圾內容。
三、如何提升網站內容收錄和索引
1)什么是網站收錄和索引
使用site指令就可以查詢出網站預估的收錄量,例如“site:www。58。com”,就可以查詢58同城網站的預估收錄量,如下圖所示:
58同城網站頁面百度搜索收錄量
網站收錄率是什么意思?例如你的網站有100個頁面,而搜索引擎只收錄你網站10個頁面,那么你的網站收錄率就是10%,網站收錄率計算公式為收錄率/網站總頁面=收錄率,site指令只能查詢出網站大概的收錄量,一般情況下你的網站頁面越多收錄就會越多,網站收錄頁面多了則意味著網站流量就會多,網站內容質量度越高網站頁面收錄率就會越高,注意網站收錄量并不等于網站索引量,網站收錄量是小于索引量的。
2)如何提高網站頁面收錄,減少網頁篩選剔除
(1)如何提高網站頁面收錄率
想要提高網站的收錄率就要提高網站內容的更新頻率,網站內容更新要與網站定位相符合,例如網站定位是女鞋,那么你的網站內容更新就需要圍繞女鞋而展開,而且網站更新的內容必須是高質,對用戶有價值的內容。
搜索引擎判斷網站內容質量的高低重要的參考依據就是網站跳出率,網站跳出率越低則代表內容質量度越高,網站跳出率越高則則代表內容質量度越低,跳出率高了則意味著網站關鍵詞排名就會不怎么好。
(2)如何減少網頁篩選剔除率
不要更新低質垃圾對用戶無任何價值的內容,要重視內容的質量度,100篇低質量內容,不如一篇高質量原創內容,例如有些站長利用內容采集工具向網站導入大量的低質垃圾內容,然而搜索引擎并沒有收錄這些內容,因此說網站內容質量度與網站收錄率是成正比關系的。
同樣的內容,哪個網站權重高就會先收錄哪個網站的內容,所以說網站收錄率與網站權重值也是有一定關系的,還有就是與網站內容更新時間也是有一定關系的,先更新的網站先收錄,后更新的先收錄。
完全對用戶沒有價值的垃圾內容,搜索引擎是不會收錄的,就算被搜索蜘蛛抓取了,也會被篩選剔除掉的。
4、關鍵詞查詢與排序及搜索結果輸出
排序是最后一個步驟了,網站關鍵詞排序并不是馬上就會有結果的,其實在搜索引擎對網站內容頁面建索引庫時就已經開始進行分析了,分析網站頁面質量度,例如站內結構優化、站內站外投票值、關鍵詞密度等,這些決定了網站頁面關鍵詞排序,簡單地講就是我們在搜索引擎搜索一個關鍵詞時,這個關鍵詞的排序是搜索引擎早就分析計算得出的結果。
