百度搜索引擎工作原理是學(xué)習(xí)SEO入門課,是新手必須要掌握的,網(wǎng)絡(luò)上、官方的原理都太過于復(fù)雜不便于理解,我挑重點(diǎn)為大家通俗易懂的總結(jié)了一下,更加方便新手的學(xué)習(xí)。百度搜索引擎原理主要分為四步:百度蜘蛛抓取頁面內(nèi)容、儲存臨時庫進(jìn)行垃圾內(nèi)容過濾、資源分類并建立索引、輸出排序結(jié)果。
第一步:百度蜘蛛抓取內(nèi)容
當(dāng)我們建立好一個網(wǎng)站的時候,想在SEO中做排名,就一定要把網(wǎng)站地址提交到百度站長平臺,讓百度蜘蛛來進(jìn)行抓取,百度蜘蛛抓取到內(nèi)容后,如果判斷內(nèi)容為高質(zhì)量內(nèi)容,就會收錄到百度資源庫中,提供給用戶進(jìn)行搜索結(jié)果展現(xiàn)!反之就會過濾掉,不給予收錄,或者收錄了,但不給予搜索結(jié)果展現(xiàn)(就是不給排名的意思)。


1,百度通過哪些渠道可以抓取我們網(wǎng)站那?
一般而言新站,都是我們自己進(jìn)行提交到百度站長平臺后,百度才會進(jìn)行抓取,否則百度怎么知道你的網(wǎng)站存在那?還有一種方式就是,你把你站點(diǎn)鏈接發(fā)布到了其他網(wǎng)站上,比如:博客、論壇、貼吧這類的平臺,百度在抓取這些平臺的時候,跟著鏈接直接來抓取你的站點(diǎn)。另外現(xiàn)在百度搜索引擎給我們了一個福利,就是只要我們在我們的網(wǎng)站中添加一段代碼,百度自動就會來進(jìn)行抓取了,大大提高了網(wǎng)站抓取率!
2,蜘蛛抓取狀態(tài)碼什么意思?
這個狀態(tài)碼主要在我們分析蜘蛛抓取日志的時候會用到,蜘蛛日志會記錄百度每天來抓取了多少次,都抓取了那些頁面和目錄,都是哪些IP段的蜘蛛,以及抓取是否成功,或者抓取失敗,抓取失敗就意味著頁面不會被收錄,也就不會參與排名,怎么判斷抓取失敗那,這個時候就需要用到蜘蛛狀態(tài)碼了!
200表示抓取成功,百度蜘蛛成功抓取了頁面,準(zhǔn)備進(jìn)行下一步處理!
403代表抓取失敗,網(wǎng)頁目前禁止訪問,一般為設(shè)置了某些權(quán)限所產(chǎn)生。
404代表抓取失敗,原網(wǎng)頁頁面已經(jīng)失效,代表抓取失敗
503代表抓取失敗,網(wǎng)頁臨時不可訪問,通常網(wǎng)站臨時關(guān)閉,帶寬超額不可訪問等情況。
3,抓取異常是由什么原因造成的?
一般而言,如果百度蜘蛛抓取失敗,證明用戶也是不可訪問的,常見的原因有服務(wù)器連接異常,就是網(wǎng)站打不開,或者抓取頁面已經(jīng)被刪除掉、失效成為了死鏈接。這里大家要注意,如果在蜘蛛中發(fā)現(xiàn)了抓取失敗的頁面,一定要及時處理,以免大量的失效頁面被百度搜索引擎所懲罰!
第二步、臨時庫垃圾內(nèi)容過濾
百度蜘蛛抓取到成功的頁面,會下載儲存到一個臨時庫中去,然后百度會通過各類算法進(jìn)行頁面分析,刪除重復(fù)的頁面、低質(zhì)量的頁面、違法信息頁面、等等,百度的算法高達(dá)200多種,最后過濾出高質(zhì)量頁面,進(jìn)行下一步的處理!
什么樣的頁面稱之為高質(zhì)量頁面?
1、有時效性且有價值的頁面
在這里,時效性和價值是并列關(guān)系,缺一不可。有些站點(diǎn)為了產(chǎn)生時效性內(nèi)容頁面做了大量采集工作,產(chǎn)生了一堆無價值面頁,也是百度不愿看到的.
2、內(nèi)容優(yōu)質(zhì)的專題頁面
專題頁面的內(nèi)容不一定完全是原創(chuàng)的,即可以很好地把各方內(nèi)容整合在一起,或者增加一些新鮮的內(nèi)容,比如觀點(diǎn)和評論,給用戶更豐富全面的內(nèi)容。
3、高價值原創(chuàng)內(nèi)容頁面
百度把原創(chuàng)定義為花費(fèi)一定成本、大量經(jīng)驗(yàn)積累提取后形成的文章,千萬不要再問我們偽原創(chuàng)是不是原創(chuàng)。
4、圖文并茂,且段落分明
如果文章字?jǐn)?shù)超過500字,且是圖文并茂形式,段落清晰,為花費(fèi)一定成本編寫的原創(chuàng)文章,是百度最喜歡的文章類型,大家可以參考“百度百科”形式!
第三步:資源分類并建立索引
當(dāng)上一步處理完畢,經(jīng)過審核的高質(zhì)量頁面,在這一步會被百度正式的儲存在索引庫中,也稱為被收錄了,并運(yùn)用分詞算法對文章進(jìn)行歸類,通俗點(diǎn)講就是什么類型的文章就放到什么位置,方便百度歸類文章內(nèi)容!
這里跟大家講解一下,索引跟收錄會稍微有一點(diǎn)誤差,是因?yàn)橛幸徊糠值乃饕堪俣炔]有直接公開出來,可能還需要進(jìn)行審核,需要延遲一段時間才能放出來,有的直接公開出來了,所以大家查收錄的時候,一般索引量會高于收錄量,這個是正常現(xiàn)象!
第四步:輸出排序結(jié)果
搜索引擎會對蜘蛛抓取回來的頁面內(nèi)容進(jìn)行逐一標(biāo)記和識別,將這些標(biāo)記進(jìn)行存儲為結(jié)構(gòu)化數(shù)據(jù),比如頁面的基本title信息,tag,discripition,keywords,網(wǎng)頁外鏈描述,抓取記錄等一系列內(nèi)容。以便在用戶搜索的時候提供最匹配的內(nèi)容頁面。
當(dāng)上一步建立索引以后,并且百度放出你的頁面以后,就會通過一系列算法來計(jì)算你應(yīng)該獲得的排名位數(shù)!計(jì)算排名是需要一系列的算法,下面舉出幾個百度官方聲明的。
(這里注意,沒放出來的頁面是無法計(jì)算排名的,也就是百度中根本就搜索不到你的頁面)
影響百度搜索引擎頁面排序因素的幾個點(diǎn)!
1,相關(guān)性:網(wǎng)頁內(nèi)容與用戶檢索需求的匹配程度,比如網(wǎng)頁包含的用戶檢查關(guān)鍵詞的個數(shù),以及這些關(guān)鍵詞出現(xiàn)的位置;外部網(wǎng)頁指向該頁面所用的錨文本等
2,權(quán)威性:用戶喜歡有一定權(quán)威性網(wǎng)站提供的內(nèi)容,相應(yīng)的,百度搜索引擎也更相信優(yōu)質(zhì)權(quán)威站點(diǎn)提供的內(nèi)容。
3,時效性:時效性結(jié)果指的是新出現(xiàn)的網(wǎng)頁,且網(wǎng)頁內(nèi)承載了新鮮的內(nèi)容。目前時效性結(jié)果在搜索引擎中日趨重要。
4,重要性:網(wǎng)頁內(nèi)容與用戶檢查需求匹配的重要程度或受歡迎程度
5,豐富度:豐富度看似簡單卻是一個覆蓋范圍非常廣的命題。可以理解為網(wǎng)頁內(nèi)容豐富,可以完全滿足用戶需求;不僅可以滿足用戶單一需求,還可以滿足用戶的延展需求。
6,受歡迎程度:指該網(wǎng)頁是不是受歡迎,用戶的訪問行為,停留時長,頁面點(diǎn)擊率等等。
7、綜合排序:將最能滿足用戶需求的結(jié)果排序在最前,可能包括的有用信息如:網(wǎng)站的整體評價、網(wǎng)頁質(zhì)量、內(nèi)容質(zhì)量、資源質(zhì)量、匹配程度、分散度、時效性等。
好了,今天我們就講解到這里,其實(shí)我們從搜索引擎的工作原理不難發(fā)現(xiàn),只有您網(wǎng)站上的內(nèi)容能給用戶帶來更好的體驗(yàn),才能得到搜索引擎的親睞,所以內(nèi)容是否對用戶有價值是我們終究要考慮的一個問題。
