石家莊網(wǎng)站優(yōu)化/百度針對網(wǎng)站爬行原理探究

閱讀 ?·? 發(fā)布日期 2019-01-07 15:37 ?·? admin

石家莊網(wǎng)站優(yōu)化/百度針對網(wǎng)站爬行原理探究,正常情況下網(wǎng)站上線后,百度通過對網(wǎng)站核查后就會對網(wǎng)站進(jìn)行收錄,之后會根據(jù)網(wǎng)站的質(zhì)量對網(wǎng)站進(jìn)行爬行評分,然后匹配排名。而如果網(wǎng)站的某些頁面或者針對某些搜索引擎的特殊要求不希望被其爬行收錄的話,我們也可使用robot文件等操作方式來屏蔽搜索引擎蜘蛛的爬行。那么,搜索引擎之于網(wǎng)站的爬行是依照什么原理來進(jìn)行的呢?這就是今天筆者小丹和大家一起來探究的問題了。

    robots.txt文件是為了告訴百度哪些頁面你可以爬行但是不可以留存快照,或者說你不可以爬行。而收錄快照則是百度需要對網(wǎng)站頁面進(jìn)行評分,且用如果我們的網(wǎng)站打不開了,用戶也可以通過快照打開。正確的理解就是百度快照就是百度抓取網(wǎng)站頁面后,保存在自己數(shù)據(jù)庫中的我們的網(wǎng)站數(shù)據(jù)。為了減少百度資源浪費(fèi),抓取的快照有時(shí)候無法完全保存你的整個(gè)頁面,例如大圖和動態(tài)特效位置就無法保存。

    百度爬行網(wǎng)站,更新的捏快照,其實(shí)并不百分百是爬行了網(wǎng)站頁面,也有可能是爬行了百度的數(shù)據(jù)庫快照索引,這樣可以增加百度爬行速度,減少百度蜘蛛資源浪費(fèi)。那么不允許百度保存你的快照的作用就是每一次來人,每一次百度評分你的頁面,那么百度都必須去完全的分析你的頁面,而不是去分析你的百度數(shù)據(jù)庫保存的老頁面,這樣幫助你的網(wǎng)站頁面實(shí)時(shí)獲得最新的評分。告訴百度不允許爬行某個(gè)頁面的命令來源于robots文件,百度爬到這個(gè)文件的時(shí)候不會給這個(gè)頁面權(quán)重,但是如果百度從別的頁面進(jìn)入這個(gè)網(wǎng)站這個(gè)頁面依然可以獲得權(quán)重。

    同樣的,第二個(gè)可以達(dá)到屏蔽抓取的就是nofollow標(biāo)簽,當(dāng)我們在網(wǎng)站中任何位置給某一個(gè)鏈接添加了nofollow標(biāo)簽屬性的時(shí)候,就是告訴百度這個(gè)鏈接將不會獲得我的網(wǎng)站的任何權(quán)重。如,首頁域名的帶www域名本身極少內(nèi)容頁和欄目頁,所有欄目做二級域名,首頁的外部指向鏈接做nofollow不給其權(quán)重而自己的二級域名不做nofollow則本身帶www頁面無欄目、無內(nèi)容、權(quán)重有限,就一個(gè)單獨(dú)的網(wǎng)站頁面,所有的二級域名網(wǎng)站整站傳遞權(quán)重給帶www的頁面,則帶www頁面只給部分二級域名站內(nèi)容頁和二級域名站首頁傳遞權(quán)重,這樣帶www的網(wǎng)站首頁依然獲得比傳出去多得多的權(quán)重,累計(jì)權(quán)重排名。

    當(dāng)然上面講到的操作方式適合大型網(wǎng)站站點(diǎn)的集權(quán)操作,而小型站點(diǎn)則不必。因?yàn)樾⌒途W(wǎng)站尤其是普通的企業(yè)站點(diǎn)欄目分類本來就很少,如果我們做成網(wǎng)站二級域名的形式則我們二級站點(diǎn)域名傳遞給主站的權(quán)重就會很少,這樣不但不能夠幫助主站提上權(quán)重排名,還會影響二級域名站點(diǎn)的獨(dú)立成長,得不償失。