《SEO教程》2.3　搜索引擎工作原理

閱讀 ?·? 發(fā)布日期 2020-05-29 09:32 ?·? admin

搜索引擎的基本工作原理包括如下三個過程：首先在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁信息；同時對信息進行提取和組織建立索引庫；再由檢索器根據(jù)用戶輸入的查詢關鍵字，在索引庫中快速檢出文檔，進行文檔與查詢的相關度評價，對將要輸出的結(jié)果進行排序，并將查詢結(jié)果返回給用戶。

工作原理

搜索引擎為了以最快的速度得到搜索結(jié)果，它搜索的內(nèi)容通常是預先整理好的網(wǎng)頁索引數(shù)據(jù)庫。普通搜索，不能真正理解網(wǎng)頁上的內(nèi)容，它只能機械地匹配網(wǎng)頁上的文字。真正意義上的搜索引擎，通常指的是收集了互聯(lián)網(wǎng)上幾千萬到幾十億個網(wǎng)頁并對網(wǎng)頁中的每一個文字（即關鍵詞）進行索引，建立索引數(shù)據(jù)庫的全文搜索引擎。當用戶查找某個關鍵詞的時候，所有在頁面內(nèi)容中包含了該關鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復雜的算法進行排序后，這些結(jié)果將按照與搜索關鍵詞的相關度高低，依次排列。典型的搜索引擎三大模塊組成：

（一）信息采集模塊

信息采集器是一個可以瀏覽網(wǎng)頁的程序，被形容為“網(wǎng)絡爬蟲”。它首先打開一個網(wǎng)頁，然后把該網(wǎng)頁的鏈接作為瀏覽的起始地址，把被鏈接的網(wǎng)頁獲取過來，抽取網(wǎng)頁中出現(xiàn)的鏈接，并通過一定算法決定下一步要訪問哪些鏈接。同時，信息采集器將已經(jīng)訪問過的URL存儲到自己的網(wǎng)頁列表并打上已搜索的標記。自動標引程序檢查該網(wǎng)頁并為他創(chuàng)建一條索引記錄，然后將該記錄加入到整個查詢表中。信息收集器再以該網(wǎng)頁到超鏈接為起點繼續(xù)重復這一訪問過程直至結(jié)束。一般搜索引擎的采集器在搜索過程中只取鏈長比（超鏈接數(shù)目與文檔長度的比值）小于某一閾值的頁面，數(shù)據(jù)采集于內(nèi)容頁面，不涉及目錄頁面。在采集文檔的同時記錄各文檔的地址信息、修改時間、文檔長度等狀態(tài)信息，用于站點資源的監(jiān)視和資料庫的更新。在采集過程中還可以構(gòu)造適當?shù)膯l(fā)策略，指導采集器的搜索路徑和采集范圍，減少文檔采集的盲目性。

（二）查詢表模塊

查詢表模塊是一個全文索引數(shù)據(jù)庫，他通過分析網(wǎng)頁，排除HTML等語言的標記符號，將出現(xiàn)的所有字或詞抽取出來，并記錄每個字詞出現(xiàn)的網(wǎng)址及相應位置（比如是出現(xiàn)在網(wǎng)頁標題中，還是出現(xiàn)在簡介或正文中），最后將這些數(shù)據(jù)存入查詢表，成為直接提供給用戶搜索的數(shù)據(jù)庫。

（三）檢索模塊

檢索模塊是實現(xiàn)檢索功能的程序，其作用是將用戶輸入的檢索表達式拆分成具有檢索意義的字或詞，再訪問查詢表，通過一定的匹配算法獲得相應的檢索結(jié)果。返回的結(jié)果一般根據(jù)詞頻和網(wǎng)頁鏈接中反映的信息建立統(tǒng)計模型，按相關度由高到低的順序輸出。

亚洲无码刺激视频_亚洲国产精品碰碰_先锋影音视频一区视频二区_三级片欧洲视频

《SEO教程》2.3　搜索引擎工作原理

為您推薦

熱門標簽

亚洲无码刺激视频_亚洲国产精品碰碰_先锋影音视频一区视频二区_三级片欧洲视频

《SEO教程》2.3 搜索引擎工作原理

為您推薦

熱門標簽

《SEO教程》2.3　搜索引擎工作原理