蘭州網(wǎng)站建設(shè)-蘭州網(wǎng)站優(yōu)化-優(yōu)化網(wǎng)站標(biāo)題設(shè)置如何利用百度索引擎中文分詞技

閱讀 ?·? 發(fā)布日期 2019-01-02 20:16 ?·? admin

蘭州網(wǎng)站建設(shè)-蘭州網(wǎng)站優(yōu)化-優(yōu)化網(wǎng)站標(biāo)題設(shè)置如何利用百度索引擎中文分詞技術(shù),網(wǎng)站建設(shè),網(wǎng)站優(yōu)化排名,網(wǎng)站標(biāo)題設(shè)置如何利用百度索引擎中文分詞技術(shù)。搜索引擎中文分詞技術(shù)簡單來說,就是把中文的漢字序列切分成有意義的詞組。

分詞例子:我/是/一個(gè)/學(xué)生
搜索引擎分詞技術(shù)簡述
1.基于字符串匹配的分詞方法
按照一定的策略將待分析的漢字串與一個(gè)極其詞庫中的詞條進(jìn)行匹配。
常用分詞的方法:
正向最大匹配法(由左到右的方向)
分詞測試?yán)樱何?有意/見/分歧
反向最大匹配法(由右到左的方向)
分詞測試?yán)樱何?有/意見/分歧
據(jù)大量測試數(shù)據(jù)統(tǒng)計(jì)結(jié)果表明:單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用反
向最大匹配的錯(cuò)誤率為1/245。逆向匹配的切分精度略高于正向匹配。
2.基于統(tǒng)計(jì)的分詞方法
相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。用于系統(tǒng)自動(dòng)識(shí)別新詞。
3.基于理解的分詞方法
在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧異現(xiàn)象。
分詞技術(shù)歸納:少于等于3個(gè)中文字不切割,對(duì)于大于等于4個(gè)漢字的詞將被分詞,分詞結(jié)論:百度識(shí)別人名、影視、戲劇名等專用詞,轉(zhuǎn)用詞庫分詞時(shí)優(yōu)先。