日本黄色片在线视频|国模无码一区二区三区|大香伊蕉国产短视频69|99精品日韩欧美在线观看|极品夜晚无码av一区二区|亚洲综合无码一区二区三区|国产亚洲精aa在线观看香蕉|日本2018一道国产高清视频

當前位置:首頁 > 長沙網(wǎng)站建設(shè) > 分析關(guān)鍵詞的技術(shù)

分析關(guān)鍵詞的技術(shù)

中文自動分詞是網(wǎng)頁分析的基礎(chǔ)。在網(wǎng)頁分析的過程中,中文與英文的處理方式是不同的,這是因為中文信息與英文信息有一個明顯的差別:英文單詞之間有空格,而中文文本中詞與詞之間沒有分割符。這就要求在對中文網(wǎng)頁進行分析之前,先要將網(wǎng)頁中的句子切割成一個個的詞的序列,這就是中文分詞。中文自動分詞涉及到許多自然語言處理技術(shù)和評價標準,在搜索引擎中,我們主要關(guān)心中文自動分詞的速度和準確度。分詞準確性對搜索引擎來說十分重要,但如果分詞速度太慢,即使準確性再高,對于搜索引擎來說也是不可用的,因為搜索引擎需要處理數(shù)以億計的網(wǎng)頁,如果分詞耗用的時間過長,會嚴重影響搜索引擎內(nèi)容更新的速度。因此,搜索引擎對分詞的準確性和速度都提出了很高的要求。

  目前,中文自動分詞比較成熟的技術(shù)是基于分詞詞典的機械分詞方法。這種方法是按照一定的策略將要分析的漢字串與詞典中的詞條進行匹配。根據(jù)匹配策略的不同,機械分詞方法又有如下幾種算法:正向最大匹配算法、逆向最大匹配算法、最少分詞算法等。這種方法的優(yōu)點是分詞的速度快,準確度有一定的保證,但對未登錄詞的處理效果較差。實驗結(jié)果表明:正向最大匹配的錯誤率為1/169左右,逆向最大匹配的錯誤率為1/245左右。另一種比較常用的中文自動分詞方法是基于統(tǒng)計的分詞方法,這種方法是對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因此也稱為無詞典分詞方法。但該方法經(jīng)常把不是詞的常用字組當成詞,對常用詞的識別精度較差,時空開銷也比較大。在搜索引擎領(lǐng)域的實際應(yīng)用中,一般將機械分詞方法與統(tǒng)計分詞方法相結(jié)合,先進行串匹配分詞,然后使用統(tǒng)計方法識別一些未登錄的新詞,這樣既發(fā)揮了匹配分詞速度快、效率高的優(yōu)勢,又利用了統(tǒng)計分詞中新詞自動識別和自動消除分詞歧義的特點。

  分詞詞典是影響中文自動分詞的一個重要因素,其規(guī)模一般在6萬條詞左右,詞典太大或太小都是不合適的;辭典太小,有些詞切分不出來,辭典太大,切分過程中起義現(xiàn)象將大大增加,同樣影響分詞的精度。因此,分詞詞典中詞條的選擇是非常嚴格的。對于不斷出現(xiàn)新詞的網(wǎng)絡(luò)領(lǐng)域,僅僅使用6萬條詞左右的分詞詞典是不夠的,但隨意向分詞詞典中加入新詞將導致分詞精度下降,一般的解決方法是使用輔助詞典,其規(guī)模在50萬詞條左右。另外,中文自動分詞的難點在于分詞歧義的處理和未登錄詞的識別,如何處理這兩個問題一直是該領(lǐng)域研究的熱點。

  1、歧義處理

  歧義是指可能有兩種或者更多的切分方法。例如:“表面的”這個詞組,因為“表面”和“面的”都是詞,那么這個短語就可以分成“表面+的”和“表+面的”。這種稱為交叉歧義。像這種交叉歧義十分常見,“化妝和服裝”可以分成“化妝+和+服裝”或者“化妝+和服+裝”。由于沒有人的知識去理解,計算機很難知道到底哪個方案正確。

  交叉歧義相對組合歧義來說是還算比較容易處理,組合歧義就必須根據(jù)整個句子來判斷了。

  例如,在句子“這個門把手壞了”中,“把手”是個詞,但在句子“請把手拿開”中,“把手”就不是一個詞;在句子“將軍任命了一名中將”中,“中將”是個詞,但在句子“產(chǎn)量三年中將增長兩倍”中,“中將”就不再是詞。這些詞計算機又如何去識別?

  即使交叉歧義和組合歧義計算機都能解決的話,在歧義中還有一個難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個應(yīng)該是詞、哪個應(yīng)該不是詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓+球拍+賣+完+了”、也可切分成“乒乓球+拍賣+完+了”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個詞。

  對歧義現(xiàn)象的處理方法一般采用類似于動態(tài)規(guī)劃的算法將歧義問題的求解轉(zhuǎn)化為一個優(yōu)化問題的求解。在求解過程中,一般使用詞頻或概率等輔助信息求得一個最大可能的分詞結(jié)果,這個結(jié)果在某種意義下是最佳的。

  2、 未登錄詞處理

  未登錄詞就是分詞詞典中沒有的詞,也稱為新詞。最典型的是人名、地名、專業(yè)術(shù)語等。例如,人可以很容易理解句子“王軍虎去廣州了”中,“王軍虎”是個詞,因為是一個人的名字,但要是讓計算機去識別就困難了。如果把“王軍虎”作為一個詞收錄到字典中去,全世界有那么多名字,而且每時每刻都有新增的人名,收錄這些人名本身就是一項巨大的工程。即使這項工作可以完成,還是會存在問題,例如:在句子“王軍虎頭虎腦”中的,“王軍虎”還能不能算詞?

  未登錄詞中除了人名以外,還有機構(gòu)名、地名、產(chǎn)品名、商標名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對于搜索引擎來說,分詞系統(tǒng)中的新詞識別十分重要。目前,對未登錄詞的處理一般采用統(tǒng)計的方法,首先從語料中統(tǒng)計出出現(xiàn)頻率較高的字組,然后按照某種規(guī)則把它們作為新詞添加到輔助詞典中。

  目前,中文自動分詞技術(shù)在搜索引擎中已經(jīng)得到廣泛應(yīng)用,分詞準確度已經(jīng)達到96%以上,但是在對大規(guī)模網(wǎng)頁進行分析處理的時候,現(xiàn)有的中文自動分詞技術(shù)還存在許多不足,例如上面提到的歧義問題和未登錄詞的處理問題等。因此,國內(nèi)外的科研院校,如北大、清華、中科院、北京語言學院、東北大學、IBM研究院、微軟中國研究院等都一直關(guān)注并研究中文自動分詞技術(shù),這主要是因為網(wǎng)絡(luò)上的中文信息越來越多,對網(wǎng)絡(luò)上的中文信息的處理必將成為一個巨大的產(chǎn)業(yè)和廣闊的市場,存在無限的商機。但是,中文自動分詞技術(shù)要想更好地服務(wù)于網(wǎng)絡(luò)中文信息的處理并形成產(chǎn)品,還要在基礎(chǔ)研究方面和系統(tǒng)的集成方面做許多工作。

發(fā)表評論
◎歡迎參與討論,請在這里發(fā)表您的看法、交流您的觀點。

相關(guān)文章

2021年優(yōu)度成功簽約并完成泰坦凝膠官網(wǎng)

2021年優(yōu)度成功簽約并完成泰坦凝膠官網(wǎng)

此網(wǎng)站采用標準網(wǎng)站建設(shè)方案,PC+移動自動轉(zhuǎn)換模式,網(wǎng)站產(chǎn)品為一款火爆的微商產(chǎn)品,也是一款男性用品。...

備案與沒備案的新網(wǎng)站老域名為什么百度都不收錄?

備案與沒備案的新網(wǎng)站老域名為什么百度都不收錄?

現(xiàn)在互聯(lián)網(wǎng)越來越難做,百度的門檻越來越高,以前新網(wǎng)站上線提交后3天就會收錄,現(xiàn)在新網(wǎng)站上線每天提交還不一定會收錄,必須結(jié)合外鏈才有效。...

做好“著陸頁”,公司銷售業(yè)績將提升一大步

做好“著陸頁”,公司銷售業(yè)績將提升一大步

當今,一個能在用戶尋找“返回”按鈕之前抓住用戶眼球的著陸頁比以往任何時候都更有商業(yè)價值。值得慶幸的是,一個好的著陸頁面的設(shè)計過程比以往更加容易把握,訣竅在于弄清楚實現(xiàn)這個非常重要的切入點所需的核心要素...

什么是關(guān)鍵詞?

什么是關(guān)鍵詞?

關(guān)鍵詞就是你向搜索引擎發(fā)出的一個指令,是讓搜索引擎幫助你查找相關(guān)信息的命令,它可以是一個字,也可以是一個詞、一句話、一個英字母、英文單詞、一個數(shù)字、一個符號等任何可以在搜索框中輸入的信息。...

什么樣的網(wǎng)站才是一個合格的SEO網(wǎng)站?

什么樣的網(wǎng)站才是一個合格的SEO網(wǎng)站?

在講網(wǎng)站之前還是來介紹一下什么是網(wǎng)站,因為這里的學員還有很多SEO初學者,網(wǎng)站就好比是我們在某個商場、某個小區(qū)開的一個店鋪,你做生意肯定是有一個店鋪的對吧,那么網(wǎng)站就是一個互聯(lián)網(wǎng)上的店鋪,是一個虛擬的...