亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

短中文分詞算法優(yōu)化研究

2017-05-31 08:50:55童小光郭超康洪晶

軟件導(dǎo)刊 2017年5期

童小光　郭超　康洪晶

摘要摘要：對中文分詞進行研究是自然語言處理的重要步驟，結(jié)合字典對短中文進行正逆向分詞，在此基礎(chǔ)上得到多組分詞結(jié)果，利用基于統(tǒng)計的方法和基于規(guī)則的方法進一步優(yōu)化算法，根據(jù)用戶使用頻度和網(wǎng)絡(luò)搜索熱度以及詞語間的固定搭配規(guī)則對多組分詞進行排序，并通過實例驗證發(fā)現(xiàn)該方法具有較好分詞效果。

關(guān)鍵詞關(guān)鍵詞：中文分詞；分詞算法；使用頻度；搜索熱度

DOIDOI：10.11907/rjdk.171062

中圖分類號：TP312

文獻標識碼：A文章編號文章編號：16727800（2017）005004202

0引言

自然語言處理中，詞是最小的能獨立活動的有意義的語言成分。漢語不同于英語，英語有天然的分割符，而漢語需要采用一定的技術(shù)或方法將漢語短語、句子分割成最為基本的詞。對于搜索引擎、微博情感分析等具體應(yīng)用，絕大多數(shù)的用戶輸入的中文語句長度短且無自然分割符（標點符號）。本文重點研究短中文分詞算法及其優(yōu)化方法，提出了結(jié)合基于詞典的分詞方法，并利用基于統(tǒng)計的方法和基于規(guī)則的方法進一步優(yōu)化算法，并通過實例驗證發(fā)現(xiàn)該方法對短中文具有較好的分詞效果。

1分詞算法優(yōu)化思路

短中文具有字數(shù)少、無自然分割的特點[1]。針對短中文可以根據(jù)一定的分詞方法（例如逆向或者正向的分詞方法）將短中文分成幾組詞，即要有不同的分詞詞組，并在此分詞算法基礎(chǔ)上，根據(jù)用戶的搜索習慣和網(wǎng)絡(luò)上詞的熱度，結(jié)合固定搭配和語法匹配規(guī)則，給出一定概率指標的排名。利用排名來確定分詞的詞組，從而實現(xiàn)分詞的優(yōu)化，使得分詞結(jié)果更加接近用戶需求[2-4]。

該優(yōu)化方法有3個主要步驟，分別是基于字典的分詞方法、基于頻度的概率指標計算方法和基于規(guī)則的概率指標計算方法。

當用戶輸入關(guān)鍵詞字符串時，會根據(jù)分詞方法將字符串分成幾個組詞，這幾個組詞每一組都有一個分詞概率指標P，代表該組分詞的匹配概率，也就是該組分詞是正確分詞的概率。而這個指標P由以下4個因素決定。

首先，對于一個用戶而言，其具有固定的搜索習慣，分析其搜索習慣的信息有助于分析該用戶的習慣，從而在用戶給定的搜索關(guān)鍵詞中找到用戶所需要信息。將這一因素對P的比重記為P1。

其次，一個詞在互聯(lián)網(wǎng)的熱度也表明這個詞在大眾生活中的一種傾向性。例如，某部電影近期很受關(guān)注，那么可以預(yù)見在近一段時間內(nèi)針對它的搜索量會增多。對于單個用戶而言，它是大眾中的一部分，如果在分詞分組中出現(xiàn)一個熱度很高的詞，那么這個分組很有可能就是需要的。因此，將這個因素對P的比重為P2。

除了頻度因素對P的影響外，詞的搭配也會對詞組產(chǎn)出影響。詞與詞之間的搭配是固定的，如果分詞詞組存在這樣的搭配，也會增加是該組分詞的概率，可以把該因素記為O。詞與詞之間除了固定搭配，還有語法規(guī)則上的搭配，每個詞都具有詞性如名詞、動詞、形容詞等，這些詞與詞的組合也會對分詞產(chǎn)生影響，該因素記為指標附加值Va。

綜上所述，對于某一搜索詞的分詞概率指標P可以表示為：

P=αP1+βP2+χO+C+Va（1）

其中，C為其它因素，α，β，χ為公式中的系數(shù)因子。對于不同組的分詞來說，C值是相同的。

2基于短中文特點的分詞方法

在本步驟中，需要多種分組方法，所以使用逆向與正向相結(jié)合的方式[5]。假設(shè)字典已經(jīng)被建立，要從字符串中取出詞，首先采用正向方法，設(shè)該字符串有L個字符，第一次，取全部的L個字符，然后在字典中查找匹配，如果存在，則該分組為一個有效的分組。如果不存在，那么去掉最后一個字符，即取前1個到第L-1個字符，然后在字典中繼續(xù)匹配，如果存在，該詞即為所需，并將剩下的一個字作為另一個詞。同樣，如果不匹配，為了加快匹配的進度，去掉上一步最后的兩個字符，即取第1到第（L-1）-2個字符，如果匹配，則該詞是需要的，并將剩下的詞按此方法繼續(xù)匹配，如果仍然不匹配，就按（（L-1）-2）-3這樣來繼續(xù)減少字符串長度來進行字典匹配，直到把該字符串的第一個詞從左到右取出來。至此，取到了從左到右的第一個詞。需要再從右向左取第一個詞，按照同樣的方法，只不過這次是從右到左，找到第一個從右到左的詞。結(jié)合這兩個詞，如果這兩個詞的長度加起來等于字符串長度，那么就是一個分組，如果加起來長度小于字符串長度，那么將這兩個詞之間的字符串取出來，按上述步驟，再次進行分詞，直到將詞取出完。

按照正逆序結(jié)合分詞算法能夠得到多個不同的分詞組合，優(yōu)化算法主要通過基于頻度和基于規(guī)則對分詞組合結(jié)果進行排序。

3基于頻度的分詞結(jié)果排序算法

頻度排序算法有兩種：用戶使用頻度算法和網(wǎng)絡(luò)熱詞頻度算法。

3.1使用頻度

一個用戶有著自己固定的習慣、愛好和知識面，所以當一個用戶使用搜索功能時，其搜索的內(nèi)容是有規(guī)律的。例如，一個計算機專業(yè)的人員，其搜索的內(nèi)容很大概率與計算機有關(guān)；一個注重自己樣貌的女孩會十分關(guān)心化妝品；一名動漫愛好者會搜索與動漫相關(guān)的東西?；诖耍梢运鸭脩舻囊恍┧阉餍畔?，判斷該用戶有哪些習慣，從而提升用戶的搜索體驗。

前面提到過，在第一步分詞后，會得到幾種不同的分詞組，如果分詞組與用戶搜索信息具有很強的相關(guān)性，那么可以認為該分組是需要的。

用戶搜索信息就是用戶在搜索時輸入關(guān)鍵詞，可以在用戶輸入完畢時，將關(guān)鍵詞存入數(shù)據(jù)庫，數(shù)據(jù)庫中還會存有該用戶搜索該關(guān)鍵詞的頻度。如果不是第一次輸入該關(guān)鍵詞，就更新其頻度項。

（1）公式引出。如果一個用戶的某一個搜索關(guān)鍵詞頻度越高，而同時在分詞的某一詞組中也同樣存在該詞，那么就表示該詞組可能是用戶需要的。

采用與頻度有關(guān)的函數(shù)來表示這個可能性概率[6]。首先，用戶關(guān)鍵詞頻度的絕對值越高，那么其越有可能代表用戶的某一搜索習慣，所以該分組的可能性越高。其次，當用戶的搜索次數(shù)比較多時，不能單純使用關(guān)鍵詞的絕對值作為標準，用戶關(guān)鍵詞頻度的相對值（該關(guān)鍵詞的頻度除以總頻度）也會影響用戶頻度概率指標。

將用戶頻度概率指標定義為P1；

用戶關(guān)鍵詞頻度絕對值定義為N；用戶關(guān)鍵詞總頻度定義為S；

用戶關(guān)鍵詞絕對頻度的影響因子定義為a；

用戶關(guān)鍵詞相對頻度的影響因子定義為b；

其它因素定義為C1。

故用戶頻度概率指標P1可以表示為：

P1=a*N+b*NS+C1（2）

（2）參數(shù)確定方法。在該公式中，N，S可以從數(shù)據(jù)庫中查詢，a、b、C為未知量，所以需要用數(shù)據(jù)來訓練這個公式，得出a、b、C。該數(shù)據(jù)訓練的核心就是采用十分具有代表性的數(shù)據(jù)代入公式中，然后依據(jù)這些已知數(shù)據(jù)推導(dǎo)出需要的參數(shù)。

3.2搜索熱度

對一個詞，如果互聯(lián)網(wǎng)上其搜索的次數(shù)很高，那么它是一個熱門詞。熱門詞代表著大眾的搜索習慣，而其搜索的頻度越高，說明其在人群中的認同度和傾向性越高。同樣，用戶屬于大眾的一員，其搜索的內(nèi)容會有一定概率包含搜索關(guān)鍵詞。所以，可以利用此來提高分詞的準確性。這種概率可以稱為網(wǎng)絡(luò)熱詞頻度概率指標，該指標計算需要由網(wǎng)絡(luò)熱詞字典和指標匹配標準這兩部分支持。

（1）網(wǎng)絡(luò)熱詞字典建立。網(wǎng)絡(luò)熱詞字典，是一個包含詞的網(wǎng)絡(luò)使用頻度的字典，其中包含大量的詞。該字典，可以看作是在大數(shù)據(jù)條件下的信息檢索。國內(nèi)的大數(shù)據(jù)發(fā)展迅速，“百度”在其“百度風云榜”、“百度指數(shù)”等服務(wù)上提供了網(wǎng)絡(luò)關(guān)鍵詞大數(shù)據(jù)分析，十分便利，利用這些服務(wù)，可以將網(wǎng)絡(luò)熱詞字典建立起來。

（2）匹配標準。熱詞網(wǎng)絡(luò)搜索頻度越高，該詞所在的分詞詞組匹配概率越大，定義網(wǎng)絡(luò)熱詞頻度指標為P2 ，熱詞的頻度為T，熱詞頻度的因子為x，其它因素影響為C2，則網(wǎng)絡(luò)熱詞頻度指標為P2，可用下式表示：

P2=x*T+C2（3）

4基于規(guī)則的分詞結(jié)果排序算法

經(jīng)過上述頻度概率指標算法，得到分詞詞組的概率排序名次。但是，在利用其概率指標函數(shù)計算出來的結(jié)果相差不大的情況下，仍不能準確判斷出采取哪種方案[7]。為了加強其準確度，還應(yīng)在規(guī)則層面再次進行檢驗。

4.1固定匹配

固定搭配是具有固定結(jié)構(gòu)的詞組。比如“發(fā)揚——精神”、“養(yǎng)成——習慣”等等。這些搭配出現(xiàn)在分詞詞組中，具有該固定搭配的分組的概率指標也會增大，而且，該固定搭配受其熱度影響。對于一個固定搭配而言，其熱度（網(wǎng)絡(luò)使用的頻度）越高，那么它被大眾認同的程度越高，這也就表明該固定搭配的成熟度越高。所以，固定搭配與其熱度（即大眾使用頻度有關(guān)）。

定義固定搭配概率指標為O，其使用頻度（熱度）為Q，該使用頻度的因子為y，其它因素為C3 。則固定搭配概率指標為O可以表示為：

O=y*Q+C3（4）

4.2語法匹配

詞與詞之間是有規(guī)則的，動詞與形容詞在一起構(gòu)成的短語語法規(guī)則弱，與形容詞和名詞構(gòu)成的詞組相比，后者明顯在語法規(guī)則上比前者好。語法規(guī)則在一定條件下，對于分辨出分詞詞組很有幫助。

在這里，可以為每種詞與詞之間的搭配依據(jù)其規(guī)則匹配度賦予一定的值，規(guī)則匹配度越高，其語法規(guī)則越強，形成的分組可能性越高[8]。在這里，以附加值的形式來描述語法規(guī)則對P的影響。

定義語法匹配附加值為Va。Va的值是由詞與詞之間的規(guī)則匹配度決定的，而詞與詞之間規(guī)則匹配度可以根據(jù)漢語語法和漢語使用習慣決定。

5結(jié)語

針對網(wǎng)絡(luò)短中文提出了分詞的優(yōu)化算法，該方法有3個步驟：字符串分詞、頻度概率指標計算和規(guī)則匹配指標計算。其中，分詞概率指標貫穿整個研究的全部。利用數(shù)據(jù)進行擬合，定量提出了分詞概率指標的計算公式及求解方法。最后，利用數(shù)據(jù)集來對該算法公式進行檢測，發(fā)現(xiàn)該算法的正確率在80%以上，達到了實用的目的，但是由于語法匹配附加值取值不當，導(dǎo)致分組仍有提升空間。

參考文獻參考文獻：

[1]王連喜.微博短文本預(yù)處理及學習研究綜述[J].圖書情報工作，2013，57（11）：125131.

[2]蔣紅.中文文本分類中文本表示及分類算法研究[D].金華：浙江師范大學，2007.

[3]朱世猛.中文分詞算法的研巧與實現(xiàn)[D].成都：電子科技大學，2011.

[4]宗成慶.統(tǒng)計自然語言處理[M].北京：清華大學出版社，2008.

[5]周程遠，朱敏，楊云，基于詞典的中文分詞算法研究[J].計算機與數(shù)字工程，2009（3）：6871，87

[6]葉繼平，張桂珠，中文分詞詞典結(jié)構(gòu)的研究與改進[J].計算機工程與應(yīng)用，2012（23）：139142.

[7]李家福，張亞非，一種基于概率模型的分詞系統(tǒng)[J].系統(tǒng)仿真學報，2002，14（5）：544550.

[8]莫建文，鄭陽，首照宇，等，改進的基于詞典的中文分詞方法[J].計算機工程與設(shè)計，2013，34（5）：18021807

責任編輯（責任編輯：陳福時）

軟件導(dǎo)刊2017年5期

軟件導(dǎo)刊的其它文章: Unity3D平臺在電子商務(wù)領(lǐng)域中的應(yīng)用; 聚類分析在高考成績研究主題發(fā)現(xiàn)中的應(yīng)用; Ionic在混合模式APP中的應(yīng)用; 基于決策樹的改進AdaBoost算法在車輛檢測中的應(yīng)用; 基于WebGL的三維虛擬博物館碰撞檢測; 基于遺傳算法的避空偵察最優(yōu)路線選擇