亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        短中文分詞算法優(yōu)化研究

        2017-05-31 08:50:55童小光郭超康洪晶
        軟件導(dǎo)刊 2017年5期

        童小光 郭超 康洪晶

        摘要摘要:對中文分詞進行研究是自然語言處理的重要步驟,結(jié)合字典對短中文進行正逆向分詞,在此基礎(chǔ)上得到多組分詞結(jié)果,利用基于統(tǒng)計的方法和基于規(guī)則的方法進一步優(yōu)化算法,根據(jù)用戶使用頻度和網(wǎng)絡(luò)搜索熱度以及詞語間的固定搭配規(guī)則對多組分詞進行排序,并通過實例驗證發(fā)現(xiàn)該方法具有較好分詞效果。

        關(guān)鍵詞關(guān)鍵詞:中文分詞;分詞算法;使用頻度;搜索熱度

        DOIDOI:10.11907/rjdk.171062

        中圖分類號:TP312

        文獻標識碼:A文章編號文章編號:16727800(2017)005004202

        0引言

        自然語言處理中,詞是最小的能獨立活動的有意義的語言成分。漢語不同于英語,英語有天然的分割符,而漢語需要采用一定的技術(shù)或方法將漢語短語、句子分割成最為基本的詞。對于搜索引擎、微博情感分析等具體應(yīng)用,絕大多數(shù)的用戶輸入的中文語句長度短且無自然分割符(標點符號)。本文重點研究短中文分詞算法及其優(yōu)化方法,提出了結(jié)合基于詞典的分詞方法,并利用基于統(tǒng)計的方法和基于規(guī)則的方法進一步優(yōu)化算法,并通過實例驗證發(fā)現(xiàn)該方法對短中文具有較好的分詞效果。

        1分詞算法優(yōu)化思路

        短中文具有字數(shù)少、無自然分割的特點[1]。針對短中文可以根據(jù)一定的分詞方法(例如逆向或者正向的分詞方法)將短中文分成幾組詞,即要有不同的分詞詞組,并在此分詞算法基礎(chǔ)上,根據(jù)用戶的搜索習慣和網(wǎng)絡(luò)上詞的熱度,結(jié)合固定搭配和語法匹配規(guī)則,給出一定概率指標的排名。利用排名來確定分詞的詞組,從而實現(xiàn)分詞的優(yōu)化,使得分詞結(jié)果更加接近用戶需求[2-4]。

        該優(yōu)化方法有3個主要步驟,分別是基于字典的分詞方法、基于頻度的概率指標計算方法和基于規(guī)則的概率指標計算方法。

        當用戶輸入關(guān)鍵詞字符串時,會根據(jù)分詞方法將字符串分成幾個組詞,這幾個組詞每一組都有一個分詞概率指標P,代表該組分詞的匹配概率,也就是該組分詞是正確分詞的概率。而這個指標P由以下4個因素決定。

        首先,對于一個用戶而言,其具有固定的搜索習慣,分析其搜索習慣的信息有助于分析該用戶的習慣,從而在用戶給定的搜索關(guān)鍵詞中找到用戶所需要信息。將這一因素對P的比重記為P1。

        其次,一個詞在互聯(lián)網(wǎng)的熱度也表明這個詞在大眾生活中的一種傾向性。例如,某部電影近期很受關(guān)注,那么可以預(yù)見在近一段時間內(nèi)針對它的搜索量會增多。對于單個用戶而言,它是大眾中的一部分,如果在分詞分組中出現(xiàn)一個熱度很高的詞,那么這個分組很有可能就是需要的。因此,將這個因素對P的比重為P2。

        除了頻度因素對P的影響外,詞的搭配也會對詞組產(chǎn)出影響。詞與詞之間的搭配是固定的,如果分詞詞組存在這樣的搭配,也會增加是該組分詞的概率,可以把該因素記為O。詞與詞之間除了固定搭配,還有語法規(guī)則上的搭配,每個詞都具有詞性如名詞、動詞、形容詞等,這些詞與詞的組合也會對分詞產(chǎn)生影響,該因素記為指標附加值Va。

        綜上所述,對于某一搜索詞的分詞概率指標P可以表示為:

        P=αP1+βP2+χO+C+Va(1)

        其中,C為其它因素,α,β,χ為公式中的系數(shù)因子。對于不同組的分詞來說,C值是相同的。

        2基于短中文特點的分詞方法

        在本步驟中,需要多種分組方法,所以使用逆向與正向相結(jié)合的方式[5]。假設(shè)字典已經(jīng)被建立,要從字符串中取出詞,首先采用正向方法,設(shè)該字符串有L個字符,第一次,取全部的L個字符,然后在字典中查找匹配,如果存在,則該分組為一個有效的分組。如果不存在,那么去掉最后一個字符,即取前1個到第L-1個字符,然后在字典中繼續(xù)匹配,如果存在,該詞即為所需,并將剩下的一個字作為另一個詞。同樣,如果不匹配,為了加快匹配的進度,去掉上一步最后的兩個字符,即取第1到第(L-1)-2個字符,如果匹配,則該詞是需要的,并將剩下的詞按此方法繼續(xù)匹配,如果仍然不匹配,就按((L-1)-2)-3這樣來繼續(xù)減少字符串長度來進行字典匹配,直到把該字符串的第一個詞從左到右取出來。至此,取到了從左到右的第一個詞。需要再從右向左取第一個詞,按照同樣的方法,只不過這次是從右到左,找到第一個從右到左的詞。結(jié)合這兩個詞,如果這兩個詞的長度加起來等于字符串長度,那么就是一個分組,如果加起來長度小于字符串長度,那么將這兩個詞之間的字符串取出來,按上述步驟,再次進行分詞,直到將詞取出完。

        按照正逆序結(jié)合分詞算法能夠得到多個不同的分詞組合,優(yōu)化算法主要通過基于頻度和基于規(guī)則對分詞組合結(jié)果進行排序。

        3基于頻度的分詞結(jié)果排序算法

        頻度排序算法有兩種:用戶使用頻度算法和網(wǎng)絡(luò)熱詞頻度算法。

        3.1使用頻度

        一個用戶有著自己固定的習慣、愛好和知識面,所以當一個用戶使用搜索功能時,其搜索的內(nèi)容是有規(guī)律的。例如,一個計算機專業(yè)的人員,其搜索的內(nèi)容很大概率與計算機有關(guān);一個注重自己樣貌的女孩會十分關(guān)心化妝品;一名動漫愛好者會搜索與動漫相關(guān)的東西?;诖耍梢运鸭脩舻囊恍┧阉餍畔?,判斷該用戶有哪些習慣,從而提升用戶的搜索體驗。

        前面提到過,在第一步分詞后,會得到幾種不同的分詞組,如果分詞組與用戶搜索信息具有很強的相關(guān)性,那么可以認為該分組是需要的。

        用戶搜索信息就是用戶在搜索時輸入關(guān)鍵詞,可以在用戶輸入完畢時,將關(guān)鍵詞存入數(shù)據(jù)庫,數(shù)據(jù)庫中還會存有該用戶搜索該關(guān)鍵詞的頻度。如果不是第一次輸入該關(guān)鍵詞,就更新其頻度項。

        (1)公式引出。如果一個用戶的某一個搜索關(guān)鍵詞頻度越高,而同時在分詞的某一詞組中也同樣存在該詞,那么就表示該詞組可能是用戶需要的。

        采用與頻度有關(guān)的函數(shù)來表示這個可能性概率[6]。首先,用戶關(guān)鍵詞頻度的絕對值越高,那么其越有可能代表用戶的某一搜索習慣,所以該分組的可能性越高。其次,當用戶的搜索次數(shù)比較多時,不能單純使用關(guān)鍵詞的絕對值作為標準,用戶關(guān)鍵詞頻度的相對值(該關(guān)鍵詞的頻度除以總頻度)也會影響用戶頻度概率指標。

        將用戶頻度概率指標定義為P1;

        用戶關(guān)鍵詞頻度絕對值定義為N;用戶關(guān)鍵詞總頻度定義為S;

        用戶關(guān)鍵詞絕對頻度的影響因子定義為a;

        用戶關(guān)鍵詞相對頻度的影響因子定義為b;

        其它因素定義為C1。

        故用戶頻度概率指標P1可以表示為:

        P1=a*N+b*NS+C1(2)

        (2)參數(shù)確定方法。在該公式中,N,S可以從數(shù)據(jù)庫中查詢,a、b、C為未知量,所以需要用數(shù)據(jù)來訓練這個公式,得出a、b、C。該數(shù)據(jù)訓練的核心就是采用十分具有代表性的數(shù)據(jù)代入公式中,然后依據(jù)這些已知數(shù)據(jù)推導(dǎo)出需要的參數(shù)。

        3.2搜索熱度

        對一個詞,如果互聯(lián)網(wǎng)上其搜索的次數(shù)很高,那么它是一個熱門詞。熱門詞代表著大眾的搜索習慣,而其搜索的頻度越高,說明其在人群中的認同度和傾向性越高。同樣,用戶屬于大眾的一員,其搜索的內(nèi)容會有一定概率包含搜索關(guān)鍵詞。所以,可以利用此來提高分詞的準確性。這種概率可以稱為網(wǎng)絡(luò)熱詞頻度概率指標,該指標計算需要由網(wǎng)絡(luò)熱詞字典和指標匹配標準這兩部分支持。

        (1)網(wǎng)絡(luò)熱詞字典建立。網(wǎng)絡(luò)熱詞字典,是一個包含詞的網(wǎng)絡(luò)使用頻度的字典,其中包含大量的詞。該字典,可以看作是在大數(shù)據(jù)條件下的信息檢索。國內(nèi)的大數(shù)據(jù)發(fā)展迅速,“百度”在其“百度風云榜”、“百度指數(shù)”等服務(wù)上提供了網(wǎng)絡(luò)關(guān)鍵詞大數(shù)據(jù)分析,十分便利,利用這些服務(wù),可以將網(wǎng)絡(luò)熱詞字典建立起來。

        (2)匹配標準。熱詞網(wǎng)絡(luò)搜索頻度越高,該詞所在的分詞詞組匹配概率越大,定義網(wǎng)絡(luò)熱詞頻度指標為P2 ,熱詞的頻度為T,熱詞頻度的因子為x,其它因素影響為C2,則網(wǎng)絡(luò)熱詞頻度指標為P2,可用下式表示:

        P2=x*T+C2(3)

        4基于規(guī)則的分詞結(jié)果排序算法

        經(jīng)過上述頻度概率指標算法,得到分詞詞組的概率排序名次。但是,在利用其概率指標函數(shù)計算出來的結(jié)果相差不大的情況下,仍不能準確判斷出采取哪種方案[7]。為了加強其準確度,還應(yīng)在規(guī)則層面再次進行檢驗。

        4.1固定匹配

        固定搭配是具有固定結(jié)構(gòu)的詞組。比如“發(fā)揚——精神”、“養(yǎng)成——習慣”等等。這些搭配出現(xiàn)在分詞詞組中,具有該固定搭配的分組的概率指標也會增大,而且,該固定搭配受其熱度影響。對于一個固定搭配而言,其熱度(網(wǎng)絡(luò)使用的頻度)越高,那么它被大眾認同的程度越高,這也就表明該固定搭配的成熟度越高。所以,固定搭配與其熱度(即大眾使用頻度有關(guān))。

        定義固定搭配概率指標為O,其使用頻度(熱度)為Q,該使用頻度的因子為y,其它因素為C3 。則固定搭配概率指標為O可以表示為:

        O=y*Q+C3(4)

        4.2語法匹配

        詞與詞之間是有規(guī)則的,動詞與形容詞在一起構(gòu)成的短語語法規(guī)則弱,與形容詞和名詞構(gòu)成的詞組相比,后者明顯在語法規(guī)則上比前者好。語法規(guī)則在一定條件下,對于分辨出分詞詞組很有幫助。

        在這里,可以為每種詞與詞之間的搭配依據(jù)其規(guī)則匹配度賦予一定的值,規(guī)則匹配度越高,其語法規(guī)則越強,形成的分組可能性越高[8]。在這里,以附加值的形式來描述語法規(guī)則對P的影響。

        定義語法匹配附加值為Va。Va的值是由詞與詞之間的規(guī)則匹配度決定的,而詞與詞之間規(guī)則匹配度可以根據(jù)漢語語法和漢語使用習慣決定。

        5結(jié)語

        針對網(wǎng)絡(luò)短中文提出了分詞的優(yōu)化算法,該方法有3個步驟:字符串分詞、頻度概率指標計算和規(guī)則匹配指標計算。其中,分詞概率指標貫穿整個研究的全部。利用數(shù)據(jù)進行擬合,定量提出了分詞概率指標的計算公式及求解方法。最后,利用數(shù)據(jù)集來對該算法公式進行檢測,發(fā)現(xiàn)該算法的正確率在80%以上,達到了實用的目的,但是由于語法匹配附加值取值不當,導(dǎo)致分組仍有提升空間。

        參考文獻參考文獻:

        [1]王連喜.微博短文本預(yù)處理及學習研究綜述[J].圖書情報工作,2013,57(11):125131.

        [2]蔣紅.中文文本分類中文本表示及分類算法研究[D].金華:浙江師范大學,2007.

        [3]朱世猛.中文分詞算法的研巧與實現(xiàn)[D].成都:電子科技大學,2011.

        [4]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學出版社,2008.

        [5]周程遠,朱敏,楊云,基于詞典的中文分詞算法研究[J].計算機與數(shù)字工程,2009(3):6871,87

        [6]葉繼平,張桂珠,中文分詞詞典結(jié)構(gòu)的研究與改進[J].計算機工程與應(yīng)用,2012(23):139142.

        [7]李家福,張亞非,一種基于概率模型的分詞系統(tǒng)[J].系統(tǒng)仿真學報,2002,14(5):544550.

        [8]莫建文,鄭陽,首照宇,等,改進的基于詞典的中文分詞方法[J].計算機工程與設(shè)計,2013,34(5):18021807

        責任編輯(責任編輯:陳福時)

        二区三区三区视频在线观看| 呦泬泬精品导航| 久久久久国产精品四虎| 亚洲精品久久麻豆蜜桃| 亚洲精品一品区二品区三区| 亚洲精品少妇30p| a级毛片内射免费视频| 中文字幕第一页亚洲观看| 国产精品成人有码在线观看| 青青青免费在线视频亚洲视频| 国产精品久免费的黄网站| 日韩人妻无码一区二区三区| 精品一区二区三区免费爱| 国产精品国产三级厂七| 99在线视频这里只有精品伊人| 特黄aaaaaaaaa毛片免费视频| 国产精品免费大片| 一本一道AⅤ无码中文字幕| 国产精品丝袜美女久久| 亚洲男人天堂黄色av| 无码不卡av东京热毛片| 国产精品久久久久久久久免费观看 | 日本最新免费二区| 亚洲av无码成人精品区在线观看| 国产欧美亚洲精品第二区首页| 国产伦奸在线播放免费| 国产精品天天看天天狠| 欧洲熟妇色xxxxx欧美老妇伦| 亚洲欧洲日韩免费无码h | 精品无码国产污污污免费| 精品少妇后入一区二区三区| 色和尚色视频在线看网站 | 朝鲜女人大白屁股ass| 亚洲av美女在线播放啊| 亚洲综合天堂av网站在线观看| 后入丝袜美腿在线观看| 日日碰狠狠添天天爽| 久久久久亚洲精品天堂| 手机在线中文字幕av| 人妻夜夜爽天天爽三区丁香花| 国产精品综合一区二区三区|