亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)音形碼與HowNet的中文詞相似度檢測算法

        2022-09-28 09:55:06王華敏黃夢醒馮文龍馮思玲
        計(jì)算機(jī)仿真 2022年8期
        關(guān)鍵詞:筆順字形編碼

        王華敏,黃夢醒,馮文龍,馮思玲

        (海南大學(xué),海南 ???570228)

        1 引言

        目前存在許多基于字符相似度匹配的算法,比如edit distance,affine gap distance,Simth-Waterman distance,Jaro distance metric和Q-gram distance[1]或者在此基礎(chǔ)上改進(jìn)的算法,在處理拉丁文字的字符串匹配時(shí),都能起到良好的效果。它們最先的設(shè)計(jì)目地也是為了處理拉丁文字遇到的字符匹配問題,因此在面對漢字的時(shí)候,效果往往差強(qiáng)人意。

        針對漢字相似度匹配問題,在主流算法的啟發(fā)下,許多研究者意識到可以將漢字先進(jìn)行統(tǒng)一編碼,編碼時(shí)體現(xiàn)漢字特征的差異性,然后再將傳統(tǒng)的拉丁字符匹配算法應(yīng)用于漢字編碼,可以大大提高準(zhǔn)確率。

        字形上,王東[2]等人把漢字表示為漢字結(jié)構(gòu)、字首部件、和字尾部件三元組。祁俊輝[3]等人提出了基于特征向量和筆順編碼的字形相似算法,充分利用漢字結(jié)構(gòu)、輪廓、筆畫、書寫順序等特征來識別漢字。缺點(diǎn)在于組建漢字特征向量庫后期還需要投入大量的工作,不過組建筆順編碼數(shù)據(jù)庫值得借鑒。

        發(fā)音上,已經(jīng)有處理拉丁文字的Soundex算法,但是漢字種類繁多,且受方言影響,此算法無法滿足要求。

        音形結(jié)合上,俞榮華[4]等人在處理多語言文本的相似重復(fù)記錄時(shí),利用漢字的拼音序、筆劃序、部首序?qū)h字進(jìn)行排序處理,缺點(diǎn)是這種方法對漢字的特征差異描述還較為粗略。陳鳴[5]等人歸納出音形碼,但拼音碼沒有體現(xiàn)出拼音發(fā)音的漸進(jìn)變化,因此存在一個(gè)字對與之相近的發(fā)音字,與不相近發(fā)音字求出來的距離是一樣的,而字形部分采用四角編碼,只能粗略描述漢字的字形。周昊[6]等人在陳鳴的基礎(chǔ)上改進(jìn)了音形碼的編碼方式,將音形碼按照發(fā)音以及字形的漸進(jìn)變化編碼,最后檢測的結(jié)果更符合實(shí)際。但是其字形描述仍然采用四角編碼,仍然無法將字形細(xì)致的描述,從而體現(xiàn)差異性。

        基于語義的方法主要是利用釋義詞典或者一些大規(guī)模的本體[7]對詞匯進(jìn)行語義上的相似度計(jì)算[8],可以將完全不一樣的文字,但表述相同語義的詞語相似度正確計(jì)算出來。其缺點(diǎn)是被檢測詞語必須完全準(zhǔn)確,不能存在錯(cuò)別字。

        本文針對中文檢測算法音碼對漢字拼音描述不全,對漢字字形描述不夠精確,僅僅做意思檢測又太片面等缺點(diǎn)做出補(bǔ)充與改進(jìn),提出結(jié)合改進(jìn)音形碼與Hownet的算法。該算法基于中文的音形義特征,較為全面的檢測相似度,大大提高了準(zhǔn)確度。

        具體工作:①改進(jìn)音碼,重新考慮了拼音可能存在聲母缺失的情況。②改進(jìn)形碼,將四角號碼改為筆順編碼,更加詳細(xì)描述漢字的結(jié)構(gòu)。③改進(jìn)中文字符串相似度距離計(jì)算方法,在加權(quán)編輯距離的基礎(chǔ)上,考慮漢字可能存在字序改變而意思不變的情況。④設(shè)計(jì)了結(jié)合音形義的中文字符串相似度檢測算法。

        2 相關(guān)工作

        2.1 音碼

        漢字拼音由聲母、韻母和聲調(diào)組成,其次,有些拼音中間還有一個(gè)韻母,如,“chuang”中的‘u’,因此還將考慮添加一位韻母補(bǔ)碼,最終生成的音碼應(yīng)該包含聲母碼、韻母碼、音調(diào)碼、韻母補(bǔ)碼四個(gè)部分。

        設(shè)計(jì)音碼時(shí),想要充分體現(xiàn)拼音發(fā)音的差異性,需要了解哪些拼音特性會影響到需要表達(dá)的漢字,然后針對性的進(jìn)行設(shè)計(jì)。我國省市眾多,不同的地方有著不一樣的方言,尤其南方的語言變化更多,南方人的發(fā)音更容易帶有方言特色,較為容易混淆。如,‘l’和‘n’,常常會有人將‘劉’和‘牛’混淆,因此算法設(shè)計(jì)上可認(rèn)為是發(fā)音相似;又如,‘a(chǎn)ng’和‘a(chǎn)n’,容易將‘床’和‘傳’混淆等。根據(jù)這些特性,得出容易混淆的發(fā)音具有更高的相似度。陳鳴[5]等人在設(shè)計(jì)音碼時(shí),根據(jù)這個(gè)特征將拼音的四個(gè)部分對應(yīng)轉(zhuǎn)為數(shù)字或者字母,其中容易混淆的聲母或者韻母轉(zhuǎn)化為同一個(gè)數(shù)字或者字母。

        而周昊[6]等人在陳鳴的基礎(chǔ)上改進(jìn)音碼的編碼方式,采用格雷碼表示聲母和韻母,然后計(jì)算其漢明距離體現(xiàn)相似度,其結(jié)果能充分體現(xiàn)出拼音發(fā)音習(xí)慣的差異。

        要用格雷碼完全表示聲母和韻母,一共需要5+5+5個(gè)二進(jìn)制位,即聲母碼、韻母碼、韻母補(bǔ)碼。而音調(diào)只有四聲,因此,一聲 (00),二聲 (01),三聲(10),四聲 (11)。最后一共可以用17個(gè)二進(jìn)制位表示音碼。

        2.2 形碼

        用來表達(dá)一個(gè)漢字的字形特征需要知道漢字的結(jié)構(gòu),筆畫以及按字形的編碼,因此字形部分需要包括這三個(gè)部分[6]。由此,陳鳴等人對應(yīng)設(shè)計(jì)了結(jié)構(gòu)碼,筆畫碼以及應(yīng)用四角號碼對漢字字形進(jìn)行編碼。其中四角號碼根據(jù)漢字四個(gè)角按順序?qū)h字編碼,分別是左上角、右上角 、左下角 、右下角,具體的取角規(guī)則可參考徐祖友[9]。

        考慮到結(jié)構(gòu)與結(jié)構(gòu)之間,有些存在相似性,可以在計(jì)算時(shí)加入考慮,周昊[6]等人根據(jù)這個(gè)特點(diǎn)改進(jìn)了形碼,設(shè)計(jì)了針對結(jié)構(gòu)漸進(jìn)變化的編碼方式,使得相似結(jié)構(gòu)間漢明距離相近。

        2.3 HowNet

        漢語博大精深,一個(gè)中文詞語通??赡苡卸嘀匾馑?,而一個(gè)意思通常也可以用不同的詞語去描述,而由此產(chǎn)生的相似度問題是基于音形設(shè)計(jì)的算法無法解決的。因此,一些研究人員花費(fèi)數(shù)十年的時(shí)間從各種詞典和語言知識庫篩選詞義,并用這些詞義對詞語進(jìn)行注釋,以構(gòu)建基于詞義的語言知識,HowNet[10]就是此類最著名的知識庫之一[11]。而自從HowNet發(fā)布以來,引起了廣泛的關(guān)注,吸引了各種相關(guān)研究,如葛斌[12]等人,劉群[13]等人對基于知網(wǎng)的詞匯語義相似度計(jì)算方法進(jìn)行研究。其中劉群等人的詞語相似度檢測算法,是最具影響力的研究之一。

        HowNet考慮到每個(gè)詞語的多義性,為其注釋了不同的含義,每個(gè)含義用中英文表達(dá)。如,對于“蘋果”這個(gè)詞的注釋,它包括“電腦”、“電話”、“水果”、“樹”這四種含義,每個(gè)含義下面又有相應(yīng)的解釋。

        HowNet從提出至今不斷完善,最新版本取名OpenHowNet,包含了HowNet的核心數(shù)據(jù),并提供免費(fèi)下載,此外還提供了OpenHowNet API,包含了詞語的相似度計(jì)算接口,其算法基于[14]提出。本文詞語語義相似度計(jì)算使用的便是OpenHowNet API。

        3 音形碼的改進(jìn)

        3.1 漢字音碼的改進(jìn)

        在音形碼的基礎(chǔ)上,通過實(shí)驗(yàn)研究,發(fā)現(xiàn)有些拼音是沒有聲母的,如‘額’的拼音“e”,而它與“de”,“l(fā)e”都有較高的相似度,所以缺少時(shí),可以用一個(gè)相對與“00000”、“11111”有差不多漢明距離的編碼。同理,聲母和韻母中間不存在補(bǔ)碼的,也取與兩端差不多距離的編碼。改進(jìn)后的拼音編碼見表1、表2。

        表1 拼音聲母編碼

        表2 拼音韻母編碼

        聲母碼、韻母碼、韻母補(bǔ)碼一共占有15個(gè)二進(jìn)制位,音調(diào)只有四聲,一聲 (00),二聲 (01),三聲(10),四聲 (11)。最后一共可以用5+5+5+2個(gè)二進(jìn)制位表示音碼。

        因此,基于音碼的漢字相似度計(jì)算公式為

        (1)

        其中,h(a,b)為漢字a,b的音碼漢明距離,len(a)為a的音碼長度,即17。

        改進(jìn)后的音碼可以補(bǔ)充拼音缺少韻母和聲母的情況,提高音碼相似度檢測的準(zhǔn)確率。

        3.2 漢字形碼的改進(jìn)

        陳鳴[5]等人的形碼是基于結(jié)構(gòu)碼,筆畫碼以及應(yīng)用了四角號碼表示。考慮到四角號碼是根據(jù)字的左上角、右上角 、左下角 、右下角取碼,存在無法細(xì)致描述字形的情況,因此本文采用筆順編碼代替。

        根據(jù)漢字編碼規(guī)則,任何漢字的結(jié)構(gòu)都可以分成橫、豎、撇、捺、折,即五筆結(jié)構(gòu)。按照這個(gè)思路,可以將每個(gè)漢字的書寫筆畫對應(yīng)相應(yīng)的五筆編碼,然后根據(jù)筆畫出現(xiàn)的順序,依次記下編碼,即得到筆順編碼,其中筆畫數(shù)即筆順編碼的字符長度。而筆順編碼是比較成熟的漢字表示方式,比較容易得到。按照編碼規(guī)則對任意漢字生成的編碼字符串,簡稱漢字筆順編碼。漢字筆畫編碼規(guī)則見表3。

        表3 漢字筆畫編碼規(guī)則

        如,‘優(yōu)’由撇、豎、橫、撇、豎彎鉤、點(diǎn)組成,根據(jù)對照表,對照生成筆順編碼“321354”。

        筆順編碼反映了漢字的組成,相同的的編碼說明有相同的筆畫順序組成,在一定程度上可以反映漢字的相似程度,再加上漢字的結(jié)構(gòu),這樣從組成因素和組成方式大致描述了漢字字形,由這兩部分編碼計(jì)算出來的相似度,可以描述出漢字的直觀形狀。

        最終本文采用陳鳴的結(jié)構(gòu)碼,筆畫碼,而用筆順編碼代替四角號碼。改進(jìn)后的形碼可以比較細(xì)致的區(qū)分字形差異。

        4 中文字符串相似度檢測算法

        4.1 改進(jìn)形碼的漢字相似度檢測算法

        生成包含結(jié)構(gòu)碼、筆畫碼、筆順編碼后的形碼后,漢字字形相似度便可以基于此形碼考慮。

        漢字的直觀形狀受到結(jié)構(gòu)的影響,本文結(jié)構(gòu)碼采用周昊[6]等人在陳鳴基礎(chǔ)上提出的結(jié)構(gòu)碼,其優(yōu)勢在于體現(xiàn)漢字結(jié)構(gòu)的漸進(jìn)變化。

        筆畫在一定程度可以反饋漢字的復(fù)雜程度,筆畫越多通常字形越復(fù)雜,筆畫數(shù)差異越大則可以體現(xiàn)字形相似度越小。

        不同漢字的筆順編碼并不是等長的,所以其相似度可以根據(jù)編碼的最長公共子串來度量,最長公共子串便是兩個(gè)相似的字形筆畫組成部分,相似筆畫越多,即最長公共子串占比越多,字形越相似。相似筆畫所在的位置也是影響字形相似度的一大因素。如,‘時(shí)’的筆順編碼為“2511124”,而‘如’的筆順編碼為“531251”,可知兩個(gè)字的筆順編碼最長公共子串為“251”,根據(jù)人們看漢字字形相似的習(xí)慣,字形的相似很大程度受到相似結(jié)構(gòu)位置的影響,由編碼“251”可知,他們相似的結(jié)構(gòu)分別為少最后一筆的‘日’以及‘口’。按照習(xí)慣,完全不會將這兩個(gè)字聯(lián)系在一起。因此需要考慮最長公共子串在筆順編碼里的位置差,差值越小,相似度越高。

        綜合考慮漢字筆順編碼最長公共子串占比、漢字筆順編碼最長公共子串位置差、漢字筆畫、漢字結(jié)構(gòu)碼四個(gè)因素,設(shè)計(jì)基于改進(jìn)形碼的漢字相似度檢測算法。

        算法1:改進(jìn)的的單個(gè)漢字字形相似度計(jì)算

        輸入:漢字a、b

        輸出:漢字a、b的字形相似度Simxing(a,b)。

        Step1:生成a、b對應(yīng)的筆順編碼,字形結(jié)構(gòu)碼,筆畫數(shù)。

        Step2:考慮筆順編碼公共子串。由于公式計(jì)算需要,要先判斷a、b漢字哪個(gè)筆順編碼較短和較長,d=Min(len a,len b),s=Max(len a,len b),計(jì)算最長公共子串長度為Lcs_len,則公共子串占比

        (2)

        Step3:考慮漢字筆畫。計(jì)算漢字筆畫差c=|len a-len b|,計(jì)算筆畫差對相似度的貢獻(xiàn)比

        (3)

        Step4:考慮筆順編碼最長公共子串的位置差。先得出最長公共子串在各自的位置。得到a的筆順編碼最長公共子串位置為a_p,b的為b_p,其中a_p和b_p分別為子串第一位在筆順編碼中的位置,計(jì)算差值p=|a_p-b_p|,最后得到位置對相似度的貢獻(xiàn)比

        (4)

        Step5:考慮漢字結(jié)構(gòu)。計(jì)算結(jié)構(gòu)碼的漢明距離ham,然后根據(jù)漢明距離計(jì)算結(jié)構(gòu)因素

        (5)

        Step6:考慮到相似度不超過1,且分別需要考慮筆順編碼最長公共子串、漢字筆畫數(shù)、筆順編碼最長公共子串所處的位置差異、漢字結(jié)構(gòu)差異。設(shè)置貢獻(xiàn)參數(shù):α,β,i,j。本文分別設(shè)置為0.6,0.2,0.1,0.1,得到相似度計(jì)算公式

        (6)

        4.2 漢字音碼或形碼單個(gè)特征的中文字符串相似度檢測算法

        文獻(xiàn)[15]提出將中文相似度計(jì)算分為一階相似度計(jì)算和二階相似度計(jì)算,即漢字相似度計(jì)算和中文字符串相似度計(jì)算。其中二階相似度計(jì)算采用加權(quán)編輯距離,這種計(jì)算方式替換、刪除的操作代價(jià)不單純用0,1表示,而是利用單個(gè)漢字對比后的相似度表示。由于中文詞語存在改變字的順序而意思不變的情況,如,“互相-相互”,“察覺-覺察”等,按照此方法,沒法識別這些詞其實(shí)是同一個(gè)詞,所以不能單純按照字序分別比對詞語中漢字的相似度。

        基于加權(quán)編輯距離,將詞語中的每個(gè)漢字轉(zhuǎn)換編碼后,分別比對,找出相互能夠匹配的最高精度詞語,然后計(jì)算其位置代價(jià)。如果詞語中的每個(gè)漢字都能找到自己精確匹配的漢字,則不計(jì)算位置代價(jià)。如,“不好-好壞”,顯然兩個(gè)字符串都有共同的漢字‘好’,首先將各自最高精度的字符相互匹配,則得到“不好-壞好”,然后再用加權(quán)編輯進(jìn)行計(jì)算相似度,最后考慮位置替換代價(jià)。但是如果單純按照順序比對,則無法將這兩個(gè)字符串聯(lián)系在一起。而“互相-相互”,則各自能完全匹配,這時(shí)則不計(jì)位置代價(jià),可以得到其相似度為1。

        算法2:改進(jìn)的基于漢字音或形單個(gè)特征的中文字符串加權(quán)編輯距離相似度算法

        輸入:中文字符串s1、s2。

        輸出:s1、s2的音或形相似度Sim(s1,s2)。

        Step1:min_s=Min(s1,s2),max_s=Max(s1,s2),將min_s和max_s中的所有漢字轉(zhuǎn)為音碼或者形碼。

        Step2:將min_s中的所有漢字與max_s中的所有漢字遍歷進(jìn)行相似度計(jì)算,min_s中每個(gè)字對應(yīng)max_s中的相似度最近的一個(gè)字,將max_s重新排序。如:“教師-你教的師”,則變成“教師-教師你的”;“相互-互相”,計(jì)算后得到“相互-相互”。

        Step3:然后比較min_s與max_s的長度,如果等長且完全匹配,即每個(gè)漢字匹配組相似度都為1,則執(zhí)行Step 4,不考慮位置因素,否則Step 5,把位置因素考慮進(jìn)去。

        Step 4:

        (7)

        返回相似度,算法結(jié)束。其中sum_sim為對應(yīng)位置每組漢字的相似度和。

        Step5:考慮位置因素。由于匹配時(shí),max_s的字符位置發(fā)生交換,則計(jì)算出交換前后的位置差,然后計(jì)算絕對值,設(shè)各個(gè)差值絕對值和為sum_position,則位置影響因素。

        (8)

        Step6:將發(fā)生位置交換的max_s與min_s用加權(quán)編輯距離算法求編輯距離,即lds(max_s,min_s)。

        (9)

        Step7:得到字符串相似度

        (10)

        4.3 結(jié)合改進(jìn)音形碼與Hownet的中文字符串相似度檢測算法

        音、形、義是漢字的三大特征[15],也是漢字相似度考慮的主要因素。主流中文詞語相似度檢測大多分別從音形或者詞義研究漢語相似度,對于結(jié)合二者的研究相對較少,而二者皆有各自優(yōu)缺點(diǎn)。如,“西紅柿”與“番茄”,光考慮音形,無法確定其相似度;而“彬彬”與“杉杉”光從詞義也無法確定其相似度。針對此問題,提出結(jié)合改進(jìn)音形碼與HowNet的算法,從音形義三個(gè)方面綜合考慮中文字符串的相似度。

        在此算法設(shè)計(jì)中,需要考慮以下幾種情況:①相同的意思,完全不同的詞表達(dá)。設(shè)置閾值為t,如果單個(gè)特征相似度大于t,可以認(rèn)為單個(gè)特征高度相似,則不考慮其他兩個(gè)特征。②當(dāng)詞語存在錯(cuò)別字時(shí),詞語本身是無意義的,要判定它的相似度,必須要將其轉(zhuǎn)換成與其最為相似而有意義的詞語,再進(jìn)行相似度比較。③當(dāng)三個(gè)特征相似度都較低時(shí),可以針對應(yīng)用場景,分別設(shè)置各個(gè)特征的貢獻(xiàn)參數(shù)。

        由此,設(shè)計(jì)算法3。其中,算法3出現(xiàn)的基于音碼的中文字符串相似度檢測(Simyin)和基于形碼的中文字符串相似度檢測(Simyi)算法皆是算法2。

        算法3:基于音形義的中文字符串相似度檢測算法

        輸入:中文字符串s1、s2。

        輸出:s1、s2的相似度Simzong(s1,s2)。

        Step 1:先將s1,s2進(jìn)行意思檢測,看看是否都有意義,如果有,先進(jìn)行賦值操作,s1_change=s1,s2_change=s2,num=0,然后執(zhí)行Step 3;如沒有意義,則直接執(zhí)行Step 2。

        Step2:將無意義的字符串進(jìn)行單個(gè)相似漢字替換,數(shù)據(jù)庫為漢字同音詞或者形近詞庫,替換后的詞語再進(jìn)行意思檢測,循環(huán)到找到最接近相似度詞語為止,然后設(shè)置替換懲罰參數(shù)f,被替換字?jǐn)?shù)為num。根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn),這里的f設(shè)置為0.1。替換后的字符串分別對應(yīng)為s1_change、s2_change。

        Step3:分別計(jì)算s1_change、s2_change的意思相似度

        simyi(s1,s2)=simyi(s1_change,s2_change)-f×num

        (11)

        Srep4:計(jì)算s1、s2的音形相似度,根據(jù)貢獻(xiàn)值a、b、c求最后相似度,其中a+b+c=1。如果單個(gè)特征相似度大于t,則以此特征為準(zhǔn),而不考慮另外兩個(gè)特征的相似度。

        Simzong=simyin×a+simxing×b+simyi×c

        (12)

        5 實(shí)驗(yàn)結(jié)果與數(shù)據(jù)分析

        5.1 實(shí)驗(yàn)方案

        以陳鳴[5]提出的音形碼作為基礎(chǔ),用編輯距離計(jì)算字符串音形碼相似度作為方法1,以HowNet義原檢測作為方法2,以本文提出的基于音形義檢測算法作為方法3。各方法比較如圖1。

        圖1 各方法基于特征比較

        實(shí)驗(yàn)方案:

        方案1:選取12組典型中文字符串進(jìn)行實(shí)驗(yàn),比對音形義相似的情況。最后對結(jié)果進(jìn)行分析比較,如圖2。

        圖2 典型中文字符串相似度計(jì)算結(jié)果比較(方案1)

        方案2:分別用以上三個(gè)方法檢測近義詞大全[16],一共730組近義詞。閾值都設(shè)為0.6,分別比較篩選出近義詞的準(zhǔn)確率,比較結(jié)果如圖3。

        圖3 近義詞識別率比較(方案2)

        方案3(本文方法):分別用以上三個(gè)方法檢測高中語文錯(cuò)別字[17],截取前85組近形(音)詞。閾值分別設(shè)為0.6、0.7、0.8、0.9,比較三種算法篩選出近義詞的準(zhǔn)確率,比較結(jié)果如圖4。

        圖4 形(音)近詞識別率比較(方案3)

        方案4:任意找一段文本(共1000字左右)[18],隨機(jī)位置插入10個(gè)詞語,分別為:相互、西紅柿、藩茄、教師、衰豪、倉黃、徘回、悲創(chuàng)、宛轉(zhuǎn)、凜列,找出人工判別對應(yīng)相似的詞語,分別為:互相、番茄、老師、哀嚎、蒼黃、徘徊、悲愴、婉轉(zhuǎn)、凜冽。用以上三個(gè)方法分別對文章進(jìn)行文本檢測,閾值分別設(shè)置為0.6,0.7,0.8,分析詞語分類結(jié)果,如圖5。

        圖5 詞語檢測召回率比較(方案4)

        5.2 評判標(biāo)準(zhǔn)

        由于中文詞語相似度評價(jià)沒有通用標(biāo)準(zhǔn),受主觀因素影響,所以主要按照人工判別的方式去比較各種方法的優(yōu)劣。大致評價(jià)標(biāo)準(zhǔn):相似度小于0.5時(shí),為不相似;相似度為0.5-0.6,則說明有關(guān)聯(lián)性;相似度0.6-0.8為比較相似;相似度0.8-0.9為相似;相似度0.9-1.0為非常相似。

        5.3 結(jié)果分析

        經(jīng)過多次實(shí)驗(yàn),4種方案實(shí)驗(yàn)結(jié)果以及結(jié)果分析如下。

        對圖2(方案1)分析如下:

        1)對于“相互-互相”這類詞語,字序改變,詞義不變。方法1所得相似度沒有參考價(jià)值,而方法2和方法3的算法基于語義,可以有效識別。

        2)對于“西紅柿-番茄”這類詞語,描述方法不一樣,而意思一樣的詞語,方法1也沒有參考價(jià)值,而方法2、方法3則表現(xiàn)良好。

        3)對于“番茄-藩茄”這類詞語,假設(shè)其中有錯(cuò)別字,而HowNet語料庫中是不可能存在這種錯(cuò)別字詞語的,因此返回Null,沒有參考價(jià)值。而基于音形碼的方法1和基于音形義的方法3則具有一定參考價(jià)值,其中,方法3可以識別“藩茄”可能描述的詞語為“番茄”,所以可以得出較高的相似度。

        4)對于“男人-和尚”,“男人-鯉魚”,顯然,“男人”和“和尚”有較高的關(guān)聯(lián),而方法1并不能體現(xiàn),而方法2則把前者的相似度計(jì)算的過于高了,方法3則體現(xiàn)其具有關(guān)聯(lián)性,比較符合實(shí)際。

        對圖3(方案2)分析如下:

        本次實(shí)驗(yàn)用三種方法從730組近義詞中進(jìn)行相似度計(jì)算,從而分析識別率。其中方法1識別組數(shù)為236組,識別率為32.3%,方法2識別組數(shù)為509組,識別率為69.7%,方法3,也就是本文提出的算法,識別組數(shù)為529組,識別率為72.5%??梢钥闯霰疚姆椒ㄏ鄬ζ渌椒ㄌ岣吡俗R別率。

        對圖4(方案3)分析如下:

        由于錯(cuò)別字組成的詞語,HowNet詞庫并未收錄,因此方法2基本失效,而當(dāng)相似度閾值設(shè)置為0.6時(shí),方法1與方法3效果相同,但是隨著閾值的不斷增加,方法1顯然效果大大減小,其相似度分散在0.6-08之間,應(yīng)用方法2在多組詞組中找相似詞組時(shí),容易受其他詞組的影響,而方法3,即本文方法,則可以在比較高的相似度下將形(音)近字篩選出來,在干擾下篩選詞語的效果顯然會強(qiáng)于方法1。

        對圖5(方案4)分析如下:

        檢測隱藏在文本中的詞語,當(dāng)閾值為0.6時(shí),方法1召回率為70%。方法2召回率為30%。本文方法召回率為100%;當(dāng)閾值為0.7時(shí),方法1召回率為50%。方法2召回率為30%。本文方法召回率為90%;當(dāng)閾值為0.8時(shí),方法1召回率為30%。方法2召回率為30%。本文方法召回率為70%。實(shí)驗(yàn)表明,在文本中檢測相似詞,本文方法效果明顯最好。

        以上結(jié)果表明,無論是從音形還是詞義檢測中文詞相似度,本文提出的算法都有更好的表現(xiàn)。

        6 結(jié)論

        1)通過完善拼音編碼,算法提高了中文近音詞檢測精度。

        2)通過優(yōu)化字形編碼方式,算法在近形詞檢測中表現(xiàn)更好。

        3)在近義詞檢測方面,算法可以允許被檢測詞出現(xiàn)錯(cuò)別字的情況,識別率提高2.8%。

        4)算法可滿足多種應(yīng)用場景,如,結(jié)構(gòu)化數(shù)據(jù)項(xiàng)重復(fù)性檢測,特別是存在手工輸入錯(cuò)誤的情況;另外,也可應(yīng)用于存在利用別字隱藏敏感詞的文本檢測等。

        猜你喜歡
        筆順字形編碼
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        《全元詩》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        筆順游戲:用手指描畫
        孩子(2019年7期)2019-07-29 05:37:20
        甲骨文“黍”字形義考
        甲骨文中的字形直立化二則
        課本內(nèi)外
        Genome and healthcare
        最易寫錯(cuò)筆順的字
        復(fù)習(xí)生字字形的方法
        91日韩东京热中文字幕| 欧美日韩一区二区三区色综合| 老熟女一区二区免费| 丰满人妻被持续侵犯中出在线| 九九九免费观看视频| 无码中文字幕日韩专区视频| 国产免费一级在线观看| 色偷偷亚洲女人的天堂| 日韩一区在线精品视频| 亚洲国产精品综合久久网各| 亚洲成人免费观看| 亚洲一区二区三区国产精品| 国产一区二区视频在线免费观看| 国产精品一区二区久久乐下载| 成人毛片18女人毛片免费| 琪琪av一区二区三区| 无码人妻久久一区二区三区免费丨 | 五月天无码| 亚洲乱码中文字幕三四区| 夜夜爽妓女8888888视频| 免费av片在线观看网站| 一区二区三区午夜视频在线观看| av手机免费在线观看高潮| 激烈的性高湖波多野结衣| 中文字幕久久久精品无码| 亚洲综合网中文字幕在线| 日韩欧美一区二区三区免费观看| 好吊色欧美一区二区三区四区| 日本精品免费一区二区三区| 91精品国产高清久久福利| 久久精品中文闷骚内射| 91麻豆国产香蕉久久精品| 91青青草在线观看视频| 亚洲综合网一区二区三区| 色综合悠悠88久久久亚洲| 午夜精品久久久久久毛片| 久久久国产精品樱花网站| 操国产丝袜露脸在线播放| 无码一区二区三区中文字幕| japanese无码中文字幕| 女同久久精品国产99国产精|