亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于關(guān)聯(lián)規(guī)則的中文變體詞識(shí)別算法

        2018-04-08 09:59:26趙俊杰
        關(guān)鍵詞:詞庫(kù)關(guān)聯(lián)詞高頻詞

        趙俊杰

        (安徽財(cái)經(jīng)大學(xué) 工商管理學(xué)院, 安徽 蚌埠 233030)

        隨著手機(jī)及互聯(lián)網(wǎng)的高速發(fā)展和社交網(wǎng)絡(luò)的興起,經(jīng)常會(huì)遇到如何正確識(shí)別變體詞的問(wèn)題[1]。例如,很多網(wǎng)民往往會(huì)采用不規(guī)范的漢字書(shū)寫(xiě)辦法,使用字形相近的生僻字來(lái)代替原有的文字,或者針對(duì)某些敏感詞采用加特殊符號(hào)的辦法等[2]。這樣做的目的或者是為了避開(kāi)一些政治敏感詞語(yǔ)[3],或者為躲避常規(guī)的過(guò)濾方法來(lái)發(fā)布廣告以及反動(dòng)、暴力或者色情等不良信息。這些變體詞主要出現(xiàn)在短信、微博/博客、論壇、電子小說(shuō)、電子郵件、微信以及各種即時(shí)通訊中[4]。

        大量的廣告與不良信息常常干擾到用戶對(duì)互聯(lián)網(wǎng)的正常使用,甚至?xí)o用戶帶來(lái)?yè)p失。目前針對(duì)廣告與不良信息主要采取關(guān)鍵詞匹配的方法來(lái)進(jìn)行識(shí)別和過(guò)濾,常見(jiàn)的關(guān)鍵詞匹配方法是基于中文信息處理技術(shù)和多模式匹配技術(shù),能夠有效發(fā)現(xiàn)各種廣告和不良信息,技術(shù)實(shí)現(xiàn)簡(jiǎn)單[5]。但因這些文本中存在的關(guān)鍵詞中間夾雜字符、對(duì)關(guān)鍵詞中的關(guān)鍵字使用形近字或拼音進(jìn)行替換等變體特征,在實(shí)際應(yīng)用中存在較高的誤判率或漏判率,使得人工干預(yù)成本增加[6]。同時(shí),需要不斷增加新出現(xiàn)的各種特征進(jìn)入關(guān)鍵詞庫(kù),造成關(guān)鍵詞庫(kù)的極大冗余[7]。國(guó)內(nèi)外一些專家學(xué)者針對(duì)中文變體詞的識(shí)別技術(shù)和算法也進(jìn)行了大量研究,例如:王寶勛等[8]提出一種適用于中文的基于無(wú)監(jiān)督的變體詞識(shí)別算法;汪霞等[9]針對(duì)特征詞變異的中文垃圾郵件問(wèn)題,提出了一種基于變體特征詞匹配還原的新貝葉斯郵件過(guò)濾算法;溫園旭等[10]提出的基于層次特征的變體短文本過(guò)濾算法;Sood等[11]在對(duì)不良文本及其變體信息進(jìn)行檢測(cè)的時(shí)候,采用機(jī)器學(xué)習(xí)的方法,通過(guò)采用bigram、詞干等作為特征值來(lái)對(duì)文本信息做分類分析,以檢測(cè)出變體詞;Wang等[12]將中文微博變體詞的發(fā)現(xiàn)與中文分詞結(jié)合起來(lái),提出二層階乘條件隨機(jī)場(chǎng)模型,并將兩者結(jié)合起來(lái),使得兩者的性能都有所提高。Zhang 等[13]提出了一個(gè)端到端的無(wú)監(jiān)督的方法,基于深度學(xué)習(xí)實(shí)現(xiàn)對(duì)變體詞及其目標(biāo)實(shí)體詞的映射關(guān)系的發(fā)現(xiàn)。另外,部分防水墻過(guò)濾系統(tǒng)中對(duì)于網(wǎng)絡(luò)灌水等惡意行為的監(jiān)測(cè),是將所有漢字轉(zhuǎn)換成拼音形式,然后檢索和過(guò)濾拼音關(guān)鍵字,但效果不理想??傮w來(lái)說(shuō),關(guān)于中文變體詞的識(shí)別技術(shù)研究還較少,目前對(duì)中文變體詞仍缺少有效的解決方法。

        本文研究中文變體詞的識(shí)別技術(shù)和算法,對(duì)于垃圾郵件與短消息的過(guò)濾、不良信息的檢索等都有著非常重要的作用。本文針對(duì)中文變體詞的常見(jiàn)類型進(jìn)行分析歸納,設(shè)計(jì)出一種基于關(guān)聯(lián)規(guī)則的中文變體詞識(shí)別算法,以提升識(shí)別效果。

        1 中文變體詞的分類及相關(guān)工作

        1.1 中文變體詞分類

        通過(guò)對(duì)于中文變體詞的收集和分析,中文變體詞總體可以分為3種類型:

        1) 漢字字形的變體,即使用繁體字、同音字或形近字替換部分或者全部目標(biāo)詞語(yǔ),如“代開(kāi)發(fā)票”替換為“代開(kāi)發(fā)飄”等;

        2) 漢字變換為字母,即使用英文單詞、拼音或者拼音縮寫(xiě)替換目標(biāo)詞語(yǔ),如“發(fā)票”替換為“fa piao”等;

        3) 漢字詞中包含特殊字符,即在中文詞語(yǔ)中插入特殊字符或者使用特殊字符進(jìn)行部分漢字替換,這里特殊字符包括字母或漢字的偏旁部首等形式。如“招聘淘寶刷鉆”替換為“招*聘*淘*寶*刷*鉆”等。

        中文變體詞的分類采用以上劃分方式的主要目的是方便中文變體詞識(shí)別算法的設(shè)計(jì)。另外,還有使用圖形或圖片替換中文目標(biāo)詞語(yǔ)的情況,需要圖形識(shí)別等技術(shù),這里不做討論。

        1.2 中文分詞方法的改進(jìn)

        目前,常見(jiàn)的中文分詞技術(shù)主要有基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法[14]。對(duì)于已經(jīng)收錄詞庫(kù)的詞語(yǔ)分詞結(jié)果誤差較小,但對(duì)于一些新詞或者變體詞的分詞效果不是很好。這里對(duì)于中文分詞方法的改進(jìn)主要是針對(duì)中文變體詞的劃分。

        大多數(shù)中文分詞系統(tǒng)對(duì)于不能識(shí)別的詞語(yǔ)或者字符都是單獨(dú)分離出來(lái)進(jìn)行分別標(biāo)注,這樣做的結(jié)果可能使得大多數(shù)中文變體詞被分成多個(gè)單個(gè)的字符和漢字,例如原文:“本站誠(chéng)征EMAIL廣告代理,收費(fèi)為每群發(fā)一次EMAIL廣告100元?!北环纸獬伞氨菊?誠(chéng)/征/EMAIL/廣/ #/告/ #/代/ #/理/,/收費(fèi)/為/每/群/ #/發(fā)/ #/一次/ EMAIL/廣/ #/告/ #/100/元/。/”。

        本文對(duì)中文分詞系統(tǒng)做部分改進(jìn),即對(duì)于不能識(shí)別的字符與前后的單個(gè)漢字合并,直至后面詞語(yǔ)或符號(hào)等能夠被單獨(dú)識(shí)別和標(biāo)注。這樣設(shè)計(jì)的主要目的是盡可能地分出多字詞和短語(yǔ),方便中文變體詞的識(shí)別。對(duì)ICTCLAS中文分詞系統(tǒng)[7]進(jìn)行改進(jìn),對(duì)于以上的例子,在改進(jìn)后的ICTCLAS中文分詞系統(tǒng)中分詞的結(jié)果為“本站/誠(chéng)/征/ EMAIL/廣#告#代#理/,/收費(fèi)/為/每/群#發(fā)#/一次/ EMAIL/廣#告#/100/元/。/”。

        1.3 中文變體詞庫(kù)及其關(guān)聯(lián)詞庫(kù)的建立

        對(duì)于中文變體詞庫(kù)的建立本文主要針對(duì)以上分類中的第1種和第2種類型,主要原因是第3種變體類型變化較多,如采用多種特殊字符進(jìn)行替換等,不方便歸納和存儲(chǔ)。中文變體詞庫(kù)包括3個(gè)表:中文變體原詞表、字形變體表、字母變體表。其中:字形變體表主要收錄變體原詞的繁體字、常見(jiàn)同音字和形近字;字母變體表主要收錄變體原詞的英文單詞、拼音或者拼音縮寫(xiě)。另外,為改善識(shí)別效果,還增加了1個(gè)關(guān)聯(lián)詞庫(kù)。關(guān)聯(lián)詞庫(kù)的建立原則是:首先對(duì)樣本集的文本在分詞后去除停用詞,再篩選出與中文變體原詞同時(shí)使用概率較大的詞語(yǔ)集合,最后按照關(guān)聯(lián)規(guī)則對(duì)每個(gè)中文變體詞選定若干關(guān)聯(lián)詞語(yǔ),形成關(guān)聯(lián)詞庫(kù)。

        中文變體原詞表、字形變體表、字母變體表按編號(hào)建立關(guān)聯(lián),一一對(duì)應(yīng)。關(guān)聯(lián)詞庫(kù)與中文變體原詞庫(kù)中各表也按編號(hào)建立關(guān)聯(lián)。這里共收集了477個(gè)變體原詞(政治敏感詞102個(gè),廣告詞85個(gè),反動(dòng)和恐怖詞93個(gè),色情詞71個(gè),其他126個(gè))和變體詞以及關(guān)聯(lián)詞,分別存放在中文變體原詞表、字形變體表、字母變體表以及關(guān)聯(lián)詞庫(kù)中。

        2 基于關(guān)聯(lián)規(guī)則的中文變體詞識(shí)別算法

        2.1 算法優(yōu)勢(shì)與總體思路

        對(duì)于中文變體字的識(shí)別目前采取的方法主要是基于多模式匹配技術(shù)和中文信息處理技術(shù)。多模式匹配技術(shù)即采用統(tǒng)計(jì)和規(guī)則的識(shí)別方法,這種方法主要依賴于匹配規(guī)則和變形詞庫(kù)。在實(shí)際運(yùn)用中,一是精準(zhǔn)的匹配規(guī)則較難確定,二是變形詞庫(kù)龐大,使得識(shí)別效果不理想?;谥形男畔⑻幚砑夹g(shù)主要是對(duì)變體詞在語(yǔ)義相似度上進(jìn)行比較,在比較時(shí)一般是結(jié)合上下文或時(shí)空分布的相似性。但這種方法嚴(yán)重依賴變體詞的若干個(gè)樣本聚合上下文和時(shí)空信息,因此實(shí)際識(shí)別效果不穩(wěn)定。

        本文采取的算法是對(duì)以上兩種方法的結(jié)合和改進(jìn):一是對(duì)模式匹配方法進(jìn)行了改進(jìn),分類型進(jìn)行匹配,提高了效率;二是采用關(guān)聯(lián)詞庫(kù)輔助識(shí)別,相比結(jié)合上下文或時(shí)空信息進(jìn)行語(yǔ)義相似度計(jì)算要簡(jiǎn)單易行,實(shí)際識(shí)別效果也較穩(wěn)定。其主要思路是:先通過(guò)字符串匹配算法識(shí)別出初步目標(biāo),然后通過(guò)關(guān)聯(lián)分析進(jìn)一步識(shí)別判斷,最后通過(guò)人工判定輔助最終識(shí)別出結(jié)果。對(duì)于識(shí)別出的結(jié)果可以補(bǔ)充和更新相應(yīng)的變體詞庫(kù)和關(guān)聯(lián)詞庫(kù),具體識(shí)別過(guò)程如圖1所示。

        具體步驟為:

        1) 將待查文本轉(zhuǎn)換成文本格式,通過(guò)改進(jìn)的分詞系統(tǒng)進(jìn)行分詞;

        2) 判斷文本中每個(gè)詞語(yǔ)或短語(yǔ),是全部漢字、漢字與字符組合還是全部字母,然后分別結(jié)合對(duì)應(yīng)變體詞庫(kù),使用相應(yīng)的識(shí)別算法進(jìn)行識(shí)別;

        3) 將初步識(shí)別結(jié)果進(jìn)一步結(jié)合關(guān)聯(lián)詞庫(kù)進(jìn)行關(guān)聯(lián)分析;

        4) 對(duì)于關(guān)聯(lián)分析的結(jié)果輔助于人工判定,最后給出最終識(shí)別結(jié)果;

        5) 將識(shí)別結(jié)果補(bǔ)充和更新變體詞庫(kù)和關(guān)聯(lián)詞庫(kù)。

        識(shí)別算法在執(zhí)行過(guò)程中首先判斷目標(biāo)類型,即掃描每個(gè)分詞結(jié)果,判斷是否全為漢字,若是則判斷為第1種類型;否則再判斷是否全為字母,若是,則為第2種類型;否則歸為第3種類型。目標(biāo)類型判斷過(guò)程如圖2所示。

        圖1 基于關(guān)聯(lián)規(guī)則的中文變體詞識(shí)別算法

        對(duì)于目標(biāo)類型判斷結(jié)果采取以下3種對(duì)應(yīng)處理方法:

        1) 全部漢字情況

        對(duì)于繁體字和同音字,首先檢索變體詞表中繁體字項(xiàng)和常見(jiàn)同音字項(xiàng),如果有完全匹配項(xiàng)則標(biāo)出,直接給出識(shí)別結(jié)果;否則將目標(biāo)轉(zhuǎn)換成拼音形式,然后與字體變體庫(kù)中字母變體表的拼音項(xiàng)進(jìn)行比較,如有相同則標(biāo)出,沒(méi)有匹配項(xiàng)則進(jìn)入形近字識(shí)別。

        對(duì)于形近字的識(shí)別,先檢索字形變體詞表,查看有無(wú)完全匹配項(xiàng),如有則標(biāo)出;沒(méi)有則與變體詞原表比較。如果有超過(guò)一半與原表中漢字相同,且字符數(shù)相等,則標(biāo)出;否則,認(rèn)為無(wú)匹配項(xiàng)。

        2) 全部字母情況

        由于變體詞庫(kù)中字母變體表中收錄了變體詞對(duì)應(yīng)的拼音、拼音縮寫(xiě)和英文形式以及英文縮寫(xiě)形式,因此直接將目標(biāo)與字母變體表中各項(xiàng)進(jìn)行比較即可。如果有匹配項(xiàng)則標(biāo)出;否則,認(rèn)為是無(wú)匹配項(xiàng)。

        3) 漢字與字符組合情況

        由于這種類型變化較多,因此沒(méi)有建立相應(yīng)數(shù)據(jù)庫(kù)表,在識(shí)別時(shí),主要根據(jù)變體詞原詞表進(jìn)行檢索目標(biāo)詞語(yǔ)或短語(yǔ),只要其中的漢字部分與變體詞原表中的原詞相應(yīng)部分相同,則標(biāo)出;否則,認(rèn)為無(wú)匹配項(xiàng)。

        2.2 關(guān)聯(lián)規(guī)則設(shè)置與關(guān)聯(lián)詞庫(kù)建立

        設(shè)I={X,i1,i2,…,im}是項(xiàng)的集合,包括某一變體詞及其所在語(yǔ)句中的去除停用詞之外的詞語(yǔ)集合。事物數(shù)據(jù)庫(kù)D為變體詞及所在的每條語(yǔ)句中去除停用詞之外的詞語(yǔ)集合,D={t1,t2,…,tn},ti(i=1,2,…,n)對(duì)應(yīng)I上的一個(gè)子集,存放單條語(yǔ)句中的詞語(yǔ)集。X?I,Y?I,X∩Y=?,其中:X為變體詞;Y為高頻詞集。這里高頻詞的選擇設(shè)定為變體詞所在語(yǔ)句范圍內(nèi),是考慮到如果設(shè)定為全文范圍,選擇的高頻詞可能大多數(shù)與全文主題相關(guān),但變體詞不一定與全文主題相關(guān),以此作為關(guān)聯(lián)詞的選擇可能造成變體詞的識(shí)別效果誤差較大。對(duì)于其他變體詞及其所在語(yǔ)句中的高頻詞可設(shè)定同樣集合。關(guān)聯(lián)規(guī)則X=>Y的支持度與置信度公式如下[15]:

        Support(X=>Y)=P(X∪Y);

        Confidence(X=>Y)=P(Y|X)=P(X∪Y)/P(X)

        主要思路為:

        1) 對(duì)樣本中文本分詞,去除停用詞,人工抽取樣本中包含有變體詞的語(yǔ)句;

        2) 對(duì)于每個(gè)變體詞找出其所在語(yǔ)句中的前m個(gè)高頻詞;

        3) 分別計(jì)算變體詞與相應(yīng)的這m個(gè)高頻詞在事物數(shù)據(jù)庫(kù)D中同時(shí)出現(xiàn)的支持度與置信度;

        4) 對(duì)于其他集合中每個(gè)變體詞及其相應(yīng)的高頻詞做同樣計(jì)算;

        5) 設(shè)置最小支持度和最小置信度值,以此對(duì)變體詞的關(guān)聯(lián)詞語(yǔ)進(jìn)行選擇。

        作為初步實(shí)驗(yàn)數(shù)據(jù),抽取電子郵件2 500條,論壇發(fā)帖1 500條,電子小說(shuō)600篇作為訓(xùn)練樣本。通過(guò)統(tǒng)計(jì)分析發(fā)現(xiàn):與變體詞所在語(yǔ)句中同時(shí)使用概率較大的高頻詞基本集中在前7個(gè)高頻詞中,因此這里m值設(shè)為7。由于實(shí)驗(yàn)數(shù)據(jù)較少,這里只選取了在實(shí)驗(yàn)數(shù)據(jù)集出現(xiàn)的其中50個(gè)變體詞。表1和表2是部分變體詞的7個(gè)關(guān)聯(lián)詞語(yǔ)的支持度和置信度計(jì)算結(jié)果。

        表1 部分變體詞的主要關(guān)聯(lián)詞語(yǔ)的支持度計(jì)算結(jié)果 %

        表2 部分變體詞的主要關(guān)聯(lián)詞語(yǔ)的置信度計(jì)算結(jié)果 %

        通過(guò)對(duì)計(jì)算結(jié)果進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn):對(duì)于某一個(gè)變體詞的每個(gè)關(guān)聯(lián)詞最小支持度和置信度,數(shù)值都較??;對(duì)于不同變體詞的關(guān)聯(lián)詞,其支持度和置信度出現(xiàn)較大差別,最小支持度和置信度值較難設(shè)置,且依此選擇的關(guān)聯(lián)詞比較分散,出現(xiàn)稀疏項(xiàng)目問(wèn)題[16]。即:如果最小支持度太高,有些項(xiàng)目集中就不會(huì)生成包含稀疏項(xiàng)目的規(guī)則;如果最小支持度設(shè)置太低,就會(huì)生成太多的規(guī)則,而且其中很多規(guī)則都是不重要的[17]。解決稀疏項(xiàng)目的可行方法是將稀疏項(xiàng)目組合,并對(duì)這些組合重新生成關(guān)聯(lián)規(guī)則,并按此關(guān)聯(lián)規(guī)則重新選擇關(guān)聯(lián)詞語(yǔ)集合,建立關(guān)聯(lián)詞庫(kù)。

        定義1支持度公式。設(shè)I={X,i1,i2,…,im}是項(xiàng)的集合,包括某一變體詞及其所在語(yǔ)句中的去除停用詞之外的詞語(yǔ)集合。事物數(shù)據(jù)庫(kù)D為變體詞及所在的每條語(yǔ)句中去除停用詞之外的詞語(yǔ)集合,D={t1,t2,…,tn},ti(i=1,2,…,n)對(duì)應(yīng)I上的一個(gè)子集,存放單條語(yǔ)句中的詞語(yǔ)集。X?I,Y?I,X∩Y=?。X為變體詞,Y={i1,i2,…,ik},k=1,2,…,m,且規(guī)定當(dāng)X出現(xiàn)時(shí)Y中的任意一項(xiàng)同時(shí)出現(xiàn),則 Support(X=>Y)=P(X∪Y)就成立。

        定義2置信度公式。X?I,Y?I,X∩Y=?,X為變體詞,Y={i1,i2,…,ik},k=1,2,…,m。當(dāng)X出現(xiàn)時(shí),Y中的任意一項(xiàng)同時(shí)出現(xiàn),則Confidence(X=>Y)=P(Y|X)=P(X∪Y)/P(X) 成立。

        由于不同變體詞的關(guān)聯(lián)詞語(yǔ)的支持度數(shù)值差別較大,因此對(duì)于每個(gè)變體詞的關(guān)聯(lián)詞分別單獨(dú)計(jì)算其支持度。由于篇幅有限,表3和表4只給出k取1~7時(shí)部分變體詞的支持度和置信度計(jì)算結(jié)果。

        表3 k取不同值時(shí)支持度計(jì)算結(jié)果 %

        表3、4中:當(dāng)k=1時(shí),值為第一個(gè)高頻詞支持度值;當(dāng)k=2時(shí),值為前兩個(gè)高頻詞組合,以此類推。由表3和表4中數(shù)據(jù)可以看出:隨著k值增大,其支持度和置信度值也隨之增大,但在實(shí)際識(shí)別中誤差也會(huì)增大。這里對(duì)于k的取值,如果統(tǒng)一設(shè)定一個(gè)固定值,由于有的變體詞的關(guān)聯(lián)詞比較集中,有的變體詞的關(guān)聯(lián)詞比較分散,導(dǎo)致誤判率較高。因此,這里根據(jù)最小關(guān)聯(lián)度值和最小置信度值作為k取值的依據(jù),即確定關(guān)聯(lián)詞集合中詞語(yǔ)的個(gè)數(shù)。通過(guò)對(duì)初步實(shí)驗(yàn)數(shù)據(jù)的綜合分析,將最小支持度的值設(shè)定為15%,最小置信度值設(shè)定為40%,此時(shí)k的取值比較合理。每個(gè)變體詞在此最小支持度和最小置信度下分別取對(duì)應(yīng)的k值,當(dāng)兩個(gè)k取值不統(tǒng)一時(shí),以最小的k值為最終值。統(tǒng)計(jì)表明,大多數(shù)k的取值主要集中在2~5之間,少數(shù)k值為1和6。考慮到計(jì)算誤差和樣本較少,在實(shí)際執(zhí)行過(guò)程中對(duì)k值進(jìn)行微調(diào),即:當(dāng)k<2時(shí),k=2;當(dāng)k>5時(shí),k=5。這樣設(shè)計(jì)的目的在于:如只取一個(gè)關(guān)鍵詞和超過(guò)5個(gè)關(guān)鍵詞,可能造成關(guān)鍵詞過(guò)于集中和過(guò)于分散。

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 實(shí)驗(yàn)語(yǔ)料的選取及準(zhǔn)備工作

        本文收集了477個(gè)變體詞樣本作為實(shí)驗(yàn)數(shù)據(jù),其語(yǔ)料來(lái)源為網(wǎng)上收集的包含變體詞的電子郵件、論壇和電子小說(shuō)。其中,電子郵件5 000條,論壇發(fā)帖3 500條,電子小說(shuō)1 300篇。這些實(shí)驗(yàn)語(yǔ)料中的變型詞主要涉及廣告、不良信息和政治敏感詞語(yǔ)等。在實(shí)驗(yàn)前期,抽取電子郵件2 500條、論壇發(fā)帖1 500條、電子小說(shuō)600篇作為訓(xùn)練樣本,剩下的作為測(cè)試樣本。由于收集的變體詞樣本只涉及到部分變體類型,因此在測(cè)試樣本中人工增加了一些變體詞實(shí)例,盡可能覆蓋各種變體類型,以便檢驗(yàn)整體的識(shí)別效果。

        對(duì)訓(xùn)練樣本進(jìn)行分詞,去除停用詞。針對(duì)訓(xùn)練樣本中的變體詞進(jìn)行統(tǒng)計(jì)和歸納,分別建立中文變體詞庫(kù)。其中,中文變體詞庫(kù)包括中文變體原詞表、字形變體表、字母變體表。對(duì)于每個(gè)變體詞先找出其所在語(yǔ)句中的前7個(gè)高頻詞,然后根據(jù)最小支持度值和最小置信度值為每個(gè)變體詞建立關(guān)聯(lián)詞集,從而形成關(guān)聯(lián)詞庫(kù)。

        3.2 實(shí)驗(yàn)過(guò)程

        首先對(duì)于測(cè)試樣本進(jìn)行初步識(shí)別,未使用關(guān)聯(lián)規(guī)則,3種變體詞類型的識(shí)別效果如表5、6所示。

        進(jìn)而對(duì)測(cè)試樣本做基于關(guān)聯(lián)規(guī)則的變體詞識(shí)別整體測(cè)試,對(duì)比初步識(shí)別結(jié)果和基于關(guān)聯(lián)規(guī)則的識(shí)別結(jié)果,如表7所示。

        表5 測(cè)試樣本各類型識(shí)別效果 %

        表6 測(cè)試樣本平均識(shí)別效果 %

        表7 測(cè)試樣本識(shí)別效果對(duì)比 %

        3.3 實(shí)驗(yàn)結(jié)果分析

        通過(guò)對(duì)改進(jìn)后的分詞結(jié)果進(jìn)行初步字符匹配識(shí)別,可以初步識(shí)別出絕大多數(shù)疑似變體詞的目標(biāo)。對(duì)于不同類型采取不同的字符匹配的方法,使得平均查全率超過(guò)93%,其中對(duì)于繁體字、拼音替代、英文替代以及插入字符等類型識(shí)別效果較好,誤判率較低,對(duì)于同音字、形近字和字符替代類型誤判率稍高。分析其原因?yàn)椋好總€(gè)變體詞的不同同音字和形近字較多,不能全部收錄;字符替換的形式也是各種各樣,尤其是變體詞中大部分漢字被替換成符號(hào)的情況,容易造成誤判。

        對(duì)于初步識(shí)別的結(jié)果通過(guò)進(jìn)一步借助關(guān)聯(lián)詞庫(kù)分析識(shí)別,對(duì)于誤判率有顯著改變,尤其是同音詞和字符替換類型,使得變體詞識(shí)別的平均誤判率下降到2%以內(nèi)。

        4 結(jié)束語(yǔ)

        在現(xiàn)實(shí)生活中,大量的廣告和不良信息為了規(guī)避常規(guī)方法的檢測(cè)和過(guò)濾,常常以不規(guī)整、不正常的形式出現(xiàn),即采用變體的形式使傳統(tǒng)方法無(wú)法正確檢測(cè)和過(guò)濾。但是這部分包含變體詞的文本卻仍能夠達(dá)到發(fā)布廣告、不良信息的目的。本文通過(guò)對(duì)改進(jìn)后的分詞結(jié)果進(jìn)行初步字符匹配識(shí)別,可以初步識(shí)別出絕大多數(shù)疑似變體詞的目標(biāo)。對(duì)于不同類型采取不同的字符匹配方法,使得平均查全率超過(guò)90%,接著對(duì)于初步識(shí)別的結(jié)果進(jìn)一步借助關(guān)聯(lián)詞庫(kù)分析識(shí)別,可顯著減少誤判率,尤其是對(duì)同音詞和字符替換類型,使得變體詞識(shí)別的平均誤判率下降到2%以內(nèi)。但對(duì)于文本行列變換,圖形替代等變體形式如何識(shí)別未在算法中考慮,這部分內(nèi)容將在后續(xù)研究中進(jìn)行。

        參考文獻(xiàn):

        [1]羅剛,張子憲.自然語(yǔ)言處理原理與技術(shù)實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2016.

        [2]陳?ài)?自然語(yǔ)言處理基本理論和方法[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2013.

        [3]謝邦昌,朱建平,李毅.文本挖掘技術(shù)及其應(yīng)用[M].廈門:廈門大學(xué)出版社,2016.

        [4]朱儉.文本情感分析關(guān)鍵技術(shù)研究[M],北京:中國(guó)社會(huì)科學(xué)出版社,2015.

        [5]范黎林,王曉東.一種用于垃圾郵件過(guò)濾的中文關(guān)鍵詞匹配算法[J].河南科技大學(xué)學(xué)報(bào),2006,27(5):35-37.

        [6]叢健.不良信息過(guò)濾技術(shù)研究[D].北京:北京郵電大學(xué),2012.

        [7]周天綺.網(wǎng)絡(luò)安全中的信息過(guò)濾綜述[J].微處理機(jī),2011.32(5):30-34.

        [8]王寶勛,王曉龍,劉秉權(quán),等.一種基于無(wú)監(jiān)督學(xué)習(xí)的詞變體識(shí)別方法[J].中文信息學(xué)報(bào),2008,22(3):32-36.

        [9]汪霞,鄭寧.基于中文變形詞匹配的貝葉斯郵件過(guò)濾模型[J].計(jì)算機(jī)應(yīng)用與軟件,2010.27(1):105-107,130.

        [10] 溫園旭.變體短文本過(guò)濾算法研究[D].北京:北京郵電大學(xué),2012.

        [11] SOOD S O,ANTIN J,CHURCHILL E.Using Crowdsourcing to Improve Profanity Detection[J].Aaai Spring Symposium,2012,33:69-74.

        [12] WANG A,KAN M Y.Mining Informal Language from Chinese Microtext:Joint Word Recognition and Segmentation[C]//Meeting of the Association for Computational Linguistics.2013:731-741.

        [13] ZHANG B,HUANG H,PAN X,et al.Context-aware Entity Morph Decoding[C]//Meeting of the Association for Computational Linguistics and the,International Joint Conference on Natural Language Processing.2015:586-595.

        [14] 黃昌寧,趙海.中文分詞十年回顧[J].中文信息學(xué)報(bào),2007,1(3):8-19.

        [15] 李愛(ài)國(guó).數(shù)據(jù)挖掘原理、算法及應(yīng)用[M].西安:西安電子科技大學(xué)出版社,2012.

        [16] XINDONG W,VIPIN K.數(shù)據(jù)挖掘十大算法[M].北京:清華大學(xué)出版社,2013.

        [17] MARGARETH D,鄧納姆,郭崇慧,等.數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2005.

        猜你喜歡
        詞庫(kù)關(guān)聯(lián)詞高頻詞
        巧用關(guān)聯(lián)詞
        用關(guān)聯(lián)詞造句
        Your high school friends are your lifelong friends
        30份政府工作報(bào)告中的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        省級(jí)兩會(huì)上的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        28份政府工作報(bào)告中的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        省級(jí)兩會(huì)上的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        詞庫(kù)音系學(xué)的幾個(gè)理論問(wèn)題芻議
        環(huán)境變了,詞庫(kù)別變
        電腦迷(2014年14期)2014-04-29 00:44:03
        QQ手機(jī)輸入法如何導(dǎo)入分類詞庫(kù)
        電腦迷(2012年15期)2012-04-29 17:09:47
        国产台湾无码av片在线观看| 亚洲女同恋中文一区二区| 男女啪啪动态视频在线观看| 曰韩少妇内射免费播放| 国产l精品国产亚洲区久久| 狠狠色狠狠色综合久久第一次| 久久精品国产亚洲AV古装片| 男人天堂亚洲一区二区| 日本熟妇人妻xxxx| 久久av高潮av无码av喷吹| 亚洲AⅤ无码片一区二区三区| 国产喷白浆精品一区二区豆腐| 久久中文字幕人妻淑女| 无码av天堂一区二区三区| 麻豆精品网站国产乱子伦| 亚洲第一页综合av免费在线观看| 少妇连续高潮爽到抽搐| 久久综合给合综合久久| 亚洲AV无码一区二区三区天堂网 | 色噜噜色哟哟一区二区三区| 绝顶高潮合集videos| 亚洲欧美日韩人成在线播放| 亚洲一区二区三区久久不卡| 国产另类人妖在线观看| 亚洲人成电影网站色| 日本三级欧美三级人妇视频 | 亚洲国产丝袜美女在线| 亚洲av无码成人精品国产| 精品亚洲成a人在线观看青青| 无码人妻精品一区二区三区下载 | 亚洲一区中文字幕在线电影网 | 亚洲综合色区另类av| 揄拍成人国产精品视频| 国产99久久久国产精品免费| 欧美激情乱人伦| 欧美性性性性性色大片免费的| 黄 色 成 年 人 网 站免费| 日本成人精品在线播放| 国产福利精品一区二区| 熟妇无码AV| 精品蜜桃av免费观看|