亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于信息傳播特性的新詞發(fā)現(xiàn)方法研究

2020-12-14 04:35:10曹春萍楊青林

軟件導(dǎo)刊 2020年9期

曹春萍楊青林

摘 ?要：針對(duì)現(xiàn)有方法無(wú)法有效、快速地識(shí)別出網(wǎng)絡(luò)中文新詞，且其生命周期比較短的問(wèn)題，提出了一種基于信息傳播特性的新詞發(fā)現(xiàn)方法研究。利用N-gram算法得出候選詞串列表，基于詞頻和詞語(yǔ)靈活度對(duì)垃圾詞串進(jìn)行過(guò)濾，實(shí)現(xiàn)基于信息傳播特性的微博新詞統(tǒng)計(jì)方法。實(shí)驗(yàn)結(jié)果表明：提出的基于信息傳播特性的新詞發(fā)現(xiàn)方法在查準(zhǔn)率、召回率都要比使用中文ICTCLAP9115分詞方法分詞更好，更具有優(yōu)勢(shì)。

關(guān)鍵詞：信息傳播;新詞;發(fā)現(xiàn)方法;N-gram算法

中圖分類號(hào)： TP301 ???文獻(xiàn)標(biāo)識(shí)碼： A ???DOI：10.3969/j.issn.1003-6970.2020.09.053

【Abstract】： In view of problem that existing methods can not identify Chinese new words on the Internet effectively and quickly， and their life cycle is relatively short， the paper proposes a new word discovery method based on characteristics of information dissemination. It obtains list of candidate word strings with N-gram algorithm， filters waste word strings based on word frequency and flexibility， realizes statistical method of new words in microblog based on characteristics of information dissemination. Experimental results show new word detection method based on characteristics of information dissemination has better precision and recall rate than the Chinese ICTCLAP9115segmentation method with advantages.

【Key words】： Information dissemination; New words; Discovery method; N-gram algorithm

0 ?引言

自微博出現(xiàn)以后，其以實(shí)時(shí)性和方便性受到廣大網(wǎng)民的歡迎和熱愛(ài)，已經(jīng)發(fā)展為網(wǎng)絡(luò)應(yīng)用的愛(ài)寵。同時(shí)微博上匯聚的龐大用戶以及比較自由的言論環(huán)境，又使微博發(fā)展為切實(shí)掌握社會(huì)熱點(diǎn)的重要工具。伴隨計(jì)算機(jī)信息技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展創(chuàng)新和應(yīng)用，計(jì)算機(jī)網(wǎng)絡(luò)越發(fā)成為大眾信息發(fā)布與文化傳播交流的社會(huì)平臺(tái)，因此產(chǎn)生一大批全新的網(wǎng)絡(luò)用語(yǔ)和熱詞。一些普及度比較高的網(wǎng)絡(luò)新詞開(kāi)始為眾人所認(rèn)可，并被逐漸擴(kuò)展到中文詞語(yǔ)庫(kù)之中[1]。因?yàn)樵诰W(wǎng)絡(luò)世界中存在海量文本，而要想在文本中尋找到散落的網(wǎng)絡(luò)新詞單獨(dú)憑借人工查找、查閱和統(tǒng)計(jì)比較困難，因而怎樣在短時(shí)間內(nèi)快速有效地對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行查閱并發(fā)現(xiàn)新詞，這就成為一項(xiàng)迫切需要解決的現(xiàn)實(shí)問(wèn)題。但網(wǎng)絡(luò)文本數(shù)據(jù)龐大，因?yàn)槠湎嚓P(guān)性比較差、組詞并無(wú)規(guī)律，這些就導(dǎo)致部分規(guī)律原理方法很難直接套用;而單條網(wǎng)絡(luò)文本因?yàn)槠湮谋鹃L(zhǎng)度比較短，噪聲比較大[2]，這就造成傳統(tǒng)的基于統(tǒng)計(jì)學(xué)的發(fā)現(xiàn)方法很難提高其最終準(zhǔn)確率。因此，本文研究基于信息傳播特性的新詞發(fā)現(xiàn)方法。

1 ?基于信息傳播特性的微博新詞發(fā)現(xiàn)方法

相比于常規(guī)的語(yǔ)料訓(xùn)練，微博語(yǔ)料庫(kù)中包含的文

本內(nèi)容由于身處網(wǎng)絡(luò)世界，要更為龐大復(fù)雜。除正常的文本信息以外，還會(huì)伴隨諸多無(wú)意義的干擾選項(xiàng)，比如說(shuō)表情符號(hào)中的[doge]、[淚]、[微笑]等等;微博用戶或平臺(tái)發(fā)布的網(wǎng)頁(yè)鏈接，比如http：//t.cn/8syl8qn等;符號(hào)“//@”用戶名用代表轉(zhuǎn)發(fā)用戶，符號(hào)“@”+表示語(yǔ)句中提到的特定用戶;由于絕大多數(shù)微博用戶名不是正式網(wǎng)名，因此所有微博用戶名稱都不具有實(shí)際意義;以及微博語(yǔ)料庫(kù)中的標(biāo)點(diǎn)符號(hào)，由于文本的失真和非正式性，導(dǎo)致大量微博用戶濫用標(biāo)點(diǎn)[3]。這幾種字符串并沒(méi)有產(chǎn)生新詞，因而能夠?qū)⑵鋸拇幚碚Z(yǔ)料庫(kù)中過(guò)濾，直接以“空格”來(lái)取代，如此可進(jìn)一步提升語(yǔ)料庫(kù)的文本含量并有效降低后續(xù)操作的難度。

1.1 ?利用N-gram算法得出候選詞串列表

N-gram模型主要是根據(jù)如下一種假設(shè)：第個(gè)詞語(yǔ)的出現(xiàn)只和前面?zhèn)€詞語(yǔ)有關(guān)系，而和其他詞語(yǔ)之間均無(wú)關(guān)聯(lián)。我們以來(lái)表示這個(gè)詞語(yǔ)，如此出現(xiàn)的概率就能夠以來(lái)表示，這里使用代表詞串。在保證大量訓(xùn)練語(yǔ)料的基礎(chǔ)上，按照最大相似規(guī)則[4]，就能夠獲取以下公式：

1.2 ?基于詞頻和詞語(yǔ)靈活度過(guò)濾垃圾詞串

任何一個(gè)新詞的出現(xiàn)，勢(shì)必會(huì)伴隨著絕大多數(shù)群眾的大規(guī)模使用，而使用次數(shù)越少的詞語(yǔ)并不具有發(fā)展為一個(gè)新詞的可能性;同時(shí)因?yàn)榛ヂ?lián)網(wǎng)用戶在建立文檔的時(shí)候必然會(huì)出現(xiàn)輸入法錯(cuò)誤的操作，錯(cuò)別字等各式狀況的發(fā)生，在新詞候選集合中會(huì)出現(xiàn)諸多偶然性匹配，這種匹配在性質(zhì)上并不納入新詞考慮范圍內(nèi)，絕大多數(shù)這種噪聲元組是沒(méi)有辦法通過(guò)閾值的篩選，可是依然會(huì)有一小部分的噪聲因?yàn)楸舜酥g信息閾值在計(jì)算方式上的不同，其統(tǒng)計(jì)記錄也會(huì)影響到詞語(yǔ)整體最終呈現(xiàn)的準(zhǔn)確率[5]。本文利用詞頻和詞語(yǔ)靈活度的方法對(duì)上文形成詞串中的垃圾詞串進(jìn)行過(guò)濾，以便有效提高之后新詞統(tǒng)計(jì)方法的工作效率。一個(gè)具備成為詞語(yǔ)的字符串，勢(shì)必會(huì)在社會(huì)得到廣泛推廣和使用，因而在訓(xùn)練語(yǔ)料庫(kù)中也會(huì)頻繁出現(xiàn)。出現(xiàn)頻率較低的詞串在性質(zhì)上會(huì)被歸屬為不具備一定意義的有效詞串。通過(guò)統(tǒng)計(jì)分析得知，92.01%的候選詞串其出現(xiàn)次數(shù)基本上小于等于2，所以本文在詞頻過(guò)濾方法的閾值大小設(shè)置為2。

另外一方面，按照中文的形成和組詞規(guī)律，會(huì)存在一部分字符并不時(shí)常出現(xiàn)在詞首或詞尾，這些字符即為“停用字”，主要分為“詞首停用字”和“詞尾停用字”[6]。本文通過(guò)詞串的靈活度（代表每一個(gè)字符組成詞語(yǔ)的可能性和可行性）和設(shè)置閾值的比對(duì)，去有效發(fā)現(xiàn)“停用字”。本文以來(lái)代表待判字符，以·代表隨意一個(gè)字符，有可能會(huì)出現(xiàn)在詞首/詞尾，甚至是詞的任何一個(gè)位置，由此定義“詞首停用字”為：

上述公式中：代表詞串在訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的實(shí)際次數(shù);代表字符出現(xiàn)在詞首或詞尾的可能性閾值。實(shí)驗(yàn)中設(shè)定閾值為2，共選取出大概200個(gè)停用字，如“是”“的”“了”“們”“你”等。對(duì)候選詞串完成垃圾過(guò)濾以后，本文以統(tǒng)計(jì)學(xué)方法獲取最終出現(xiàn)的新詞結(jié)果。

1.3 ?基于信息傳播特性的微博新詞統(tǒng)計(jì)方法

微博新詞與普通詞語(yǔ)在組成結(jié)構(gòu)上有很大不同，如詞語(yǔ)構(gòu)成上相較來(lái)說(shuō)較為自由不受限，并沒(méi)有遵循傳統(tǒng)的語(yǔ)法構(gòu)造[7]。由于單純的漢語(yǔ)組成規(guī)則方法，其規(guī)則的制定比較耗時(shí)，且可移植性較低;另外雖然單一的N-Gram模型其可移植性較為優(yōu)秀，可其在大規(guī)模數(shù)據(jù)的運(yùn)作中涉及的計(jì)算量比較龐大，所以本文提出了基于信息傳播特性的新詞發(fā)現(xiàn)方法，利用N-Gram方法對(duì)新詞進(jìn)行識(shí)別、統(tǒng)計(jì)。主要步驟如下所示：

步驟1：首先對(duì)文本信息語(yǔ)料庫(kù)中的分詞碎片進(jìn)行預(yù)先處理，以便獲取到候選新詞集。在將其加入垃圾詞串庫(kù)的MC過(guò)程中需要把每一個(gè)文本連續(xù)編號(hào)以組建一個(gè)碎片子集FS，按照上述規(guī)則，F(xiàn)S主要是作為大于2個(gè)詞的詞子集而存在。比如：“第一次/大概/還/一知半解/不明覺(jué)厲”。按照剛剛的規(guī)則能夠獲得2個(gè)FS子集，即“第一次可能”和“不明覺(jué)厲”。在N-Gram模型詞串庫(kù)MC提取FS的候選語(yǔ)料算法的操作過(guò)程具體如下所示：

算法：N-gram中候選新詞提取算法。

輸入：MC//詞串語(yǔ)料庫(kù)集合;FS//碎片語(yǔ)料序列;

輸出：CS//候選新詞子集。

過(guò)程：

1）在詞串語(yǔ)料庫(kù)MC中，按照關(guān)鍵詞的提示，候選詞串按照運(yùn)算規(guī)則提取到FS，將其作為三元的Bi-Gram和四元的Tri-Gram模型內(nèi)的計(jì)算對(duì)象;

2）對(duì)每一個(gè)FS中蘊(yùn)含的詞語(yǔ)頻數(shù)進(jìn)行統(tǒng)計(jì)，之后統(tǒng)一做歸一化處理，最后通過(guò)Bi-Gram模型公式（1）分別對(duì)FS的三元組、四元組和五元組字符出現(xiàn)的概率進(jìn)行精準(zhǔn)計(jì)算。之后將字符串連同其出現(xiàn)的概率值存儲(chǔ)至語(yǔ)料庫(kù)內(nèi);

3）按照公式（2）對(duì)每一組詞句的分詞結(jié)果出現(xiàn)概率進(jìn)行比較，選擇最優(yōu)結(jié)果[8]，換句話說(shuō)就是通過(guò)公式（3）獲得概率的最大值，若是小概率則利用公式（4）對(duì)概率進(jìn)行計(jì)算。得到結(jié)果后，將所有字符串出現(xiàn)的概率按大小關(guān)系進(jìn)行排序，選擇較大的一組字符串作為候選字符串;

4）借助TriGram模型，重復(fù)上述過(guò)程2）和過(guò)程3），獲得候選字符串，最后抽取同時(shí)存在于與內(nèi)的相同字符串作為候選語(yǔ)料的新詞序列。

步驟2：通過(guò)相鄰熵對(duì)候選新詞子集進(jìn)行成詞概率的過(guò)濾。候選新詞一般是三元組或五元組，計(jì)算左右相鄰熵均超過(guò)閾值，如此便加入新詞子集內(nèi)。候選新詞通常為四元組，首先對(duì)左邊鄰近熵進(jìn)行計(jì)算，判斷其是否超過(guò)閾值[9-10];一旦超過(guò)閾值，繼續(xù)對(duì)右邊相鄰熵進(jìn)行計(jì)算，將左右鄰近熵超過(guò)閾值的候選新詞納入新詞子集內(nèi)。如果候選新詞判斷為新詞，那么其在語(yǔ)料庫(kù)中勢(shì)必具備較高的出現(xiàn)頻率，必然“高富帥”肯定會(huì)比和它有關(guān)的垃圾詞串“富帥不”出現(xiàn)頻率要高。假設(shè)候選新詞用表示，那么我們使用詞頻代表在語(yǔ)料庫(kù)內(nèi)出現(xiàn)的頻率，一般越大，作為新詞的可能性就越大，二者成正比例關(guān)系。根據(jù)有關(guān)資料顯示，用來(lái)表示兩個(gè)事物之間的相關(guān)性或親密度。在新詞篩選的過(guò)程中，可以用來(lái)衡量多個(gè)字/詞組合成語(yǔ)句的可能性大小。對(duì)于候選新詞而言，其親密度可用以下公式表示：

2 ?實(shí)驗(yàn)論證與分析

為保證本文設(shè)計(jì)的基于信息傳播特性的新詞發(fā)現(xiàn)方法的有效性，進(jìn)行實(shí)驗(yàn)論證分析。

2.1 ?實(shí)驗(yàn)準(zhǔn)備

硬件環(huán)境：需要兩臺(tái)計(jì)算機(jī)，（1）配置：Intel Xeon E9-1331v5，4.50 GHz主頻，64 GB內(nèi)存，32位操作系統(tǒng);（2）配置：Intel Xeon E6-2929 v5，3.30 GHz主頻，256 GB內(nèi)存，64位操作系統(tǒng);軟件環(huán)境：（1）操作系統(tǒng)Windows10，（2）操作系統(tǒng)是Cent OS。算法采取JAVA與python雙結(jié)合，編輯工具以Eclipse和IDLE為主。

本次實(shí)驗(yàn)選取9000條微博文本，分成三組作為輸入，分別利用本文方法和中文ICTCLAP9115分詞方法對(duì)其做相關(guān)處理，按照一系列的計(jì)算獲取最終結(jié)果。

2.2 ?實(shí)驗(yàn)結(jié)果分析

通過(guò)新浪微博APP，隨機(jī)抽選取新浪微博中粉絲數(shù)量比較多的微博賬號(hào)作為信息采集的起點(diǎn)，利用“滾雪球”的方式，采集到2019年4月1日至2020年4月1日這些微博賬號(hào)在微博上公開(kāi)發(fā)布的每一條微博的網(wǎng)絡(luò)IP、信息發(fā)布者、信息發(fā)布時(shí)間、信息發(fā)布內(nèi)容等，在對(duì)垃圾微博進(jìn)行過(guò)濾等處理后，建立了包括9000條微博的原始數(shù)據(jù)集合。

3 ?結(jié)束語(yǔ)

本文對(duì)基于信息傳播特性的新詞發(fā)現(xiàn)方法進(jìn)行分析與設(shè)計(jì)，依托信息傳播的特性，收集并提取微博詞語(yǔ)數(shù)據(jù)的普遍特征，結(jié)合新詞出現(xiàn)規(guī)則，對(duì)新詞的出現(xiàn)進(jìn)行統(tǒng)計(jì)分析，實(shí)現(xiàn)新詞發(fā)現(xiàn)法的創(chuàng)新。實(shí)驗(yàn)論證結(jié)果表明，本文設(shè)計(jì)的基于信息傳播特性的新詞發(fā)現(xiàn)方法具備極高的有效性，在對(duì)微博新詞進(jìn)行統(tǒng)計(jì)查找的過(guò)程中，可以有效節(jié)省計(jì)算時(shí)間，提高查找率和召回率。希望本文的研究能夠?yàn)槲覈?guó)新詞發(fā)現(xiàn)方法提供理論依據(jù)和參考。

參考文獻(xiàn)

[1]趙志濱，石玉鑫，李斌陽(yáng). 基于句法分析與詞向量的領(lǐng)域新詞發(fā)現(xiàn)方法[J]. 計(jì)算機(jī)科學(xué)， 2019， 46（6）： 29-34.

[2]陳芬，高小歡，彭玥，等. 融合文本傾向性分析的微博意見(jiàn)領(lǐng)袖識(shí)別[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)， 2019， 3（11）： 120-128.

[3]賓晟，孫更新. 基于多關(guān)系社交網(wǎng)絡(luò)的協(xié)同過(guò)濾推薦算法[J]. 計(jì)算機(jī)科學(xué)， 2019， 46（12）： 56-62.

[4]李嘉興，王晰巍，常穎，等. 社交網(wǎng)絡(luò)用戶行為國(guó)內(nèi)外研究動(dòng)態(tài)及發(fā)展趨勢(shì)[J]. 現(xiàn)代情報(bào)， 2020， 40（4）： 167-177.

[5]劉偉童，劉培玉，劉文鋒，等. 基于互信息和鄰接熵的新詞發(fā)現(xiàn)算法[J]. 計(jì)算機(jī)應(yīng)用研究， 2019， 36（5）： 1293-1296.

[6]黃偉，曹春萍.基于行為分析與傳播個(gè)體的微博傳播模型研究[J].軟件， 2019， 40（01）： 127-131.

[7]汪文妃，徐豪杰，楊文珍，等. 中文分詞算法研究綜述[J]. 成組技術(shù)與生產(chǎn)現(xiàn)代化， 2018， 35（3）： 1-8.

[8]劉申凱，周霽婷，朱永華，等. 融合知識(shí)圖譜和ESA方法的網(wǎng)絡(luò)新詞識(shí)別[J]. 計(jì)算機(jī)技術(shù)與發(fā)展， 2019， 29（3）： 12-17.

[9]曾浩，詹恩奇，鄭建彬，等. 基于擴(kuò)展規(guī)則與統(tǒng)計(jì)特征的未登錄詞識(shí)別[J]. 計(jì)算機(jī)應(yīng)用研究， 2019， 36（9）： 2704- 2707+2711.

[10]李娟，虞金中. 基于新詞的新聞命名實(shí)體識(shí)別研究[J]. 電腦知識(shí)與技術(shù)， 2018， 14（22）： 153-154.

[11]陳海宇.“大數(shù)據(jù)”時(shí)代背景下計(jì)算機(jī)信息處理技術(shù)的探討[J].計(jì)算機(jī)產(chǎn)品與流通， 2020（05）： 6.