亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于生存法則的穩(wěn)定新詞識別方法的研究?

        2018-05-15 06:55:34符賢哲劉勝全劉艷郭竹為趙美玲
        關(guān)鍵詞:詞串詞頻新詞

        符賢哲,劉勝全,劉艷,郭竹為,趙美玲

        (1.新疆大學(xué)軟件學(xué)院,新疆烏魯木齊830046;2.新疆大學(xué)網(wǎng)絡(luò)與信息技術(shù)中心,新疆烏魯木齊830046;3.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊830046)

        0 引言

        隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,微博、論壇等社交媒體的出現(xiàn)對人們的工作、生活、學(xué)習(xí)等方面產(chǎn)生了重要的影響.這些社交媒體的出現(xiàn)和發(fā)展使新事物不斷涌現(xiàn),新事物、新現(xiàn)象、新觀念的出現(xiàn),產(chǎn)生了大量的新詞,即人們在認識和表達新事物所代表的社會事件、流行語等現(xiàn)象時,需要通過構(gòu)造新的詞語來滿足交際的需要,這些新詞匯借助網(wǎng)絡(luò)平臺迅速產(chǎn)生、發(fā)展或消亡[1].由于網(wǎng)絡(luò)新詞常常是對一件事或者一種社會現(xiàn)象濃縮概括而得,因此這些詞往往蘊含了網(wǎng)絡(luò)的熱點主題,反映著網(wǎng)民對社會熱點事件的一些情緒態(tài)度[2],如:金飯碗、然并卵、累覺不愛、人艱不拆等.檢測識別這些網(wǎng)絡(luò)新詞有助于輿情信息的發(fā)現(xiàn)和檢測.但是,大部分網(wǎng)絡(luò)新詞都是曇花一現(xiàn),只有少部分在語言系統(tǒng)中站穩(wěn)了腳跟[3].因此新詞的識別也應(yīng)該隨著時間,不斷地剔除已過時或者淘汰的詞語,一方面保持網(wǎng)絡(luò)新詞的新穎性和穩(wěn)定性;另一方面,可以更加精準的把握當(dāng)前的輿情信息.

        目前在自然語言處理領(lǐng)域中,對于網(wǎng)絡(luò)新詞的識別已經(jīng)有大量的研究.大體分為基于規(guī)則和基于統(tǒng)計兩種方法.由于網(wǎng)絡(luò)新詞不規(guī)范無規(guī)則等特征,研究方法主要還是以統(tǒng)計方法為主,規(guī)則方法為輔.基于統(tǒng)計的方法主要是在大量的語料中對出現(xiàn)的詞匯進行詞頻統(tǒng)計,然后使用互信息、鄰接類別等統(tǒng)計量對候選詞串進行過濾,發(fā)現(xiàn)新詞.近些年,新詞的識別方法一方面通過改進各種統(tǒng)計量特征提高新詞的識別準確率;另一方面,通過對詞語在時間分布中表現(xiàn)的特征來識別網(wǎng)絡(luò)新詞,都取得很好的效果.如杜麗萍[4]等通過對互信息統(tǒng)計量的改進算法來提取新詞,解決了互信息量在低頻共現(xiàn)字符串異常敏感問題,更正了該統(tǒng)計量在新詞識別中存在的影響;陳飛等[5]歸納了許多區(qū)分新詞邊界的統(tǒng)計特征,利用條件隨機場(Conditional random fields,CRFs)方法并綜合這些特征在大規(guī)模語料上進行新詞發(fā)現(xiàn)實驗,在新詞的準確率上有很好的效果.Peng等[6]將詞匯特征和領(lǐng)域知識特征融入到模型中,利用CRF訓(xùn)練,進而識別新詞.鄒剛等[7]通過時間點將候選詞串分為前后背景集合,通過集合的差集進行新詞的識別;吳悅等[8]綜合前、背景語料的二元似然比挑選候選詞,然后利用頻率、剛性等統(tǒng)計量進行擴展發(fā)現(xiàn)新詞.林自芳等[9]首先進行重復(fù)串查詢,然后結(jié)合詞內(nèi)部模式的特征對位置成詞概率和首尾單字成詞概率進行加權(quán)和改進,最后統(tǒng)計互信息、鄰接類別等統(tǒng)計量識別新詞.劉哲等[10]通過詞語頻度變化以及共現(xiàn)詞語分布一致性識別網(wǎng)絡(luò)新詞,對舊詞新義詞的提取有很好的效果.黃軒等[11]根據(jù)詞的頻率、上下文特征以及時空特性進行新詞發(fā)現(xiàn),之后用詞性規(guī)則對候選詞過濾,提高新詞發(fā)現(xiàn)的準確率.

        但是上述這些方法都未考慮新詞在時間分布過程中的穩(wěn)定性特征,未考慮網(wǎng)絡(luò)新詞的時效性,隨著識別時間的增加,不穩(wěn)定的新詞會逐漸淘汰為垃圾詞,影響新詞的識別結(jié)果.因此本文通過詞語在語言環(huán)境中表現(xiàn)的綜合競爭力建立自然法則模型,不斷地發(fā)現(xiàn)新詞的同時去除之前識別的不穩(wěn)定網(wǎng)絡(luò)新詞,使得識別的新詞即保持新穎性也保證了穩(wěn)定性.

        1 網(wǎng)絡(luò)新詞的時頻分布特征

        1.1 網(wǎng)絡(luò)新詞的時頻特征分析

        網(wǎng)絡(luò)新詞的時頻分布是指新詞隨著時間的推移出現(xiàn)的頻率變化情況.由于網(wǎng)絡(luò)新詞并未形成標準化定義,不同的人對于新詞的理解各不相同,存在不同程度的定義問題.所以本文中的網(wǎng)絡(luò)新詞是指因某種社會現(xiàn)象、社會問題在網(wǎng)絡(luò)上出現(xiàn)、流行、被廣泛認可并不斷融入人們生活的非正式語言[10].

        通過對微博中出現(xiàn)的各種網(wǎng)絡(luò)新詞的時頻分布進行分析,將網(wǎng)絡(luò)新詞的特征總結(jié)為如下兩個特征[10]:一是新詞出現(xiàn)的時間點之前很少被使用或者從未被使用.二是新詞出現(xiàn)后的一段時間,詞頻呈現(xiàn)波動增長趨勢,被使用的頻率表現(xiàn)出不穩(wěn)定性.如圖1和圖2所示,新詞在剛出現(xiàn)時詞頻有明顯的突增,但在一段時間后會出現(xiàn)類似股票波動的趨勢.但是之后新詞的詞頻使用情況表現(xiàn)為不同的趨勢:一種是新詞的詞頻在一個時間點后迅速下降直至消失,本文將這類詞統(tǒng)稱為非穩(wěn)定新詞(偽新詞),具體的詞頻變化情況如圖1所示,如“無鞋”,“走你”,“藍瘦”等;另一種情況是新詞的詞頻小范圍的波動,逐步穩(wěn)定在一個恒定的區(qū)間,本文將此類詞統(tǒng)稱為穩(wěn)定新詞,具體的詞頻變化情況如圖2所示,如“給力”,“吐槽”等.從以上的表現(xiàn)情況可以發(fā)現(xiàn)新詞的存在具有時效性,有些網(wǎng)絡(luò)新詞存在一段時間后會迅速消亡,而有些新詞可以長久穩(wěn)定的存在.

        圖1 低頻非穩(wěn)定新詞和高頻非穩(wěn)定新詞時頻分布圖

        圖2 低頻穩(wěn)定詞和高頻穩(wěn)定詞時頻分布圖

        1.2 網(wǎng)絡(luò)新詞的生存法則

        莊美英等[12]認為新詞的流行和傳播是一種語言模因現(xiàn)象,網(wǎng)絡(luò)新詞的出現(xiàn)是該語言變異進化的過程.新詞存在需要經(jīng)過競爭和選擇,受到“物競天擇適者生存”的生存法則約束,主要表現(xiàn)為大量的網(wǎng)絡(luò)新詞為爭奪大腦的注意力資源和在記憶中的保存時間而進行激烈的競爭,結(jié)果就是優(yōu)勝劣汰[12].而影響新詞的競爭力強弱的有內(nèi)在因素和外在環(huán)境因素.內(nèi)在因素主要是指新詞的自身詞語完整性;外在因素是指新詞的新穎性,熟悉度以及顯著度[13],文中使用新詞活力表示.

        下面給出本文中使用的概念定義.

        定義1新詞的詞語完整性,指的是詞語的內(nèi)部結(jié)合力和靈活性,是詞的基本屬性,不隨時間變化,在一段較長時間內(nèi)基本恒定.

        其中內(nèi)部結(jié)合力是指組成新詞的詞元之間的結(jié)合程度,中文中組成詞的詞元為單個字.互信息(PMI,Pointwise Mutual Information)統(tǒng)計量能夠很好的反映字串之間的結(jié)合強度[4].因此本文采用詞語的互信息值來衡量詞結(jié)合力.新詞的靈活度表示使用該詞的上下文環(huán)境的豐富程度,即與該詞相鄰使用的不同字符的不確定性程度.本文使用詞語的加權(quán)鄰接熵(wBE,weighted Branch Entropy)計算詞語的靈活度[14].詞的內(nèi)部結(jié)合力與靈活度互斥,因此候選詞w的詞語完整性W計算公式(1):

        其中,pmi表示組成新詞w的詞串wx,wy計算的互信息值,k的值取決于語料的數(shù)量,計算見公式(2);wBE(w)表示新詞w的加權(quán)鄰接熵[7],計算見公式(3)如下.

        其中p(wx)p(wy)表示字符串wx和wy的概率,p(wx,wy)表示字符串wx和wy的聯(lián)合概率.

        其中,c表示與新詞w相鄰的字符;n表示與新詞w相鄰的不同字符數(shù)目;λc表示字符c成為鄰接字符的概率,計算見公式(4);p(c|w)表示字符c與新詞w相鄰出現(xiàn)的概率.

        定義2新詞的活力,指詞語在該語種語言環(huán)境下被大眾使用的或者記憶的狀態(tài),即活躍于大眾的腦海中的情況.

        刻畫這一屬性值,本文借鑒遺忘定律給出如下5個假設(shè)作為新詞活力計算的前提約束.

        假設(shè)1對于大量用戶而言,在較長統(tǒng)計周期內(nèi)詞語的出現(xiàn)頻率相對穩(wěn)定.

        假設(shè)2在語言環(huán)境中,所有的詞語都按照相同的規(guī)律進行遺忘.

        假設(shè)3偶爾或隨機出現(xiàn)的詞語,會隨時間而逐漸淡忘.

        假設(shè)4具有相對穩(wěn)定重復(fù)再現(xiàn)的詞語,雖然也按同樣的規(guī)律遺忘,但由于周期性的得到補充,從而可以動態(tài)的保留在記憶中.

        假設(shè)5新詞剛出現(xiàn)之后的較短時間內(nèi)詞頻波動較大,出現(xiàn)頻率不穩(wěn)定,但總體上具有增長趨勢.

        新詞的活力表示當(dāng)前該詞存在語言環(huán)境中被記憶的狀態(tài).該狀態(tài)受到上一時刻該詞存在狀態(tài)的影響,同時與當(dāng)前時刻該詞出現(xiàn)狀態(tài)相關(guān).當(dāng)前時刻該詞的出現(xiàn)狀態(tài)主要考慮詞出現(xiàn)的頻次以及該詞的詞頻變化波動情況.詞頻變化波動情況表現(xiàn)該詞正在發(fā)生變化,具有成為新詞的新穎性特征.通過該特征還可以提取一些詞頻較低但是具有較大成詞概率的詞,避免僅僅依靠詞頻高進行篩選帶來的低詞頻新詞遺漏的問題.

        設(shè)定單位時間為t,以及考察周期為T,詞語w在單位時間t的出現(xiàn)頻次為a[t],則從時間t?T/2到t+T/2為一個考察區(qū)域.則在一個考察區(qū)域內(nèi),詞語w出現(xiàn)頻次集合為A=(a[t?T/2],a[t?T/2+1],···,a[t+T/2?1],a[t+T/2]);詞語w在一個考察區(qū)域中出現(xiàn)頻次的均值P計算見公式(5);詞語w在一個考察區(qū)域中出現(xiàn)頻次的方差D計算見公式(6),在考察區(qū)域中詞語的出現(xiàn)頻次方差越大,表明詞語出現(xiàn)頻率越不穩(wěn)定,成為新詞的特征就越明顯.

        詞在時刻t的活力H計算見公式(7).

        其中,t表示上一時刻;H(w,t)表示上一時刻t時詞w的活力值;α表示記憶衰退系數(shù),取值參考艾賓浩斯曲線中的實驗值;tf(t,w)表示詞語w在單位時間t時的使用次數(shù);d(w,t)表示歸一化后的方差;?p(w,t)表示在時間t時,詞語w的詞頻增長率,具體計算見公式(8).

        定義3新詞的競爭力,表示新詞在語言環(huán)境中存活的能力,即新詞能否轉(zhuǎn)變?yōu)榇蟊娝J知接受的普通詞匯.該值的大小是詞語的完整性以及詞語的活力共同作用的結(jié)果.故本文使用詞語的完整性與活力的乘積作為新詞的競爭力的大?。略~w在時刻t時競爭力Z的計算見公式(9).

        其中,Z(w,t)表示新詞w在時刻t的競爭力;W(w)表示新詞w的詞語完整性;H(w,t)表示新詞w在時刻t的活力值.

        2 基于生存法則模型的穩(wěn)定新詞識別方法

        基于詞的生存法則模型的網(wǎng)絡(luò)穩(wěn)定新詞識別總體過程主要先將分詞工具錯誤切分的詞串融合生成候選詞串,然后通過詞性規(guī)則以及詞語完整性特征過濾得到候選新詞,再使用詞語在語言環(huán)境中的競爭力來檢測,進而識別判斷是否為穩(wěn)定新詞.具體的網(wǎng)絡(luò)穩(wěn)定新詞識別流程如圖3所示.

        圖3 網(wǎng)絡(luò)穩(wěn)定新詞識別流程

        2.1 融合候選詞串提取

        融合候選詞提取方法是對分詞方法回顧撿漏,是對分詞方法的補充.該方法的效果與分詞方法有關(guān),主要提取無法被正確劃分的詞串.候選詞提取的一個重要依據(jù)是字符串的結(jié)合緊密程度,表示融合詞串之間的結(jié)合程度,反映了字符串在語言環(huán)境的內(nèi)部結(jié)合力.另一個重要依據(jù)是融合詞串的靈活性,表示融合詞串的上下文相鄰不同詞語的數(shù)量,反映了融合詞串在語言環(huán)境被使用的靈活程度.因此融合詞串過濾主要分三層:1)首先通過停用詞表,過濾掉包含停用詞的詞串;2)通過融合詞串的詞性規(guī)則過濾一些詞串;3)計算融合詞串內(nèi)部結(jié)合力和靈活度,將兩個指標相乘得到詞語的完整性值,進而提取值較大的部分融合詞串,作為候選詞串.具體步驟:

        步驟1使用停用詞表將分詞后的文本分割若干個小單元;然后將各小單元中相鄰散串重新組合為新的詞串,詞串的詞長應(yīng)小于L(除包含英文字符);之后使用正則表達式對組合而成的詞串的詞性進行過濾,去除掉與新詞無關(guān)的噪聲詞,主要包括虛詞、日期、副詞、助詞、連詞、擬聲詞以及語氣詞開頭或者結(jié)尾的組合詞串.

        例如:中華人民共和國史上最牛逼的綜藝一哥,無產(chǎn)階級主持人

        分詞后:中華人民共和國/ns史/g上/f最/d牛/g逼/v的/u綜藝/n一/m哥/n,/w無產(chǎn)階級/n主持人/n

        使用停用詞以及詞性規(guī)則融合過濾后:

        史上,牛逼,綜藝一,綜藝一哥,一哥

        步驟2將步驟1過濾后的融合詞串,按時間組合排序,然后統(tǒng)計單位時間t中新生成的字符串信息的詞頻F,提取當(dāng)日詞頻F大于閾值M的詞串,并將其認定為新詞的候選詞串.閾值M的大小與文本數(shù)據(jù)量的大小有關(guān),目的在于提高算法的性能.

        步驟3計算步驟2過濾后的融合詞串的詞語完整性(內(nèi)部結(jié)合力,靈活度),獲取每天詞的完整性值最大的前N個融合詞串作為當(dāng)天新詞的候選詞.N的取值與當(dāng)天數(shù)據(jù)量大小有關(guān).

        2.2 基于競爭力的穩(wěn)定新詞檢測算法

        基于競爭力檢測新詞的算法,依據(jù)原始語料計算候選詞的活力值,結(jié)合詞語完整性計算每個候選新詞各個時刻的競爭力,然后不斷地剔除競爭力小于閾值?的候選新詞,將訓(xùn)練時長det大于考察周期T的候選詞挑選出來作為穩(wěn)定新詞.

        算法的描述如下:

        Input:

        D={d1,···,di,···,dn}:D為時間集合,其中的元素是一些連續(xù)的時間節(jié)點,di表示第i時刻

        C={|di∈D;i=1,2,...,n}:C為候選詞集合,其中CWi表示di時刻的候選詞集合

        DT={|di∈D;i=1,2,...,n}:DT為原始語料集合;其中STi表示i時刻匯總的語料

        TW:訓(xùn)練新詞集合,存放具有競爭力的候選詞和該詞的訓(xùn)練時長det

        Output:

        NW:穩(wěn)定新詞集合

        函數(shù)聲明:

        ComputeH(cw’.h,cw,STi):通過公式(7)計算候選詞cw的在di時刻的活力值.cw’.h為候選詞cw在上一時刻的活力值;STi為原始預(yù)料,通過STi可以統(tǒng)計得到候選詞cw在di時刻的詞頻tf,方差d以及詞頻增長率?p

        ComputeZ(cw):依據(jù)公式(9)計算候選詞cw的競爭力

        算法:

        1:for diin D do//遍歷語料中的所有時間點

        2:for cw in CWido//遍歷時刻di提出的候選詞

        3:If cw∈TW

        4:ComputeH(cw’hcw,STi);

        5:cw.det++;//訓(xùn)練時間遞增

        6:else

        7:ComputeH(0,cw,STi);//如果候選詞不在訓(xùn)練集中,則該詞上一時刻活力值為

        8:cw.det=;//初始訓(xùn)練時間為

        9:put cw into TW;

        10:ComputeZ(cw);

        11:end for

        12:for cw in XW do

        13:if cw.z

        14:delete cw from TW;

        15:else if cw.det>T

        16:remove cw from TW into NW;

        17:end for

        18:end for

        19:return NW

        3 實驗及結(jié)果分析

        3.1 實驗環(huán)境

        本實驗中采用的語料來自于自然語言處理與信息檢索共享平臺提供的微博語料.語料中的微博數(shù)據(jù)從2009年10月到2014年4月,總共包含了大約500萬條微博評論數(shù)據(jù),實驗中的分詞工具使用的是開源的HanPL中的CRFs分詞方法.由于語料比較龐大,難以人工統(tǒng)計語料中出現(xiàn)的全部網(wǎng)絡(luò)新詞.本文中參考提取的候選詞中的新詞代表全部語料的新詞總量.目前新詞的定義比較模糊,沒有具體的界定方法.本文借鑒劉哲[3]的新詞定義,人工對語料中2010年9月、2011年3月、2014年2月份的網(wǎng)絡(luò)新詞進行劃分,進而對新詞識別算法進行測評.具體的準確率計算見公式(10).

        3.2 實驗及結(jié)果分析

        實驗過程中各閾值的設(shè)置:由于大部分新詞的詞長小于5[5],因此將融合候選詞的詞長閾值L設(shè)置為5.而當(dāng)日詞頻閾值M和詞語完整性過濾中的閾值N是通過對語料中每日融合新詞統(tǒng)計得到的,在M取值為2,N取值為30時,過濾效果最好.計算詞語的活力值時,使用的記憶衰退系數(shù)α則分別選取艾賓浩斯曲線中各個時間段的記憶保留比率進行實驗,其中選用6天的記憶保留比率25.4%時收斂效果最好.

        實驗總共分兩個部分:

        第一部分:驗證算法中新詞識別統(tǒng)計量的有效性.本文在識別新詞中總共使用了三個統(tǒng)計量,分別為新詞的詞語完整性、新詞活力以及新詞的競爭力.其中,新詞的詞語完整性指標主要是對詞語進行靜態(tài)化的衡量和過濾.新詞的活力以及新詞的競爭力都是對新詞在時間分布上的詞頻變化進行新詞的識別.本文提取語料中2010年9月,2011年3月,2014年2月的數(shù)據(jù)做了新詞識別實驗,實驗結(jié)果如表1所示.

        表1 實驗中統(tǒng)計量測試

        從實驗數(shù)據(jù)可以得到,通過融合詞串的方式會產(chǎn)生大量的垃圾串,通過當(dāng)日詞頻簡單的過濾后可以極大地降低系統(tǒng)的運算量,提高識別的效率.通過分析每天通過詞語完整性過濾之后的候選詞,占前一天通過的候選詞的50%以上.而通過詞語競爭力檢測后,識別的新詞總量大致穩(wěn)定,說明雖然每天都有新詞的產(chǎn)生,但是淘汰的新詞大致與新產(chǎn)生的新詞數(shù)量相同.

        第二部分:在第一部分實驗的基礎(chǔ)上,增加基礎(chǔ)語料的規(guī)模(2013年1月至2013年7月的微博數(shù)據(jù)).通過實驗驗證算法的準確性,穩(wěn)定性和連續(xù)性.實驗結(jié)果如圖4所示.同時與ICTLAS[16]的新詞識別方法做了對比,對比結(jié)果如表2所示.

        表2 實驗對比

        實驗結(jié)果表明,本文提出的基于新詞的生存法則模型識別穩(wěn)定新詞的準確率在80.21%以上,相比ICTLAS的新詞識別方法,準確率提高了3個百分點,而且可以產(chǎn)生最新的新詞詞庫.開始的第1個月份識別準確率相對較低,分析其主要原因為考察周期較短,識別的網(wǎng)絡(luò)新詞中包含較多隨事件產(chǎn)生的網(wǎng)絡(luò)詞語或詞組,如“馬航”、“失聯(lián)”、“搶票”、“央視春晚”等詞語.這些詞隨著考察期拉長,逐漸被淘汰過濾,準確率會隨著時間的推移不斷提高,但是在5月份之后準確率下滑.通過數(shù)據(jù)結(jié)果的分析,主要原因為每天的候選新詞中總會出現(xiàn)一些高頻固定搭配的詞語,比如“工作人員”、“人力資源”、“聯(lián)系電話”等.這些詞語無法通過競爭力進行有效的過濾影響算法準確率的提升.

        圖4 算法準確率隨時間變化情況

        圖5 新詞中各成分所占比

        新詞成分所占比例如圖5所示.從新詞發(fā)現(xiàn)的成分實驗數(shù)據(jù)中看出,本文使用的方法可以有效的識別新詞中的穩(wěn)定新詞成分.其中穩(wěn)定新詞可以成為輿情概念的候選詞,提高概念抽取的準確率和召回率,為之后輿情分析提供支持.從事件詞的成分,本文識別的事件詞中包含的大多是最近較為熱點的事件詞,相對于ICTLAS更能反映當(dāng)前的熱點主題事件.

        4 結(jié)束語

        本文方法對網(wǎng)絡(luò)新詞的識別算法能夠較好地發(fā)現(xiàn)網(wǎng)絡(luò)短文本中出現(xiàn)詞義完整且穩(wěn)定的網(wǎng)絡(luò)新詞,提供了持久化的穩(wěn)定新詞發(fā)現(xiàn)方法.識別的新詞可以有助于輿情本體概念的抽取[15],補充完善該語言現(xiàn)存的詞庫,為后續(xù)新詞的語義分析提供支持,而且識別方法中可以完整地記錄一些事件詞匯的生存時間,并通過競爭力的變動可以側(cè)面地反映該事件變化情況,通過事件詞與其相關(guān)詞匯的競爭關(guān)系也可以發(fā)現(xiàn)一些事件漂移現(xiàn)象的變化規(guī)律.下一步將文中識別的穩(wěn)定新詞加入輿情本體的概念集,動態(tài)化地構(gòu)建輿情本體知識庫,同時通過新詞的競爭過程發(fā)現(xiàn)網(wǎng)絡(luò)事件的發(fā)展情況,對網(wǎng)絡(luò)輿情做更深入的研究.

        參考文獻:

        [1]王素改.微博中的新詞新語研究[J].雞西大學(xué)學(xué)報,2016,16(9):150-153.

        [2]李文坤,張仰森等.基于詞內(nèi)部結(jié)合度和邊界自由度的新詞發(fā)現(xiàn)[J].計算機應(yīng)用研究,2015,32(8):2302-2304.

        [3]呂屏,楊永紅.網(wǎng)絡(luò)新詞與網(wǎng)絡(luò)輿情研究[J].西華大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2010,02:102-106.

        [4]杜麗萍,李曉戈,等.基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J].北京大學(xué)學(xué)報(自然科學(xué)版),2016,01:35-40.

        [5]陳飛,劉奕群,魏超,等.基于條件隨機場方法的開放領(lǐng)域新詞發(fā)現(xiàn).軟件學(xué)報,2013,24(5):1051-1060.

        [6]Peng Fuchun,Feng Fangfang,McCallum A.Chinese segmentationand new word detection using conditional random f i elds[C].Proc of the 20th International Conference on Computational Linguistics,2004:221-227.

        [7]鄒綱,劉洋,劉群,等.面向Internet的中文新詞語檢測[J].中文信息學(xué)報,2004,06:1-9.

        [8]吳悅,燕鵬舉,翟魯峰.基于二元背景模型的新詞發(fā)現(xiàn)[J].清華大學(xué)學(xué)報,2011,51(9):1317-1320.

        [9]林自芳,蔣秀鳳.基于詞內(nèi)部模式的新詞識別[J].計算機與現(xiàn)代化,2010(11):162-164,167.

        [10]劉哲,黃永峰,羅芳,等.網(wǎng)絡(luò)新詞識別算法研究[J].計算機工程與科學(xué),2013,09:141-145.

        [11]黃軒,李熔烽.博客語料的新詞發(fā)現(xiàn)方法[J].現(xiàn)代電子技術(shù),2013,36(2):144-146.

        [12]莊美,何自然.物競天擇適者生存–從模因論的緯度看新詞酷語的流行現(xiàn)象[J].湖北社會科學(xué),2010,07:115-117.

        [13]易波.論新詞新語的熟悉度和顯著度[J].四川教育學(xué)院學(xué)報,2009,11:58-60.

        [14]蘇其龍.微博新詞發(fā)現(xiàn)研究[D].哈爾濱工業(yè)大學(xué),2013.

        [15]張學(xué)芳,劉勝全,劉艷,等.輿情本體概念抽取研究[J].新疆大學(xué)學(xué)報(自然科學(xué)版),2016,33(3):333-337.

        [16]張華平.NLPIR漢語分詞系統(tǒng).http://ictclas.nlpir.org/.

        猜你喜歡
        詞串詞頻新詞
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        靈動的詞串,寫話的紐帶
        《微群新詞》選刊之十四
        報紙新聞標題中的“熱詞群”和“熱詞串”
        新聞傳播(2018年15期)2018-09-18 03:19:58
        美語口語詞串You Know What探析
        詞頻,一部隱秘的歷史
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        小議網(wǎng)絡(luò)新詞“周邊”
        語文知識(2014年12期)2014-02-28 22:01:18
        外教新詞堂
        国产成人亚洲精品77| 日本免费看一区二区三区| 国产av久久在线观看| 亚洲一区自拍高清亚洲精品| 亚洲av永久无码一区| 老熟女熟妇嗷嗷叫91| 91精品国产综合久久国产| 中文字幕亚洲一二三区| 色一情一乱一伦麻豆| 国产精品永久免费视频| 久久久99精品视频| 日本在线免费一区二区三区| 日韩有码在线一区二区三区合集| 精品国产免费一区二区三区香蕉| 欧美内射深喉中文字幕| 久久男人av资源网站无码| 91精品国产91久久久久久青草 | 韩国无码av片在线观看网站 | 特黄a级毛片免费视频| 亚洲熟妇大图综合色区| 熟女少妇av一区二区三区| 午夜成人理论福利片| 精品久久亚洲中文无码| 91情侣在线精品国产免费| 杨幂二区三区免费视频| 亚洲色图三级在线观看| 粗大的内捧猛烈进出少妇 | 免费高清日本一区二区| 亚洲av色av成人噜噜噜| 国产女人18毛片水真多18精品| 国产一区二区三区乱码| 亚洲一区二区三区在线网站| 一本色道久久88综合亚洲精品| 加勒比日韩视频在线观看| 国产三级久久久精品麻豆三级| 一区一级三级在线观看| 激情在线视频一区二区三区| 国产aⅴ激情无码久久久无码| 国产95在线 | 欧美| 无遮挡粉嫩小泬| 亚洲一区二区精品在线|