●孫瑞娜a,b(新疆財(cái)經(jīng)大學(xué)a.統(tǒng)計(jì)與信息學(xué)院,b.社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)研究中心,烏魯木齊 830012)
基于CRFs的哈薩克語名詞短語自動(dòng)獲取
●孫瑞娜a,b(新疆財(cái)經(jīng)大學(xué)a.統(tǒng)計(jì)與信息學(xué)院,b.社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)研究中心,烏魯木齊830012)
[關(guān)鍵詞]哈薩克語;名詞短語;互信息;條件隨機(jī)場
[摘要]基于哈薩克語文本語料特點(diǎn),分析名詞短語構(gòu)成規(guī)則,結(jié)合互信息(MI)知識(shí),建立了哈薩克語名詞短語特征模板,利用條件隨機(jī)場(CRF)模型實(shí)現(xiàn)哈薩克語名詞短語自動(dòng)獲取。實(shí)驗(yàn)表明,哈薩克語名詞短語獲取正確率達(dá)到95.2%,獲取性能高于基于規(guī)則、基于規(guī)則與互信息結(jié)合的抽取方法。
隨著web2.0的迅速發(fā)展,互聯(lián)網(wǎng)成為民眾獲取信息的重要來源,同時(shí)也是人們傳播信息和表達(dá)觀點(diǎn)的重要渠道。民眾通過網(wǎng)絡(luò)平臺(tái)對(duì)國家政策或突發(fā)事件發(fā)表意見,及時(shí)對(duì)這些評(píng)論信息進(jìn)行有效處理分析,可以幫助決策者了解社情民意。
網(wǎng)絡(luò)評(píng)論文本由句子組成,表示句子語義的主要成分是主語、謂語和賓語。在進(jìn)行評(píng)論文本主題識(shí)別時(shí),主語和賓語是識(shí)別文本主題的關(guān)鍵因素,而主語和賓語的用詞中名詞和名詞短語是語義表達(dá)的主題,也是評(píng)論文本主題識(shí)別研究中的一個(gè)重要特征。本文結(jié)合哈薩克語名詞短語構(gòu)成規(guī)則,以互信息(MI)為工具,利用規(guī)則和條件隨機(jī)場(CRF)結(jié)合的方法,針對(duì)哈薩克語評(píng)論文本中名詞短語的自動(dòng)獲取,輔助后期進(jìn)行哈薩克語網(wǎng)絡(luò)輿情分析中web評(píng)論文本主題識(shí)別的研究工作。
1.1研究現(xiàn)狀
目前,英語、漢語等語言的信息處理在理論方法和具體應(yīng)用上已經(jīng)有了大量研究成果。大多數(shù)學(xué)者對(duì)短語的識(shí)別都是在語料庫的基礎(chǔ)上進(jìn)行的,有基于規(guī)則、統(tǒng)計(jì)、規(guī)則和統(tǒng)計(jì)集成三種識(shí)別方法。Church[1]較早展開了英語名詞短語的識(shí)別,將英語的基本名詞短語識(shí)別問題轉(zhuǎn)換為和詞性標(biāo)記同構(gòu)的問題,并利用基于詞性標(biāo)記N元同現(xiàn)的統(tǒng)計(jì)最優(yōu)法來實(shí)現(xiàn)識(shí)別;文獻(xiàn)[2]在Church的研究基礎(chǔ)上,采用了基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法來解決基本名詞短語抽取問題,并得到了召回率88%的實(shí)驗(yàn)結(jié)果;文獻(xiàn)[3]利用最大熵方法進(jìn)行日語實(shí)體名詞抽?。晃墨I(xiàn)[4]利用基于韓語名詞短語左右邊界規(guī)則的方法,在語料庫中抽取名詞短語;文獻(xiàn)[5]結(jié)合基于支持向量機(jī)與基于條件隨機(jī)場的方法進(jìn)行漢語最長名詞短語識(shí)別;文獻(xiàn)[6]結(jié)合語料特點(diǎn),對(duì)“N1+N2”型結(jié)構(gòu)的名詞短語進(jìn)行特征分析;文獻(xiàn)[7]利用短語結(jié)構(gòu)構(gòu)成特征與清華樹庫語料短語特征混合方法,提高短語識(shí)別率。查閱近年來國內(nèi)外的重要文獻(xiàn),哈薩克語在名詞短語自動(dòng)獲取已經(jīng)有了前期的研究工作,但是識(shí)別的正確率與其他語言相比還較低。
哈薩克語屬于阿爾泰語系突厥語族的克普恰克語支,書寫方式是從左到右,語法結(jié)構(gòu)理論上有四種排列,即SOV、SVO、OSV、OVS,通常用SOV(主+賓+謂)結(jié)構(gòu)確定句子詞序和語類,這與漢語詞序有很大不同,并且哈薩克語是黏著語言類型,形態(tài)結(jié)構(gòu)比漢語、英語復(fù)雜。同時(shí),哈薩克文沒有像漢語、英語中建立好的語義網(wǎng),因此,對(duì)哈薩克語名詞短語的自動(dòng)獲取與漢語、英語相比更困難。
1.2需求分析
哈薩克語名詞短語是一種重要的組塊類型,其自動(dòng)獲取對(duì)文本語義理解、信息檢索、網(wǎng)絡(luò)輿情分析等領(lǐng)域都有重要意義。在對(duì)Web評(píng)論文本進(jìn)行主題識(shí)別過程中,能否準(zhǔn)確的獲取其中的名詞短語起著重要的
作用。雖然哈薩克語名詞短語自動(dòng)獲取已經(jīng)有了前期的研究工作,如文獻(xiàn)[8]使用基于規(guī)則的方法進(jìn)行了探討,封閉測試準(zhǔn)確率為80%;文獻(xiàn)[9]等利用N-gram和互信息相結(jié)合的方法實(shí)現(xiàn)了哈薩克語名詞短語的抽取,封閉測試準(zhǔn)確率82.5%,但是識(shí)別的正確率與其他語言相比還較低。因此,為避免名詞短語獲取的錯(cuò)誤累積對(duì)后期網(wǎng)絡(luò)輿情分析中Web評(píng)論文本主題識(shí)別等研究工作的影響,需要進(jìn)一步提高哈薩克語名詞短語獲取的正確率。
1.3技術(shù)思路
哈薩克語名詞短語自動(dòng)獲取的具體實(shí)現(xiàn)思路如圖1所示。(1)將從網(wǎng)站獲取的哈薩克語版網(wǎng)頁中的評(píng)論文本,進(jìn)行去噪處理,僅保留哈薩克語文本,按照哈薩克語句子結(jié)束的標(biāo)點(diǎn)符號(hào)對(duì)文本進(jìn)行自動(dòng)分句。(2)采用新疆大學(xué)的哈薩克語詞干切分、詞綴提取及詞性標(biāo)注系統(tǒng),將文本進(jìn)行詞干切分及詞性標(biāo)注,保存為XML文檔。(3)分析哈薩克語文本語料特點(diǎn),歸納名詞短語構(gòu)成規(guī)則,結(jié)合互信息知識(shí),建立哈薩克語名詞短語特征模板,利用條件隨機(jī)場模型最終實(shí)現(xiàn)哈薩克語名詞短語的自動(dòng)獲取。
圖1 技術(shù)思路
2.1哈薩克語名詞短語自動(dòng)獲取
正確判斷評(píng)論文本的傾向性,需要先確定文本的主題,而名詞短語是評(píng)論文本主題識(shí)別研究中的一個(gè)重要特征,高效的名稱短語自動(dòng)獲取技術(shù),能有效降低人工標(biāo)注的工作量。本文通過分析哈薩克語文本語料特點(diǎn),歸納名詞短語構(gòu)成規(guī)則,將規(guī)則與CRFs模型相結(jié)合,并將互信息知識(shí)作為CRFs模型中的一個(gè)特征屬性,建立了哈薩克語名詞短語識(shí)別特征模板,實(shí)現(xiàn)哈薩克語名詞短語自動(dòng)獲取。
(1)條件隨機(jī)場模型。條件隨機(jī)場(Conditional Random Field,CRF)是Lafferty等[10]提出的一種用于序列數(shù)據(jù)標(biāo)注的條件概率模型。其原理是:給定的數(shù)據(jù)序列隨機(jī)變量X,標(biāo)注結(jié)果序列隨機(jī)變量Y的條件概率分布P(Y|X),要求條件概率P(Y/X)最大。令x={x1,x2……xn}表示輸入的需要標(biāo)注的觀察序列集,y={y1,y2……yn}表示標(biāo)注序列集。在給定觀察序列條件下的標(biāo)記序列的概率可以寫成:
其中,每個(gè)fk是觀察序列x中位置為i和i-1的輸出節(jié)點(diǎn)的特征;每個(gè)gk是位置為i的輸入節(jié)點(diǎn)和輸出節(jié)點(diǎn)的特征;λ和u是特征函數(shù)的權(quán)重;Z(x)是歸一化因子。對(duì)于輸入句子的詞語序列x,最佳名詞短語標(biāo)注序列y滿足如下公式
CRFs建模時(shí),能夠充分地利用上下文信息作為特征,特征選擇靈活,移植性強(qiáng),獲取的信息豐富,廣泛應(yīng)用于序列標(biāo)注,詞性標(biāo)注[11]、語塊識(shí)別[12]等問題,取得令人滿意的結(jié)果。
(2)基于CRFs的哈薩克語名詞短語的語法規(guī)律。在利用CRFs模型進(jìn)行哈薩克語名詞短語獲取時(shí),特征模板的選取是名稱短語獲取的關(guān)鍵,而CRFs模型特征模板的設(shè)計(jì)來源于語言的語法規(guī)律。因此,結(jié)合《現(xiàn)代哈薩克語實(shí)用語法》[13]知識(shí),通過觀察大量名詞短語以及上下文后,總結(jié)出了哈薩克語名詞短語的一般規(guī)律。
①短語特征規(guī)律。哈薩克語的詞序與漢語詞序有很大不同,通常用SOV(主+賓+謂)結(jié)構(gòu)確定句子詞序和語類,其最基本的短語規(guī)則為:Rule:IP→SI,S→KP VP,KP→NP K,VP→KP V。其中:S-句子,KP-格短語,NP-名詞性短語,VP-動(dòng)詞性短語。例如:(我們學(xué)校明天開課)(我們的學(xué)校)是由代詞和名詞構(gòu)成的名詞性短語NP(在漢語中是偏正短語),(我們的學(xué)校開課)是由名詞短語和動(dòng)詞構(gòu)成的動(dòng)詞性短語VP(在漢語中是主謂短語),(明天開課)是由副詞和動(dòng)詞構(gòu)成的動(dòng)詞性短語VP(在漢語中是偏正短語),因此哈語名詞短語獲取需要結(jié)合該短語結(jié)構(gòu)特點(diǎn)。
②詞的構(gòu)成特征規(guī)律。哈薩克語作為一種典型的黏著性語言,單詞是通過在詞干后按一定的順序連接各種詞綴(又稱構(gòu)形附加成分)來構(gòu)成的,如(在你們的班里)是由詞干(班)和附加成分構(gòu)成的。這種特征規(guī)則可以有效識(shí)別哈薩克語的名詞短語,因此,本文歸納了對(duì)識(shí)別名詞短語有幫助的部分名詞構(gòu)形附
加成分,并將其作為CRFs模型的一個(gè)特征屬性。部分名詞構(gòu)形附加成分見表1。
表1 名詞構(gòu)形附加成分
③名詞搭配結(jié)構(gòu)規(guī)律。哈薩克語的名詞短語,中心詞多為名詞。該規(guī)律可以分為五種搭配結(jié)構(gòu)。第一種,名詞和名詞搭配,如:新疆日?qǐng)?bào);第二種,數(shù)量詞和名詞搭配,如:一首詩歌;第三種,動(dòng)詞和名詞搭配,如:要講的話;第四種,形容詞和名詞搭配,如:明亮眼睛;第五種,以副詞與形容詞修飾,中心詞為名詞的搭配,如:非常困難的任務(wù)。因此,該規(guī)律能夠作為名詞短語發(fā)現(xiàn)的特征在CRFs模型中使用。
④連接詞所連接的并列結(jié)構(gòu)規(guī)律。以連接詞所連接的并列結(jié)構(gòu)多為名詞短語,如:連接詞所連接的形容詞結(jié)構(gòu)高而且美觀;連接詞所連接的名詞結(jié)構(gòu):新疆和甘肅。該規(guī)律可以作為名詞短語獲取特征。
(3)特征模板定義。依據(jù)對(duì)哈薩克語語料中名詞短語特征的分析,本文選擇了常用的特征:詞(word)、詞性(pos)、構(gòu)形附加成分(affix)、互信息(MI)來進(jìn)行CRFs模型的模板定義。
互信息是用來度量一個(gè)集合中兩個(gè)事件之間的相互依賴程度的信息度量單位,二元互信息是兩個(gè)事件的概率的函數(shù),公式如下
c(x,y)指語料中,詞x和詞y的共同出現(xiàn)的頻率,c(x)指詞x在語料庫中出現(xiàn)的頻率。通過對(duì)c(x, y)和c(x)的統(tǒng)計(jì),利用互信息公式(4)計(jì)算詞與詞之間的互信息。如果詞x和詞y結(jié)合非常緊密,互信息就越大,反之越小。通過互信息特征可以判斷該類字串組是否可以拆分標(biāo)記。
結(jié)合哈薩克語名詞短語的規(guī)律,制定了實(shí)驗(yàn)中使用基于CRFs的四類特征模板。在詞序選擇上,重點(diǎn)考慮當(dāng)前詞以及其前后兩個(gè)詞內(nèi)的詞序列,即當(dāng)前詞word(0)、當(dāng)前詞前1個(gè)詞word(-1),當(dāng)前詞后1個(gè)詞word(1),當(dāng)前詞前第2個(gè)詞word(-2),當(dāng)前詞后第2個(gè)詞word(2),具體設(shè)計(jì)見表2。
表2 特征模板示例
①詞性搭配特征模板。名詞短語與其詞語的詞性特征高度相關(guān),可以得到特征模板:當(dāng)前詞詞性與其相關(guān)的前后詞的詞性。如特征模板pos(-1)pos (0),pos(0)pos(1),pos(-1)pos(1);當(dāng)前詞詞性與其前后各1個(gè)詞詞性pos(-1)pos(0)pos(1);當(dāng)前詞詞性與其前1,2個(gè)詞詞性、與后面1,2個(gè)詞詞性pos(-2)pos(-1)pos(0);pos(0)pos(1)pos(2)。
②詞和詞性搭配特征模板。以當(dāng)前詞為中心,抽取與其相關(guān)的前后詞及詞性。如當(dāng)前詞與其前后各1個(gè)詞的詞性pos(0)word(0)pos(1);當(dāng)前詞與前1個(gè)詞詞性pos(-1)word(0)、當(dāng)前詞與后1個(gè)詞的詞性,word(0)pos(1)等。
③詞性和構(gòu)形附加成分搭配特征模板。哈薩克語詞的構(gòu)形附加成分對(duì)名詞短語的識(shí)別有一定幫助,抽取當(dāng)前詞性與前后詞的詞性及附加成分,可以得到特征模板,如:當(dāng)前詞的詞性及附加成分、前1
詞的詞性pos(-1)pos(0)affix(0);當(dāng)前詞的詞性、后1詞的詞性及附加成分pos(0)pos(1)affix(1);當(dāng)前詞的詞性、前1詞的詞性及附加成分affix(-1)pos(-1)pos(0)等。
④詞和詞之間的MI值搭配特征模板。詞和詞之間的MI值可以衡量詞和詞結(jié)合的緊密程度,能判斷該字串組是否可以拆分標(biāo)記為名詞短語,為此定義特征模板為:當(dāng)前詞與前1詞及二者的MI值MI(-1)word(-1)word(0);當(dāng)前詞與后1詞及二者的MI值word(0)word(1)MI(1)。
采用C#語言,改寫CRF工具包,整理語料進(jìn)行哈薩克語名詞短語的抽取。系統(tǒng)主要包括三個(gè)模塊。
(1)語料預(yù)處理模塊。進(jìn)行名詞短語識(shí)別前需要先對(duì)識(shí)別文件進(jìn)行預(yù)處理工作,將語料組織成符合識(shí)別模塊接口標(biāo)準(zhǔn)的形式。將從網(wǎng)站獲取的哈薩克語版網(wǎng)頁中的評(píng)論文本,進(jìn)行去噪處理,僅保留哈薩克語文本,按照哈薩克語句子結(jié)束的標(biāo)點(diǎn)符號(hào)對(duì)文本進(jìn)行自動(dòng)分句。采用新疆大學(xué)的哈薩克語詞干切分及詞性標(biāo)注系統(tǒng),將文本進(jìn)行詞干切分、詞綴的提取及詞性標(biāo)注,保存為XML文件,具體格式見圖2。
圖2 XML文件
(2)訓(xùn)練模塊。通過定義的四類特征模板對(duì)語料庫文本進(jìn)行特征抽取,建立特征集,利用CRFs模型對(duì)特征集合進(jìn)行訓(xùn)練,計(jì)算特征權(quán)值并進(jìn)行保存。
(3)識(shí)別模塊。識(shí)別模塊的主要任務(wù)是對(duì)一條待識(shí)別名詞短語的哈語句子,給出對(duì)應(yīng)的名詞短語標(biāo)注序列,本實(shí)驗(yàn)采用IB02的表示方法進(jìn)行名詞短語抽取標(biāo)識(shí),將每個(gè)詞分為三類標(biāo)記:“B”名詞短語首部、“I”名詞短語內(nèi)部、“O”名詞短語外部,對(duì)測試語料中的每個(gè)詞進(jìn)行BIO標(biāo)注,即輸出y∈{B,I,O}。識(shí)別結(jié)果見圖3。
4.1實(shí)驗(yàn)過程
實(shí)驗(yàn)語料主要來自天山網(wǎng)、人民網(wǎng)的哈薩克文版以及一些大型的哈薩克文BBS網(wǎng)站,內(nèi)容涵蓋新聞、文學(xué)、生活等,充分保證了語料的多樣性。對(duì)網(wǎng)頁中的文本進(jìn)行去噪處理,僅保留哈薩克語文本,將獲取的335個(gè)評(píng)論文本,進(jìn)行詞干切分、詞綴提取及詞性標(biāo)注,保存為XML文檔,再利用文獻(xiàn)[8]基于規(guī)則的方式對(duì)語料文檔進(jìn)行名詞短語標(biāo)注,后期人工校正。
圖3 名詞短語識(shí)別結(jié)果
將整理后的語料分為訓(xùn)練語料和測試語料進(jìn)行名詞短語的抽取,實(shí)驗(yàn)采用5倍交叉驗(yàn)證的方法,即將語料分為相等的5份,其中4份作訓(xùn)練語料,1份作測試語料進(jìn)行名詞短語獲取實(shí)驗(yàn)。首先在訓(xùn)練模塊用訓(xùn)練語料對(duì)CRFs模型進(jìn)行訓(xùn)練,然后在識(shí)別模塊自動(dòng)標(biāo)注測試語料中的名詞短語。CRFs的特征模板采用上表2所示的4類特征模板。
4.2實(shí)驗(yàn)結(jié)果
對(duì)名詞短語識(shí)別的實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估時(shí),有三個(gè)重要的評(píng)測指標(biāo),分別是正確率、召回率和F值,定義如下
其中a指名詞短語正確獲取的個(gè)數(shù),b指名詞短語錯(cuò)誤獲取的個(gè)數(shù),d指未獲取的名詞短語個(gè)數(shù)。實(shí)驗(yàn)結(jié)果見表3。
表3 實(shí)驗(yàn)結(jié)果
從結(jié)果來看,實(shí)驗(yàn)達(dá)到了較滿意的效果,目前獲取方法的正確率與漢語、英語等語言的名詞短語在封閉測試下自動(dòng)獲取的正確率基本接近,達(dá)到了95.2%,但相比其他語言實(shí)驗(yàn)結(jié)果獲取的召回率較低,尚需進(jìn)一步提高。
4.3實(shí)驗(yàn)比較
將文獻(xiàn)[8]、文獻(xiàn)[14]所進(jìn)行的名詞短語識(shí)別的實(shí)驗(yàn)過程重現(xiàn),進(jìn)行封閉測試,并與本文中的實(shí)驗(yàn)
結(jié)果進(jìn)行比較,結(jié)果見表4。
表4 實(shí)驗(yàn)數(shù)據(jù)比較
從表4可以看出,在使用相同語料的情況下,進(jìn)行封閉測試,本實(shí)驗(yàn)采用的規(guī)則和CRFs結(jié)合的方式,實(shí)驗(yàn)結(jié)果的正確率高于基于規(guī)則方法,高于基于規(guī)則和互信息結(jié)合的方法,達(dá)到95.2%。
4.4實(shí)驗(yàn)分析
從以上實(shí)驗(yàn)結(jié)果來看,名詞短語獲取的方法是有效的,正確率提高到95.2%,但目前獲取方法的召回率較低,尚需進(jìn)一步提高。對(duì)名詞短語獲取模型的錯(cuò)誤結(jié)果進(jìn)行分析,便于將來進(jìn)一步改進(jìn)。(1)在CRFs模型中,抽取所用的特征:詞性和構(gòu)形附加成份,在目前語料庫加工中存在標(biāo)注及切分的錯(cuò)誤,對(duì)實(shí)驗(yàn)有一定影響,后期需要修正語料庫錯(cuò)誤。(2)在特征選擇上,后期還可以借助更豐富的信息,如結(jié)合語義等信息。(3)實(shí)驗(yàn)所用的語料是需要人工校對(duì),由于精力有限,使得名詞短語獲取的語料規(guī)模有限,這也使得統(tǒng)計(jì)不夠全面。
[參考文獻(xiàn)]
[1]ChruchKW.AStochasticPartsProgramand Noun Phrase for Unrestricted Test:proceedings of the 2nd Conference on Applied Natural Language Processing,Austin,TX [C].USA:Kluwer Academic Publicshers,1988:136-142.
[2]Ramshaw L,Marcus M.Text Chunking Using Transformation-Based Learning[C]//Proceedings of 3rd Workshopon Very Large Corpora.Massachusetts:Association forComputational Linguistics,1995:82-94.
[3]K Uehimoto,et al.Named entity extraction based on a maximum entropy model and transformation rules[C]//Proceedingsof the38th Annual Meeting ofthe AssociationforComputational Linguistics,2000:326-335.
[4]安帥飛,畢玉德.韓國語名詞短語結(jié)構(gòu)特征分析及自動(dòng)提?。跩].中文信息學(xué)報(bào),2013,27(5):205-210.
[5]錢小飛,侯敏.基于混合策略的漢語最長名詞短語識(shí)別[J].中文信息學(xué)報(bào),2013,27(6):16-22.
[6]劉志杰,等.搜索引擎日志中“N1+N2”型名詞短語研究[J].現(xiàn)代圖書情報(bào)技術(shù),2010,26(12):58-63.
[7]謝靖,等.CSSCI語料中短語結(jié)構(gòu)標(biāo)注與自動(dòng)識(shí)別[J].現(xiàn)代圖書情報(bào)技術(shù),2012(12):32-38.
[8]孫瑞娜,古麗拉·阿東別克.基于規(guī)則的哈薩克語基本名詞短語識(shí)別研究[J].計(jì)算機(jī)應(yīng)用研究, 2010,27(12):4511-4513.
[9]Gulila Altenbek,Ruina Sun.Kazakh Noun Phrase Extraction based on N-gram and Rules:2010 International Conferenceon Asian Language Processing[C].Harbin,Heilongjiang,China:IEEE computer society,2010:305-308.
[10]Lafferty J.et al.Conditional Random Fields:ProbabilisticModelsfor Segmentingand Labeling Sequence Data[C]//Proceedings of the 18th International Conf on machineLearning,2001:282-289.
[11]S Lakshmana Pandian,T V Geetha.CRF Models for Tamil Part of Speech Tagging and Chunking[C].International Conferenceonthe Computer Processingof Oriental Languages-ICCPOL,Hong Kong,2009:11 -22.
[12]He Saike,et al.Multi-task learning in conditional random fields for chunking in shallow semantic parsing [J].PACLIC23-Proceedings of the 23rd Pacific Asia Conferenceon Language,InformationandComputation,2009,1:180-189.
[13]張定京.現(xiàn)代哈薩克語實(shí)用語法[M].北京:中央民族大學(xué)出版社,2004:98-167.
[14]孫瑞娜,古麗拉·阿東別克.哈薩克語基本名詞短語自動(dòng)識(shí)別研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào). 2010,24(6):114-119.
[收稿日期]2014-10-27 [責(zé)任編輯]劉丹
[作者簡介]孫瑞娜(1982-),女,新疆財(cái)經(jīng)大學(xué)講師,研究方向:網(wǎng)絡(luò)輿情,信息檢索。
[基金項(xiàng)目]本文系國家自然科學(xué)基金項(xiàng)目“基于網(wǎng)絡(luò)社群的網(wǎng)絡(luò)輿情演化分析及突發(fā)事件預(yù)警機(jī)制研究”(項(xiàng)目編號(hào):71261025),新疆財(cái)經(jīng)大學(xué)社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)研究中心項(xiàng)目“新疆互聯(lián)網(wǎng)輿情傾向性調(diào)查與分析研究”(項(xiàng)目編號(hào):050313C08),“新疆區(qū)情民意網(wǎng)絡(luò)調(diào)查系統(tǒng)設(shè)計(jì)與網(wǎng)絡(luò)輿情調(diào)查分析”(項(xiàng)目編號(hào):050312C08),新疆財(cái)經(jīng)大學(xué)校級(jí)科研基金項(xiàng)目“基于統(tǒng)計(jì)方法的新疆民文網(wǎng)絡(luò)輿情情感傾向性分析技術(shù)研究”(項(xiàng)目編號(hào):2013XYB005)階段性成果之一。
[文章編號(hào)]1005-8214(2015)08-0101-05
[文獻(xiàn)標(biāo)志碼]B
[中圖分類號(hào)]TP391.1;G254.29