弓盼+王嘉梅+楊小偉
摘 要:隨著民族地區(qū)信息化建設的不斷推進,中國少數(shù)民族語言網(wǎng)絡輿情研究也逐漸引起了大家的關注,文本分類和情感分析模塊是輿情系統(tǒng)的重要組成部分。傳統(tǒng)的文本分類方法主要通過統(tǒng)計字面上的詞語重復次數(shù),而對于文字背后的語義關聯(lián)考慮甚少。該文重點介紹了一種基于LDA模型在少數(shù)民族語言(以彝文為例)網(wǎng)絡輿情信息情感分析方面的應用,對文字隱含的主題進行建模,通過挖掘少數(shù)民族網(wǎng)頁上的輿情信息所蘊含的主題,以及對這些主題進行情感分析,在事件全面爆發(fā)之前,采取應急措施。
關鍵詞:主題模型 ?網(wǎng)絡輿情系統(tǒng) ?情感分析
中圖分類號:G212 文獻標識碼:A 文章編號:1674-098X(2014)10(c)-0185-02
LDA inquiry-based Chinese minority network public opinion monitoring system
GONG Pan ? WANG Jiamei ? YANG Xiaowei
(Yunnan Minzu University, Electrical and Information Engineering, Kunming,Yunnan,650500,China)
Abstract:With the development of ethnic areas of information technology, the Chinese minority language network public opinion research has gradually attracted everyone's attention, text classification and sentiment analysis module is an important part of public opinion of the system. Traditional text classification methods, mainly through word repetitions statistics literally, and semantic association little consideration for the text behind. This article focuses on the LDA model based on minority languages ??(with Yi for example) the application of information network public opinion sentiment analysis aspects of the theme of the text implied modeling, data mining minorities through public opinion on a web page that contains the theme, as well as sentiment analysis of these topics, before the incident broke out, Bian take emergency measures.
Key Words:Topic model;network public opinion;the detection system
目前,支持少數(shù)民族語言文字的計算機軟件的應用范圍逐漸擴大,越來越多的少數(shù)民族人口開始接觸、熟悉網(wǎng)絡,使得互聯(lián)網(wǎng)迅速成為我國少數(shù)民族地區(qū)人口表達自身意愿、共享民族文化、彼此交流信息的重要媒介。采用科學的理論方法,進行中國少數(shù)民族語言網(wǎng)絡輿情信息的分析和研究,不僅是政府在現(xiàn)如今的大數(shù)據(jù)時代下實現(xiàn)科學、民主決策的基本需要,更是保證少數(shù)民族地區(qū)穩(wěn)定、繁榮的重要條件。目前,云南境內影響力較大的少數(shù)民族官方網(wǎng)站比較少,信息及輿論導向能力相對比較薄弱。有些網(wǎng)站論壇甚至轉載境外不實信息,加以報道,在一定范圍內造成了極為惡劣的影響。民族語言新聞信息,特別是時政類信息的傳播對國家安全存在極大的隱患。因此,做好網(wǎng)絡輿情信息研究工作、正確領導社會輿論、加強網(wǎng)上輿論斗爭是防止勢力滲透,建設穩(wěn)定、團結、和諧社會的迫切需要。
傳統(tǒng)判斷兩個文本相似性的方法主要是通過統(tǒng)計的方法,查看這兩個文本中共同出現(xiàn)的詞語數(shù),如TF-IDF等,但是這種方法并沒有考慮到文字背后可能存在的語義關聯(lián),兩個文本當中,共同出現(xiàn)的詞語或許很少甚至沒有,但這兩個文本卻是相似的。所以在進行文本相關性判斷的時候,需要考慮到文本的語義,而主題模型則是語義挖掘的利器,LDA就是其中比較有效的一種模型。
以LDA(Latent Dirichlet Allocation)模型[1]為代表的主題模型是近年來文本挖掘領域的一個熱門研究方向。該模型具有優(yōu)秀的降維能力以及良好的擴展性,并且能夠針對復雜系統(tǒng)進行建模。利用主題建模挖掘出的主題能夠幫助人們進一步理解海量文本所隱藏的語義,從而完成文本分類、話題檢測和關聯(lián)判斷等多方面的文本挖掘任務。彝文在少數(shù)民族語言當中具有典型性和代表性,該文以云南跨境民族語言—彝文為例,將LDA模型應用于彝文網(wǎng)絡輿情信息情感分析系統(tǒng)當中,對于潛在的語義進行探索。
1 LDA模型研究
1.1 概率主題模型的提出
主題模型(Topic Modeling)成為近年來文本挖掘領域的熱點之一,它能夠發(fā)現(xiàn)文本與詞語之間的潛在語義關系(即主題)——通過將文本看成是一組主題的混合分布,而主題又是詞語的概率分布,從而將高維度的向量空間映射到低維度的空間。即“文本-詞語”映射為“文本-主題”和“主題-詞語”,從而有效地提高了文本信息處理的性能。endprint
現(xiàn)在,計算機還不具備人腦的結構,對于自然語言的理解仍然存在一定的困難,所以需將無結構的自然語言文本轉化為可以供計算機進行識別的特征文本。向量空間模型(VSM)是20世紀60年代提出的一種文本表示模型,它將文檔表示成特征元素的集合,來表示自然語言,但其沒有體現(xiàn)詞語在文檔中出現(xiàn)的頻率,之后,基于詞頻統(tǒng)計的TF方法被提出。20世紀80年代,研究人員在TF的基礎上進行改進,又提出TF-IDF(詞頻-逆文檔頻率)技術,該技術思想簡單,容易理解,被廣泛應用。但是,該技術無法捕捉文本內部與文本間的統(tǒng)計特征,并且不能解決同義詞/多義詞的問題,因此精確度不是很高。
于1990年,Deerwester等人提出潛在語義分析LSA(Latent Semantic Analysis)模型,用于挖掘文本與詞語之間所隱含的潛在語義關聯(lián)[2]。其理論基礎是數(shù)學中的奇異值矩陣分解(SVD)技術。其優(yōu)點在于,它能夠對詞-文檔之間的關聯(lián)關系進行降維,進而減少了存儲規(guī)模,但是在計算時,迭代次數(shù)非常多,復雜度呈三次方急劇增長。
鑒于LSA存在的一些缺點,Hofmann等人于1999年提出了一種基于概率的潛在語義分析PLSA(Probabilistic Latent Semantic Analysis)模型。該模型通過引入概率統(tǒng)計的思想,避免了SVD的大量復雜度。但是隨著文本和詞的個數(shù)的增加,模型變得越來越龐大;EM算法需要進行反復迭代,因此計算量也很大。于是,Blei等人于2003年提出一種新的主題模型LDA(Latent Dirichlet Allocation),它是一個層次貝葉斯模型,將模型的參數(shù)也看作是隨機變量,從而引入控制參數(shù)的參數(shù),實現(xiàn)徹底的“概率化”。
1.2 相關工作
中國少數(shù)民族語言文字分類很多,彝文就是其中的一種,由于計算機目前還無法理解自然語言,所以需將無結構的自然語言文本轉化為可供計算機識別的特征文本。而語料庫是存儲于計算機中,并可利用計算機進行智能分析的語言素材的總體,是語言文字信息處理工作的基礎。因此,建設大型的彝文基礎語料庫,不僅為彝語語言文字規(guī)范和標準的制定提供可靠的數(shù)據(jù),也為之后進行的文本分類和情感分析工作奠定了基礎。在參考了漢語的既有分類語料庫的基礎上,結合已有的彝文語料,該文把彝文文本分類語料庫分為七類,分別為色情、軍事、化學醫(yī)療、信息科技、政治、宗教民俗。圖1是其中的一部分。
1.3 模型建立
1.3.1 LDA模型
潛在狄里克雷分布(簡稱LDA)是文本生成模型中的一種,其基本思想是文本是由潛變量確定的主題隨機混合而成的,而這些主題又可以表示為詞語的分布。
給定一個文檔集合,LDA將每個文檔表示為一個主題集合,每個主題是一個多項式分布,用來捕獲詞之間的相關信息。如圖2所示,包含詞、主題和文檔三層結構。其中θ是一個主題向量,向量的每一列表示每個主題在文檔出現(xiàn)的概率,該向量為非負歸一化向量;N表示要生成的文檔的詞語的個數(shù),W表示生成的詞語W。z表示所選擇的主題,最外層的α和β是語料層次的參數(shù),方框表示反復進行的過程,箭頭表示采樣工作,從圖中可以看出,只需要采樣一次就能夠產(chǎn)生整個語料。
1.3.2 ?LDA生成文檔
LDA方法使生成的文檔可以包含多個主題,該模型需要首先選定一個主題向量θ,從而確定每個主題被選擇的概率p(θ)。然后在生成每個詞語的時候,從主題分布向量θ中選擇一個主題z,表示給定θ時,主題z的概率分布,具體為θ的值。按主題z的單詞概率分布再生成一個詞語W,p(W|z)表示給定z時W的分布,可以看成一個k×v的矩陣,k為主題的個數(shù),v為詞語的個數(shù),每行表示這個主題對應的單詞的概率分布,即主題z所包含的各個詞的概率,通過這個概率分布,按一定的概率生成每個詞語。其圖模型如圖3所示。
通過對LDA生成模型的討論,可以知道LDA模型主要是通過給定的輸入彝文語料庫中學習訓練兩個控制參數(shù)和β,確定了這兩個控制參數(shù)就確定了模型,便可以用來生成文本。其中和β分別對應以下信息:
α:主題概率p(θ)需要一個向量參數(shù),即Dirichlet分布參數(shù),從而生成一個主題θ向量;
β:各個主題對應的詞語概率分布矩陣p(W|z)。
從上圖可知LDA的聯(lián)合概率為:
(1)
1.3.3 參數(shù)估計
對文本的建模主要就是計算α和β兩個參數(shù)??梢圆捎脴O大似然估計,找出一對α和β,使得似然函數(shù)值達到最大。可通過EM算法學習出α和β,在求解過程中,遇到后驗概率p(θ,z|w)無法直接求解,需要找到一個似然函數(shù)下界來近似求解,每次E-step輸入α和β,再計算似然函數(shù),經(jīng)過M-step使這個似然函數(shù)達到最大化,算出和β,不斷迭代,直到其收斂。
2 主題模型在彝文文本情感分析中的應用
文本情感分析,又稱意見挖掘(Opinion Mining),指對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程;屬于計算語言學的范疇,涉及到機器學習[3]、數(shù)據(jù)挖掘、自然語言處理等多個研究領域。與客觀性文本不同的是,主觀色彩濃厚的信息往往蘊含著大眾輿論對問題的看法,對政府部門具有十分重要的參考價值,例如:政府各部門需要全面掌握大眾對其所管轄區(qū)域的新聞事件的思想動態(tài),如果采用人工方式來收集和分析這些海量信息,顯然成本高、效率低并且困難,通過利用計算機將非結構化的文本進行分類[4]和提取的文本情感分析技術(Text Sentiment Analysis)應運而生。通過挖掘網(wǎng)頁所蘊含的主題,以及分析這些主題的情感偏好,來提高文本情感分析的性能。
從技術實現(xiàn)的角度,LDA及其擴展模型可以直接應用于用戶評論文本挖掘中?;诖?,有些研究人員提出從“詞語-句子-段落-文檔”角度進行多粒度劃分的方法。從系統(tǒng)設計的角度,基于主題模型的文本情感分析系統(tǒng)主要包括以下部分:信息采集與預處理(如網(wǎng)頁爬取、去噪處理、彝文分詞、停用詞處理等)、主題抽取、情感詞抽?。ㄒ臀碾娮釉~典已經(jīng)建立)、主題的情感分類或評分、主題情感摘要生成(方便用戶直接了解主題)、系統(tǒng)評測等。
3 結語
盡管現(xiàn)階段我國少數(shù)民族語言網(wǎng)絡輿情研究系統(tǒng)并不多,但是從推進少數(shù)民族地區(qū)的民主管理和社會穩(wěn)定的長遠需求來看,進行少數(shù)民族語言網(wǎng)絡輿情領域的理論研究,開發(fā)能夠進行智能分析的網(wǎng)絡輿情監(jiān)測系統(tǒng),對維護國家民族地區(qū)社會的繁榮和穩(wěn)定具有非常重要的現(xiàn)實意義。該文將LDA主題模型應用到少數(shù)民族語言網(wǎng)絡輿情信息情感分析當中,來對網(wǎng)絡輿情信息進行深入分析,對政府部門做出貢獻。
參考文獻
[1] 翁偉,王厚峰.基于LDA的關鍵詞抽取方法[C]//第五屆全國青年計算語言學研討會論文集,2010.
[2] 周博,岑榮偉,劉奕群,等.一種基于文檔相似度的檢索結果重排序方法[J].中文信息學報,2010,24(3):1849-1859.
[3] C.C.Chang,C.J.Lin.LIBSVM: a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):27.
[4] 奉國和.文本分類性能評價研究[J].情報雜志,2011,30(8):66-70.
[5] Wintersong.臺灣大學NTUSD-簡體中文情感極性詞典[DB/OL].[2011-10-25].http://www.datatang.com/data/11837.endprint
現(xiàn)在,計算機還不具備人腦的結構,對于自然語言的理解仍然存在一定的困難,所以需將無結構的自然語言文本轉化為可以供計算機進行識別的特征文本。向量空間模型(VSM)是20世紀60年代提出的一種文本表示模型,它將文檔表示成特征元素的集合,來表示自然語言,但其沒有體現(xiàn)詞語在文檔中出現(xiàn)的頻率,之后,基于詞頻統(tǒng)計的TF方法被提出。20世紀80年代,研究人員在TF的基礎上進行改進,又提出TF-IDF(詞頻-逆文檔頻率)技術,該技術思想簡單,容易理解,被廣泛應用。但是,該技術無法捕捉文本內部與文本間的統(tǒng)計特征,并且不能解決同義詞/多義詞的問題,因此精確度不是很高。
于1990年,Deerwester等人提出潛在語義分析LSA(Latent Semantic Analysis)模型,用于挖掘文本與詞語之間所隱含的潛在語義關聯(lián)[2]。其理論基礎是數(shù)學中的奇異值矩陣分解(SVD)技術。其優(yōu)點在于,它能夠對詞-文檔之間的關聯(lián)關系進行降維,進而減少了存儲規(guī)模,但是在計算時,迭代次數(shù)非常多,復雜度呈三次方急劇增長。
鑒于LSA存在的一些缺點,Hofmann等人于1999年提出了一種基于概率的潛在語義分析PLSA(Probabilistic Latent Semantic Analysis)模型。該模型通過引入概率統(tǒng)計的思想,避免了SVD的大量復雜度。但是隨著文本和詞的個數(shù)的增加,模型變得越來越龐大;EM算法需要進行反復迭代,因此計算量也很大。于是,Blei等人于2003年提出一種新的主題模型LDA(Latent Dirichlet Allocation),它是一個層次貝葉斯模型,將模型的參數(shù)也看作是隨機變量,從而引入控制參數(shù)的參數(shù),實現(xiàn)徹底的“概率化”。
1.2 相關工作
中國少數(shù)民族語言文字分類很多,彝文就是其中的一種,由于計算機目前還無法理解自然語言,所以需將無結構的自然語言文本轉化為可供計算機識別的特征文本。而語料庫是存儲于計算機中,并可利用計算機進行智能分析的語言素材的總體,是語言文字信息處理工作的基礎。因此,建設大型的彝文基礎語料庫,不僅為彝語語言文字規(guī)范和標準的制定提供可靠的數(shù)據(jù),也為之后進行的文本分類和情感分析工作奠定了基礎。在參考了漢語的既有分類語料庫的基礎上,結合已有的彝文語料,該文把彝文文本分類語料庫分為七類,分別為色情、軍事、化學醫(yī)療、信息科技、政治、宗教民俗。圖1是其中的一部分。
1.3 模型建立
1.3.1 LDA模型
潛在狄里克雷分布(簡稱LDA)是文本生成模型中的一種,其基本思想是文本是由潛變量確定的主題隨機混合而成的,而這些主題又可以表示為詞語的分布。
給定一個文檔集合,LDA將每個文檔表示為一個主題集合,每個主題是一個多項式分布,用來捕獲詞之間的相關信息。如圖2所示,包含詞、主題和文檔三層結構。其中θ是一個主題向量,向量的每一列表示每個主題在文檔出現(xiàn)的概率,該向量為非負歸一化向量;N表示要生成的文檔的詞語的個數(shù),W表示生成的詞語W。z表示所選擇的主題,最外層的α和β是語料層次的參數(shù),方框表示反復進行的過程,箭頭表示采樣工作,從圖中可以看出,只需要采樣一次就能夠產(chǎn)生整個語料。
1.3.2 ?LDA生成文檔
LDA方法使生成的文檔可以包含多個主題,該模型需要首先選定一個主題向量θ,從而確定每個主題被選擇的概率p(θ)。然后在生成每個詞語的時候,從主題分布向量θ中選擇一個主題z,表示給定θ時,主題z的概率分布,具體為θ的值。按主題z的單詞概率分布再生成一個詞語W,p(W|z)表示給定z時W的分布,可以看成一個k×v的矩陣,k為主題的個數(shù),v為詞語的個數(shù),每行表示這個主題對應的單詞的概率分布,即主題z所包含的各個詞的概率,通過這個概率分布,按一定的概率生成每個詞語。其圖模型如圖3所示。
通過對LDA生成模型的討論,可以知道LDA模型主要是通過給定的輸入彝文語料庫中學習訓練兩個控制參數(shù)和β,確定了這兩個控制參數(shù)就確定了模型,便可以用來生成文本。其中和β分別對應以下信息:
α:主題概率p(θ)需要一個向量參數(shù),即Dirichlet分布參數(shù),從而生成一個主題θ向量;
β:各個主題對應的詞語概率分布矩陣p(W|z)。
從上圖可知LDA的聯(lián)合概率為:
(1)
1.3.3 參數(shù)估計
對文本的建模主要就是計算α和β兩個參數(shù)??梢圆捎脴O大似然估計,找出一對α和β,使得似然函數(shù)值達到最大??赏ㄟ^EM算法學習出α和β,在求解過程中,遇到后驗概率p(θ,z|w)無法直接求解,需要找到一個似然函數(shù)下界來近似求解,每次E-step輸入α和β,再計算似然函數(shù),經(jīng)過M-step使這個似然函數(shù)達到最大化,算出和β,不斷迭代,直到其收斂。
2 主題模型在彝文文本情感分析中的應用
文本情感分析,又稱意見挖掘(Opinion Mining),指對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程;屬于計算語言學的范疇,涉及到機器學習[3]、數(shù)據(jù)挖掘、自然語言處理等多個研究領域。與客觀性文本不同的是,主觀色彩濃厚的信息往往蘊含著大眾輿論對問題的看法,對政府部門具有十分重要的參考價值,例如:政府各部門需要全面掌握大眾對其所管轄區(qū)域的新聞事件的思想動態(tài),如果采用人工方式來收集和分析這些海量信息,顯然成本高、效率低并且困難,通過利用計算機將非結構化的文本進行分類[4]和提取的文本情感分析技術(Text Sentiment Analysis)應運而生。通過挖掘網(wǎng)頁所蘊含的主題,以及分析這些主題的情感偏好,來提高文本情感分析的性能。
從技術實現(xiàn)的角度,LDA及其擴展模型可以直接應用于用戶評論文本挖掘中?;诖?,有些研究人員提出從“詞語-句子-段落-文檔”角度進行多粒度劃分的方法。從系統(tǒng)設計的角度,基于主題模型的文本情感分析系統(tǒng)主要包括以下部分:信息采集與預處理(如網(wǎng)頁爬取、去噪處理、彝文分詞、停用詞處理等)、主題抽取、情感詞抽?。ㄒ臀碾娮釉~典已經(jīng)建立)、主題的情感分類或評分、主題情感摘要生成(方便用戶直接了解主題)、系統(tǒng)評測等。
3 結語
盡管現(xiàn)階段我國少數(shù)民族語言網(wǎng)絡輿情研究系統(tǒng)并不多,但是從推進少數(shù)民族地區(qū)的民主管理和社會穩(wěn)定的長遠需求來看,進行少數(shù)民族語言網(wǎng)絡輿情領域的理論研究,開發(fā)能夠進行智能分析的網(wǎng)絡輿情監(jiān)測系統(tǒng),對維護國家民族地區(qū)社會的繁榮和穩(wěn)定具有非常重要的現(xiàn)實意義。該文將LDA主題模型應用到少數(shù)民族語言網(wǎng)絡輿情信息情感分析當中,來對網(wǎng)絡輿情信息進行深入分析,對政府部門做出貢獻。
參考文獻
[1] 翁偉,王厚峰.基于LDA的關鍵詞抽取方法[C]//第五屆全國青年計算語言學研討會論文集,2010.
[2] 周博,岑榮偉,劉奕群,等.一種基于文檔相似度的檢索結果重排序方法[J].中文信息學報,2010,24(3):1849-1859.
[3] C.C.Chang,C.J.Lin.LIBSVM: a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):27.
[4] 奉國和.文本分類性能評價研究[J].情報雜志,2011,30(8):66-70.
[5] Wintersong.臺灣大學NTUSD-簡體中文情感極性詞典[DB/OL].[2011-10-25].http://www.datatang.com/data/11837.endprint
現(xiàn)在,計算機還不具備人腦的結構,對于自然語言的理解仍然存在一定的困難,所以需將無結構的自然語言文本轉化為可以供計算機進行識別的特征文本。向量空間模型(VSM)是20世紀60年代提出的一種文本表示模型,它將文檔表示成特征元素的集合,來表示自然語言,但其沒有體現(xiàn)詞語在文檔中出現(xiàn)的頻率,之后,基于詞頻統(tǒng)計的TF方法被提出。20世紀80年代,研究人員在TF的基礎上進行改進,又提出TF-IDF(詞頻-逆文檔頻率)技術,該技術思想簡單,容易理解,被廣泛應用。但是,該技術無法捕捉文本內部與文本間的統(tǒng)計特征,并且不能解決同義詞/多義詞的問題,因此精確度不是很高。
于1990年,Deerwester等人提出潛在語義分析LSA(Latent Semantic Analysis)模型,用于挖掘文本與詞語之間所隱含的潛在語義關聯(lián)[2]。其理論基礎是數(shù)學中的奇異值矩陣分解(SVD)技術。其優(yōu)點在于,它能夠對詞-文檔之間的關聯(lián)關系進行降維,進而減少了存儲規(guī)模,但是在計算時,迭代次數(shù)非常多,復雜度呈三次方急劇增長。
鑒于LSA存在的一些缺點,Hofmann等人于1999年提出了一種基于概率的潛在語義分析PLSA(Probabilistic Latent Semantic Analysis)模型。該模型通過引入概率統(tǒng)計的思想,避免了SVD的大量復雜度。但是隨著文本和詞的個數(shù)的增加,模型變得越來越龐大;EM算法需要進行反復迭代,因此計算量也很大。于是,Blei等人于2003年提出一種新的主題模型LDA(Latent Dirichlet Allocation),它是一個層次貝葉斯模型,將模型的參數(shù)也看作是隨機變量,從而引入控制參數(shù)的參數(shù),實現(xiàn)徹底的“概率化”。
1.2 相關工作
中國少數(shù)民族語言文字分類很多,彝文就是其中的一種,由于計算機目前還無法理解自然語言,所以需將無結構的自然語言文本轉化為可供計算機識別的特征文本。而語料庫是存儲于計算機中,并可利用計算機進行智能分析的語言素材的總體,是語言文字信息處理工作的基礎。因此,建設大型的彝文基礎語料庫,不僅為彝語語言文字規(guī)范和標準的制定提供可靠的數(shù)據(jù),也為之后進行的文本分類和情感分析工作奠定了基礎。在參考了漢語的既有分類語料庫的基礎上,結合已有的彝文語料,該文把彝文文本分類語料庫分為七類,分別為色情、軍事、化學醫(yī)療、信息科技、政治、宗教民俗。圖1是其中的一部分。
1.3 模型建立
1.3.1 LDA模型
潛在狄里克雷分布(簡稱LDA)是文本生成模型中的一種,其基本思想是文本是由潛變量確定的主題隨機混合而成的,而這些主題又可以表示為詞語的分布。
給定一個文檔集合,LDA將每個文檔表示為一個主題集合,每個主題是一個多項式分布,用來捕獲詞之間的相關信息。如圖2所示,包含詞、主題和文檔三層結構。其中θ是一個主題向量,向量的每一列表示每個主題在文檔出現(xiàn)的概率,該向量為非負歸一化向量;N表示要生成的文檔的詞語的個數(shù),W表示生成的詞語W。z表示所選擇的主題,最外層的α和β是語料層次的參數(shù),方框表示反復進行的過程,箭頭表示采樣工作,從圖中可以看出,只需要采樣一次就能夠產(chǎn)生整個語料。
1.3.2 ?LDA生成文檔
LDA方法使生成的文檔可以包含多個主題,該模型需要首先選定一個主題向量θ,從而確定每個主題被選擇的概率p(θ)。然后在生成每個詞語的時候,從主題分布向量θ中選擇一個主題z,表示給定θ時,主題z的概率分布,具體為θ的值。按主題z的單詞概率分布再生成一個詞語W,p(W|z)表示給定z時W的分布,可以看成一個k×v的矩陣,k為主題的個數(shù),v為詞語的個數(shù),每行表示這個主題對應的單詞的概率分布,即主題z所包含的各個詞的概率,通過這個概率分布,按一定的概率生成每個詞語。其圖模型如圖3所示。
通過對LDA生成模型的討論,可以知道LDA模型主要是通過給定的輸入彝文語料庫中學習訓練兩個控制參數(shù)和β,確定了這兩個控制參數(shù)就確定了模型,便可以用來生成文本。其中和β分別對應以下信息:
α:主題概率p(θ)需要一個向量參數(shù),即Dirichlet分布參數(shù),從而生成一個主題θ向量;
β:各個主題對應的詞語概率分布矩陣p(W|z)。
從上圖可知LDA的聯(lián)合概率為:
(1)
1.3.3 參數(shù)估計
對文本的建模主要就是計算α和β兩個參數(shù)??梢圆捎脴O大似然估計,找出一對α和β,使得似然函數(shù)值達到最大??赏ㄟ^EM算法學習出α和β,在求解過程中,遇到后驗概率p(θ,z|w)無法直接求解,需要找到一個似然函數(shù)下界來近似求解,每次E-step輸入α和β,再計算似然函數(shù),經(jīng)過M-step使這個似然函數(shù)達到最大化,算出和β,不斷迭代,直到其收斂。
2 主題模型在彝文文本情感分析中的應用
文本情感分析,又稱意見挖掘(Opinion Mining),指對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程;屬于計算語言學的范疇,涉及到機器學習[3]、數(shù)據(jù)挖掘、自然語言處理等多個研究領域。與客觀性文本不同的是,主觀色彩濃厚的信息往往蘊含著大眾輿論對問題的看法,對政府部門具有十分重要的參考價值,例如:政府各部門需要全面掌握大眾對其所管轄區(qū)域的新聞事件的思想動態(tài),如果采用人工方式來收集和分析這些海量信息,顯然成本高、效率低并且困難,通過利用計算機將非結構化的文本進行分類[4]和提取的文本情感分析技術(Text Sentiment Analysis)應運而生。通過挖掘網(wǎng)頁所蘊含的主題,以及分析這些主題的情感偏好,來提高文本情感分析的性能。
從技術實現(xiàn)的角度,LDA及其擴展模型可以直接應用于用戶評論文本挖掘中?;诖?,有些研究人員提出從“詞語-句子-段落-文檔”角度進行多粒度劃分的方法。從系統(tǒng)設計的角度,基于主題模型的文本情感分析系統(tǒng)主要包括以下部分:信息采集與預處理(如網(wǎng)頁爬取、去噪處理、彝文分詞、停用詞處理等)、主題抽取、情感詞抽?。ㄒ臀碾娮釉~典已經(jīng)建立)、主題的情感分類或評分、主題情感摘要生成(方便用戶直接了解主題)、系統(tǒng)評測等。
3 結語
盡管現(xiàn)階段我國少數(shù)民族語言網(wǎng)絡輿情研究系統(tǒng)并不多,但是從推進少數(shù)民族地區(qū)的民主管理和社會穩(wěn)定的長遠需求來看,進行少數(shù)民族語言網(wǎng)絡輿情領域的理論研究,開發(fā)能夠進行智能分析的網(wǎng)絡輿情監(jiān)測系統(tǒng),對維護國家民族地區(qū)社會的繁榮和穩(wěn)定具有非常重要的現(xiàn)實意義。該文將LDA主題模型應用到少數(shù)民族語言網(wǎng)絡輿情信息情感分析當中,來對網(wǎng)絡輿情信息進行深入分析,對政府部門做出貢獻。
參考文獻
[1] 翁偉,王厚峰.基于LDA的關鍵詞抽取方法[C]//第五屆全國青年計算語言學研討會論文集,2010.
[2] 周博,岑榮偉,劉奕群,等.一種基于文檔相似度的檢索結果重排序方法[J].中文信息學報,2010,24(3):1849-1859.
[3] C.C.Chang,C.J.Lin.LIBSVM: a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):27.
[4] 奉國和.文本分類性能評價研究[J].情報雜志,2011,30(8):66-70.
[5] Wintersong.臺灣大學NTUSD-簡體中文情感極性詞典[DB/OL].[2011-10-25].http://www.datatang.com/data/11837.endprint