孫承杰,林 磊,劉秉權(quán)
(哈爾濱工業(yè)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)
隨著Web2.0技術(shù)的發(fā)展,現(xiàn)實社會中的各種知識和活動正大量被移植到互聯(lián)網(wǎng)上,例如,各種社交網(wǎng)絡(luò)、論壇和在線教育等。其中論壇是一種重要的交流形式和信息載體,它被廣泛應(yīng)用于在線客戶服務(wù)、在線社區(qū)和在線教育中。某些經(jīng)過多年發(fā)展的論壇中已經(jīng)積累了豐富的知識,這些知識在一般網(wǎng)站中是很難找到的,這使得論壇成為一個獨(dú)特而重要的知識寶藏。但是由于論壇是一個自由交流的交互性平臺,因而其中包含了太多的噪音。海量信息和包含其中的噪音讓論壇用戶越來越難找到他們需要的信息。
論壇中的每個線索可以看作是一個對話過程,每個帖子對應(yīng)著提問、回答和確認(rèn)等不同的對話行為。論壇帖子對話行為分類可以看作是論壇線索結(jié)構(gòu)分析的子任務(wù)。論壇線索結(jié)構(gòu)分析可以把按時間順序線性排列的帖子變成按對話關(guān)系排列的樹形結(jié)構(gòu),從而提高論壇信息的訪問效率,例如,文獻(xiàn)[1]表明論壇結(jié)構(gòu)分析可以提高針對論壇信息的檢索系統(tǒng)的效果。因此,對論壇的線索結(jié)構(gòu)進(jìn)行分析有重要意義。在論壇線索結(jié)構(gòu)之上,可以進(jìn)行問答對抽取[2]、基于不同級別的論壇檢索[3]和專家發(fā)現(xiàn)[4]等研究。
不同功能的論壇,其對話行為可以有不同的類別劃分,本文主要針對為用戶解答問題的論壇的線索。目前,論壇帖子對話行為分類主要采用的還是有監(jiān)督的機(jī)器學(xué)習(xí)方法,這類方法因為需要標(biāo)注訓(xùn)練數(shù)據(jù),因而成本較高,可移植性較差。本文的主要貢獻(xiàn)是提出了一種基于弱監(jiān)督學(xué)習(xí)的論壇帖子對話行為分類方法,該方法可以利用由先驗知識指定的特征約束來進(jìn)行機(jī)器學(xué)習(xí)模型參數(shù)的訓(xùn)練,具有很好的移植性。在CNET和edX數(shù)據(jù)集上的實驗結(jié)果驗證了本文提出方法的有效性。
文獻(xiàn)[5-6]把論壇帖子對話行為分類作為論壇結(jié)構(gòu)分析的子任務(wù),對比了條件隨機(jī)域(CRF)模型、SVM-HMM和最大熵模型在不同特征集上的分類效果,實驗結(jié)果表明CRF模型能夠更好地利用帖子所在的上下文特征,效果較好。文獻(xiàn)[7]提出了用threadCRF模型來尋找一個線索中帖子間的reply-to關(guān)系,把一個線索從線性結(jié)構(gòu)轉(zhuǎn)換成樹狀結(jié)構(gòu),但沒有對reply-to關(guān)系的類型進(jìn)行區(qū)分。對話行為分類還常被用到對話摘要、電子郵件分析[8]和短消息分析等應(yīng)用中。目前論壇帖子對話行為分類主要采用的還是有監(jiān)督的機(jī)器學(xué)習(xí)方法,無監(jiān)督的方法研究較少。
論壇帖子對話行為分類與貼子所在線索的類型相關(guān),文獻(xiàn)[9]利用機(jī)器學(xué)習(xí)的方法對一個在線教育論壇中的線索進(jìn)行了分類,具體的類別包括公告、問題和解釋等。主題信息對論壇對話行為分類也具有一定幫助,屬于同一個主題的帖子更有可能形成對話關(guān)系。論壇是一種交互式異步對話方式,一個線索中經(jīng)常會包含多個主題,文獻(xiàn)[10]利用論壇結(jié)構(gòu)和LDA模型對論壇中的線索進(jìn)行主題分割和標(biāo)注。
由于在線論壇中蘊(yùn)含著豐富的知識,因此針對在線論壇的信息抽取也吸引了很多研究者,跟本文比較相關(guān)的研究是問答對信息的抽取。例如,文獻(xiàn)[11]研究了論壇中的問答對抽取問題,提出了基于模式匹配的問題識別和基于圖傳播方法的答案識別方法。文獻(xiàn)[12]分析了在答案識別過程中文本相似度特征的作用,并提出了很多非文本特征。
除了細(xì)粒度的論壇信息抽取,還有很多研究者從宏觀上研究論壇數(shù)據(jù)。文獻(xiàn)[13]通過對大規(guī)模在線教育(MOOC)中的論壇數(shù)據(jù)分析學(xué)生的學(xué)習(xí)投入程度。Anderson等人[14]利用Stack Overflow論壇上的數(shù)據(jù)進(jìn)行問題的回答速度與答案質(zhì)量之間的關(guān)系分析、答案和問題的影響力預(yù)測等研究。微觀上的線索結(jié)構(gòu)分析也可以為宏觀分析提供特征,使宏觀分析的結(jié)論更有說服力。
一個線索里的帖子組成了一個對話過程,這個過程中的每個帖子可以對應(yīng)到特定類別的對話行為。假設(shè)F={T0,T1,…,Tm}表示一個論壇中所有的線索集合;每個線索T由按時間順序排列的m個帖子{p0,p1,…,pm-1}組成。論壇帖子對話行為分析的目標(biāo)是為每個帖子pi指定一個對話行為類別標(biāo)記ci。本文采用的論壇帖子對話行為類別標(biāo)記集共包含5個大類,12個小類,如表1所示。每類標(biāo)記的具體含義可以參考文獻(xiàn)[5]。
表1 對話行為類別標(biāo)記
常用于論壇帖子對話行為分類的特征主要有4類: 詞特征、帖子在線索中的結(jié)構(gòu)特征、語義特征和發(fā)帖人特征。本文主要用到的每種特征的詳細(xì)描述如下。
詞特征(Word Feature)是指利用帖子中出現(xiàn)的詞來表示帖子。本文采用TFIDF值進(jìn)行特征選擇,選取了不同數(shù)量的詞特征來進(jìn)行實驗。
帖子在線索中的結(jié)構(gòu)特征(Structure Feature)包含兩種: 1)帖子的作者是否是帖子所在線索的發(fā)起者(Initiator);2)帖子在線索中的位置(Position)。這些特征跟對話行為比較相關(guān),如線索的發(fā)起者所寫的帖子的對話行為更可能是Question類別的。
本文的語義特征包括簡單語義特征和語義相似度特征。帖子的簡單語義特征(Post Characteristic Feature)有3種,分別是帖子含有URL鏈接、問號和嘆號的數(shù)量。這些特征的類別區(qū)分性也比較強(qiáng)。例如,根據(jù)經(jīng)驗,URL鏈接經(jīng)常出現(xiàn)在Answer類別的行為中。語義相似度特征主要包括兩種: 1)帖子標(biāo)題之間的語義相似度特征(TitleSim);2)帖子內(nèi)容的語義相似度特征(PostSim)。本文采用基于詞頻的余弦相似度作為語義相似度的度量。一個帖子的TitleSim特征的值為位于該帖子之前并且與其具有最大標(biāo)題相似度的帖子與當(dāng)前帖子的相對位置。PostSim的定義與此類似。
發(fā)帖人特征(UserProfile)是指帖子的作者所具有的特征。例如,該發(fā)帖人的權(quán)威性,發(fā)帖人已經(jīng)發(fā)表的帖子的類別分布等。本文采用了發(fā)帖人的PageRank值來表示發(fā)帖人特征。利用回帖關(guān)系,所有的發(fā)帖人可以形成一個有向圖。利用這個圖,就可以計算出每個發(fā)帖人的PageRank值。Page-Rank 值大的發(fā)帖人更愿意回答別人的問題。
弱監(jiān)督學(xué)習(xí)是介于無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)之間的一類學(xué)習(xí)方法。它可以在沒有標(biāo)注樣本的情況下,利用先驗知識和未標(biāo)注樣本對機(jī)器學(xué)習(xí)的模型進(jìn)行參數(shù)估計。利用先驗知識來進(jìn)行機(jī)器學(xué)習(xí)有很多框架,本文采用的是基于廣義期望準(zhǔn)則(General-ized Expectation Criteria)的框架。廣義期望準(zhǔn)則框架是由McCallum在2007年提出的[15-16],適合與判別式模型結(jié)合進(jìn)行弱監(jiān)督學(xué)習(xí),例如,文獻(xiàn)[17]使用基于最大熵模型的廣義期望準(zhǔn)則來進(jìn)行文本分類。
廣義期望準(zhǔn)則所需要的先驗知識可以由以下方式獲?。?領(lǐng)域?qū)<胰斯ぶ付?;通過特征標(biāo)注獲取(相對于樣本標(biāo)注,特征標(biāo)注可以減少標(biāo)注的工作量);已有的標(biāo)注數(shù)據(jù)中獲取。缺少標(biāo)注數(shù)據(jù)是進(jìn)入新領(lǐng)域時經(jīng)常碰到的情形。很多情況下,相近的領(lǐng)域可能已有標(biāo)注數(shù)據(jù)。雖然兩個領(lǐng)域并不完全相同,但是存在某些同樣的特征,這些特征的約束可以從已有的標(biāo)注數(shù)據(jù)中獲取,然后用于指導(dǎo)新領(lǐng)域的模型學(xué)習(xí)。
由于廣義期望準(zhǔn)則只是定義了特征約束和模型期望之間的數(shù)值函數(shù),并沒有涉及具體的模型,因此需要和具體的機(jī)器學(xué)習(xí)模型相結(jié)合來解決實際問題。在線論壇帖子的對話行為類別受其所在的線索的對話歷史影響,因此對一個帖子的對話行為分類必須考慮其所在的線索。這樣,論壇帖子對話行為分類問題就轉(zhuǎn)化成為一個論壇線索的序列標(biāo)注問題,因此條件隨機(jī)域模型是比較合適的選擇。所以,本文采用了基于廣義期望準(zhǔn)則的條件隨機(jī)域模型(GE-CRF),模型的目標(biāo)函數(shù)如式(2)所示。
在式(2)中,θ是條件隨機(jī)域模型的參數(shù),logp(θ)是正則化項,用來約束θ的大小。logp(yL|x;θ)用來計算標(biāo)注數(shù)據(jù)的對數(shù)似然度,在沒有標(biāo)注數(shù)據(jù)的情況下,可以去掉這一項。GE-CRF模型可以采用梯度下降方法來求解參數(shù),本文使用了Mal-
let工具包*http://mallet.cs.umass.edu/來實現(xiàn)求解過程。
本文主要采用了從已有的標(biāo)注數(shù)據(jù)中獲取特征約束的方式。采用這種方式雖然增加了對標(biāo)注數(shù)據(jù)的要求,但是依然可以說明本文提出弱監(jiān)督學(xué)習(xí)方法的有效性,而且便于提高本文結(jié)果的可重復(fù)性。在實際應(yīng)用中,為了減少對訓(xùn)練數(shù)據(jù)的依賴,可以采用專家指定的方式獲取特征約束。表2給出了本文所用的特征約束示例。表2中的第1列表示特征名字,如1@Initiator表示該帖子的作者是帖子所在線索的發(fā)起者;表2中的第2列表示第1列的特征名字對應(yīng)的特征對應(yīng)的特征約束,其實質(zhì)是每個特征在每個對話行為類別上的概率分布。如第1行第2列表示如果某個論壇帖子具有1@Initiator特征,那么它是Question-question類別的概率為0.45,是Question-add類別的概率為0.3。
表2 特征約束示例
為每個類別都指定準(zhǔn)確的概率分布是很難做到的,GE-CRF并不要求完全準(zhǔn)確的概率分布約束,只要是一個大概的估計,甚至可以指定一個概率范圍。此外,GE-CRF也不需要為每個特征的每個類別都指定約束,只需要給出那些比較容易估計的特征約束就可以了,因此在表2中第2列的特征約束只給出了幾個類別的概率分布。這些性質(zhì)極大地降低了GE-CRF的使用難度。
本文采用了兩個數(shù)據(jù)集來進(jìn)行實驗。分別是CNET數(shù)據(jù)集和edX數(shù)據(jù)集。CNET數(shù)據(jù)集的數(shù)據(jù)來自CNET論壇* http://forums.cnet.com/,包含320個線索,1 332個帖子[5]。數(shù)據(jù)集的標(biāo)注采用了表1中的類別體系,其中數(shù)量最多的類別標(biāo)記是Answer-answer,占40.3%,各個類別的具體數(shù)量分布如圖1所示。從圖1中可以看出,各個類別的數(shù)量分布極不平衡,很多類別的數(shù)量比較少, Answer-correction類別甚至都沒有出現(xiàn)。
edX數(shù)據(jù)集來自MOOC網(wǎng)站edX*https://www.edx.org/上2013年春季課程“7.00x: Introduction to Biology—The Secret of Life”的課程論壇。共包含561個線索,1 977個帖子。該數(shù)據(jù)集是采用Amazon的Mechanical Turk用眾包的方式進(jìn)行標(biāo)注的。標(biāo)注集與CNET數(shù)據(jù)集相同,數(shù)量最多的類別標(biāo)記也是Answer-answer,占31.9%。
圖1 CNET和edX數(shù)據(jù)集各類別數(shù)量分布
為了便于與他人工作比較,在計算實驗結(jié)果時,本文采用了按照線索數(shù)量劃分的10-fold交叉驗證的平均結(jié)果。評價指標(biāo)采用了整體精確率(Accuracy)。對于全部測試樣本而言,分類的整體精確率與整體微平均F值(Micro-F)是相等的,因此本文的結(jié)果可以直接與文獻(xiàn)[5]中的對話行為分類結(jié)果對比。
與有監(jiān)督學(xué)習(xí)的CRF模型相比,GE-CRF的訓(xùn)練過程不需要標(biāo)注樣本,只需要有特征約束就可以了。為了在方便在訓(xùn)練過程中構(gòu)造GE-CRF模型訓(xùn)練所需的標(biāo)記轉(zhuǎn)移矩陣,本文隨機(jī)給出了每個論壇帖子對應(yīng)的對話行為類別。
本文利用最小平方差損失函數(shù)(L2)作為廣義期望項的得分函數(shù)。采用最小平方差損失函數(shù)的好處是在指定特征約束時,不需要對所有的類別進(jìn)行指定,這對于標(biāo)記比較多的任務(wù)來說非常方便。如果采用KL距離,則需要為每個特征對應(yīng)的所有類別指定特征約束。本文采用了Mallet工具包中實現(xiàn)的GE-CRF模型。
實驗的任務(wù)主要有3個: 1)測試不同特征組合的分類效果;2)比較GE-CRF和其他方法的分類效果;3)測試GE-CRF方法在不同數(shù)據(jù)集上的效果。為了完成任務(wù)1,實驗中采用了不同的特征組合方式,每種特征組合的具體實驗結(jié)果如表3所示。表3中的實驗都是在CNET數(shù)據(jù)集上進(jìn)行的。表3中的詞特征是根據(jù)TFIDF值進(jìn)行特征選擇的。由于很難直接判斷某個詞的對話行為類別偏好,因此沒有對詞特征指定特征約束。
從表3中可以看出,結(jié)構(gòu)特征對的分類效果最為明顯;語義相似度對分類效果有提升作用;沒有特征約束的詞特征對分類效果也有幫助。詞特征對分類效果的提升說明了GE-CRF模型在訓(xùn)練過程中,可以利用已有的特征約束,自動優(yōu)化沒有約束的特征,使他們發(fā)揮作用。表3中,發(fā)帖人特征沒有對分類效果起到促進(jìn)作用,可能是因為CNET數(shù)據(jù)集中的帖子數(shù)量較少,因而算出的發(fā)帖人的PageRank值不夠準(zhǔn)確。
表3 CNET數(shù)據(jù)集上不同特征組合的對話行為分類實驗結(jié)果對比
為了評價GE-CRF模型的效果,本文對比了在采用同樣特征集時,不同方法的實驗結(jié)果。表4中前兩行是兩種基準(zhǔn)方法: 第1行對應(yīng)采用大數(shù)投票(Majority voting)的方法,把所有的類別都分成Answer-answer;第2行是一種基于帖子在線索中的位置(Position-conditioned baseline)的分類方法,把每個線索中的第1個帖子分成Question-question,把其他所有的帖子都分類成Answer-answer。 從表4中可以看出,GE-CRF的分類效果超過了兩個基準(zhǔn)方法,甚至好于有監(jiān)督的CRF模型的分類效果。
表4 不同方法的對話行為分類實驗結(jié)果對比
在edX數(shù)據(jù)集上,機(jī)器學(xué)習(xí)的方法的效果和第二種基線方法相差不大,分析可能的原因有: 1)edX數(shù)據(jù)集是采用眾包方式標(biāo)注的,標(biāo)注質(zhì)量不夠高。經(jīng)過與專家標(biāo)注的少量數(shù)據(jù)比較,kappa值只有0.51*Kappa值是通過計算每類標(biāo)記的Kappa值然后通過平均得到的。;2)MOOC上的論壇的學(xué)習(xí)者背景多樣化,這種多樣化使MOOC論壇表達(dá)方式和用詞習(xí)慣比較多樣化,因而較難分析。
本文提出了一種基于弱監(jiān)督學(xué)習(xí)的在線論壇帖子對話行為分類方法。該方法以條件隨機(jī)域模型為基礎(chǔ),可以利用多種方式獲得特征約束,具有很好的可移植性。本文測試并分析了不同組合的特征分類效果。在CNET和edX兩個數(shù)據(jù)集上的實驗結(jié)果顯示了本文提出的基于最大期望準(zhǔn)則的弱監(jiān)督學(xué)習(xí)方法的有效性。
本文只是利用弱監(jiān)督學(xué)習(xí)方法對一個線索中的帖子的對話行為進(jìn)行了分類,還沒有確定每個帖子的鏈接目標(biāo)。因此,未來工作包括如何利用弱監(jiān)督學(xué)習(xí)尋找每個帖子的鏈接目標(biāo)。此外,本文采用的特征約束比較簡單,只考慮了單個特征的類別分布約束,探索更復(fù)雜的特征約束表示方法,也是未來的工作之一。
[1] Wang L, Kim S, Baldwin T. The Utility of Discourse Structure in Forum Thread Retrieval[C]//Proceedings of 9th Asia Information Retrieval Societies Conference. 2013: 284-295.
[2] 王寶勛, 劉秉權(quán), 孫承杰等. 基于論壇話題段落劃分的答案識別[J]. 自動化學(xué)報, 2013, 39(1): 11-20.
[3] Seo J, Croft W, Smith D. Online community search using thread structure[C]//Proceedings of the 18th ACM conference on Information and knowledge management. 2009: 1907-1910.
[4] Riahi F, Zolaktaf Z, Shafiei M, et al. Finding expert users in community question answering[C]//Proceedings of the 21st international conference companion on World Wide Web-WWW ’12 Companion. New York, New York, USA: ACM Press, 2012(i): 791-798.
[5] Kim S, Wang L, Baldwin T. Tagging and linking web forum posts[C]//Proceedings of the Fourteenth Conference on Computational Natural Language Learning. 2010: 192-202.
[6] Wang L, Lui M, Kim S N, et al. Predicting thread discourse structure over technical web forums[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. 2011: 13-25.
[7] Wang H, Wang C, Zhai C, et al. Learning online discussion structures by conditional random fields[C]//Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval. 2011: 435-444.
[8] Lampert A, Dale R, Paris C. The nature of requests and commitments in email messages[C]//Proceedings of the AAAI 2008 Workshop on Enhanced Messaging. 2008: 42-47.
[9] Lin F-R, Hsieh L-S, Chuang F-T. Discovering genres of online discussion threads via text mining[J]. Computers & Education, Elsevier Ltd, 2009, 52(2): 481-495.
[10] Joty S, Carenini G, Ng R T. Topic Segmentation and Labeling in Asynchronous Conversations[J]. Journal of Artificial Intelligence Research, 2013, 47: 521-573.
[11] Cong G, Wang L, Lin C-Y, et al. Finding question-answer pairs from online forums[C]//Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. New York, New York, USA: ACM Press, 2008: 467-474.
[12] Gangadhar R, Kar R. Does Similarity Matter?? The Case of Answer Extraction from Technical Discussion Forums[C]//Proceedings of COLING 2012: Posters. 2012, 1: 175-184.
[13] Ramesh A, Goldwasser D. Modeling Learner Engagement in MOOCs using Probabilistic Soft Logic[C]//Proceedings of NIPS Workshop on Data Driven Education. 2013: 1-7.
[14] Anderson A, Huttenlocher D, Kleinberg J. Discovering Value from Community Activity on Focused Question Answering Sites?: A Case Study of Stack Overflow[C]//Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. 2012: 850-858.
[15] Mccallum A, Mann G, Druck G. Generalized expectation criteria[R]. 2007.
[16] Mann G, Mccallum A. Generalized expectation criteria for semi-supervised learning with weakly labeled data[J]. The Journal of Machine Learning Research, 2010(11): 955-984.
[17] Druck G, Mann G, Mccallum A. Learning from labeled features using generalized expectation criteria[C]//Proceedings of the 31st annual international ACM SIGIR conference on research and development in information retrieval. 2008: 595-602.