胡 萍
(合肥學院 管理系,安徽 合肥 230022)
以群件、即時通訊工具、網(wǎng)絡(luò)論壇、新聞和郵件列表為代表的在線群體研討平臺產(chǎn)生的海量數(shù)據(jù)[1],常常超出其處理信息的能力。依靠傳統(tǒng)人工分析文本的做法,不僅費時、費錢、費力,而且通常不能全天循環(huán)工作[2]。因此,基于在線研討平臺的言語行為分類體系研究,即研究如何讓機器自動分析文本,判斷研討狀態(tài),并根據(jù)這些數(shù)據(jù)為討論群體提供半自動或自動的干涉和輔助,就成為一個非常有意義的課題。
言語行為理論[3]認為,人們說話的同時是在實施某種行為,這種行為是通過語言表達完成的。一個言語行為體系由兩個因素組成。一方面,對言語行為的標注必須十分清晰,這樣才有足夠的識別力。如果不是這樣,標注者之間的統(tǒng)一性就會很低。另一方面,定義一個可以重用的分類體系可以提高效率,因為這樣的分類體系可以很容易地應(yīng)用于其他領(lǐng)域。大多數(shù)時候,人們會采用一部分已有的言語行為類別,然后自定義一些言語行為類別。
研討理論(Argumentation Theory)[4]是用來描述如何研討的理論。Toulmin提出了一套比較完備的知識表達結(jié)構(gòu),用來支持辯論過程中的知識表達和文本組織。Brockriede和Ehninger采用Toulmin的觀點,將研討描述為“從事實出發(fā),通過推理,最后得出結(jié)論”[5]。
根據(jù)研討的時間、人力、資源壓力,我們可以將在線研討平臺分為同步研討和異步研討兩種工作平臺。同步研討就是所有用戶同時在線,并在有時間壓力的情況下進行討論交流;異步研討就是用戶根據(jù)自己的時間安排選擇適當?shù)臅r候上線,在沒有時間壓力的情況下進行討論交流。同步研討平臺和異步研討平臺是兩種最具代表性的在線研討平臺。
在研究過程中,首先,收集研討平臺對應(yīng)的語言資料,提出相應(yīng)的言語行為分類體系;然后,在語料標注和正確選擇初始特征集的基礎(chǔ)上,設(shè)計言語行為分類所用的機器學習算法;在學習算法設(shè)計好以后,再進行系統(tǒng)評估。在整個研究過程中,各個步驟可能需要反復(fù)多次調(diào)整,才能達到較好的效果。因此,這是一個螺旋式推進的過程。
為了構(gòu)建在線研討言語行為分類體系,需要收集大量的語言資料,聘請專家閱讀這些資料,在前人類似研究的基礎(chǔ)上提出新的言語行為分類體系,并且,這個體系需要通過評估者間的信度測試。為了說明一個言語行為分類對于研討是有效的,我們需要保證這個分類是客觀存在并且可重復(fù)操作和調(diào)整的,方法就是測試評估者間的信度。評估者間的信度給出了測量不同主觀判斷之間一致性的值。如果評估者之間沒有足夠的一致性,要么是因為前期指標設(shè)計有問題,要么是因為評估者理解指標有缺陷。
語料標注。語料標注就是人工標注發(fā)言所屬的行為,有時還要手工標注關(guān)鍵特征。語料標注工作量比較大,也是解決分類問題和基于機器學習算法必不可少的內(nèi)容。為了進行語料標注,首先需要制定一個標準格式?;赬ML語法的標注方法是目前比較流行的,因為XML格式的數(shù)據(jù)本身能夠自說明,并且有眾多的工具可以進行后期處理。當資料較多、標注任務(wù)較繁重時,一個人難以完成。如果讓幾個人來標注語料,在開始標注前就應(yīng)該對所有標注者進行培訓,只有所有標注者間的信度達到預(yù)定的水平,正式的標注工作才可以開始,這樣結(jié)果才能達到足夠的一致性。
初始特征集的選擇。許多特征類別包含的特征數(shù)目是固定不變的。例如,句法特征中的標點符號特征的個數(shù)就是固定的,因為標點符號的個數(shù)是固定的;鏈接特征、風格特征和用戶特征的個數(shù)也是固定的。但是,言語行為分類的一個巨大挑戰(zhàn)是特征空間的維數(shù)過大。由于采用向量空間模型,原始特征空間通常由出現(xiàn)在文檔中的唯一的terms(words或phrases)組成,而一個中等大小的文本集合可能包含幾萬到幾十萬個terms。這樣的維數(shù)對于許多學習算法來說都過大了。因此,在不影響分類精度的情況下,減少原始的維數(shù)就變得非常必要。而且,自動實現(xiàn)這一目標也非常重要,即不需要手工定義或構(gòu)建特征。自動特征選擇方法包括根據(jù)語料統(tǒng)計除去那些無關(guān)的terms,以及通過將低層特征(如terms)合并成高層的正交維數(shù)的方法來構(gòu)建新的特征?;趎-grams的特征數(shù)目幾乎是無窮的。因此,n-grams空間的大小成為言語分類過程中非常重要的一個閥值。
設(shè)計機器學習算法。在語料標注和正確選擇初始特征集的基礎(chǔ)上,設(shè)計機器學習算法,最終完成對言語行為的有效分類。言語行為分類可以采用多種機器學習算法。其中最為成功的兩種方法是基于轉(zhuǎn)換的學習(Transformation Based Learning,TBL)和支持向量機(Support Vector Machine,SVM)。TBL算法以帶有一定激發(fā)環(huán)境的轉(zhuǎn)換式的方式存在,獲取所需的規(guī)則,易懂直觀,這樣既不需要花費大量的機器存儲空間,又可從一定程度上避免數(shù)據(jù)稀疏的問題。其基本思想是,用已標注過的文字作為訓練資料庫。首先采用一種初始標注方法對語料進行標注,然后將結(jié)果與正確的文本進行對比,通過預(yù)先設(shè)計好的目標函數(shù)和轉(zhuǎn)換模板,找出應(yīng)用轉(zhuǎn)換模板后標注錯誤次數(shù)最少的轉(zhuǎn)換式,作為系統(tǒng)的新的標注規(guī)則,再用該規(guī)則重新標注語料。重復(fù)上述過程,每次轉(zhuǎn)化都會得到一條新的規(guī)則,直到找不出有價值的規(guī)則為止。SVM算法是一種實現(xiàn)了結(jié)構(gòu)風險最小化的方法,其被廣泛應(yīng)用于模式識別和機器學習,也被應(yīng)用于言語行為分類。它的機器學習策略是保持經(jīng)驗風險值固定而最小化置信范圍。SVM算法通過核函數(shù)將向量映射到一個更大維數(shù)的空間中,在這個空間里建立一個最大間隔超平面來將兩類樣本點分開,從而縮小n-grams空間,緩解數(shù)據(jù)稀疏問題和過擬合的問題。
常用的評估機器學習性能的方法有n-fold cross validation和 bootstrap兩種。N-fold cross validation方法將數(shù)據(jù)分成n(通常n=10)份,將其中n-1份作為訓練數(shù)據(jù),最后1份作為測試數(shù)據(jù)。系統(tǒng)的綜合性能就是這n次結(jié)果的平均值。Bootstrap方法則是從訓練集中用隨機的方法選擇一定數(shù)量的數(shù)據(jù)作為測試原始集,其他的數(shù)據(jù)作為訓練集。這樣重復(fù)n(通常n=50)次,這n次的測試結(jié)果就是系統(tǒng)的綜合性能。人們可以根據(jù)研究問題的不同特征,選擇適合在線研討平臺的系統(tǒng)評估方法。
[1] Koppel M.,Argamon S.,Shimoni A.R.Automatically Categorizing Written Texts by Author Gender[J].Literary and Linguistic Computing,2002(4).
[2] 程少川,張朋柱.電子公共大腦設(shè)計的信息組織研究[J].西安交通大學學報(社會科學版),2001(1).
[3] Li,J.,Zhang,P.Z.,Cao,J.W.External Concept Support for Group Support Systems through Web Mining[J].Journal of the American Society for Information Science and Technology,2009(5).
[4] Limayem M.,DeSanctis G.Providing Decisional Guidance for Multicriteria Decision Making in Groups[J].Information Systems Research,2000(4).
[5] 蔣御柱,張朋柱,張興學.群體研討支持系統(tǒng)中的智能可視化研究[J].管理科學學報,2009(3).