亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于在線研討平臺的言語行為分類體系構(gòu)建

2013-08-15 00:49:10胡萍

長江大學學報(社會科學版) 2013年4期

胡萍

（合肥學院管理系，安徽合肥 230022）

以群件、即時通訊工具、網(wǎng)絡(luò)論壇、新聞和郵件列表為代表的在線群體研討平臺產(chǎn)生的海量數(shù)據(jù)［1］，常常超出其處理信息的能力。依靠傳統(tǒng)人工分析文本的做法，不僅費時、費錢、費力，而且通常不能全天循環(huán)工作［2］。因此，基于在線研討平臺的言語行為分類體系研究，即研究如何讓機器自動分析文本，判斷研討狀態(tài)，并根據(jù)這些數(shù)據(jù)為討論群體提供半自動或自動的干涉和輔助，就成為一個非常有意義的課題。

言語行為理論［3］認為，人們說話的同時是在實施某種行為，這種行為是通過語言表達完成的。一個言語行為體系由兩個因素組成。一方面，對言語行為的標注必須十分清晰，這樣才有足夠的識別力。如果不是這樣，標注者之間的統(tǒng)一性就會很低。另一方面，定義一個可以重用的分類體系可以提高效率，因為這樣的分類體系可以很容易地應(yīng)用于其他領(lǐng)域。大多數(shù)時候，人們會采用一部分已有的言語行為類別，然后自定義一些言語行為類別。

研討理論（Argumentation Theory）［4］是用來描述如何研討的理論。Toulmin提出了一套比較完備的知識表達結(jié)構(gòu)，用來支持辯論過程中的知識表達和文本組織。Brockriede和Ehninger采用Toulmin的觀點，將研討描述為“從事實出發(fā)，通過推理，最后得出結(jié)論”［5］。

一、選擇兩種典型的在線研討平臺作為研究環(huán)境

根據(jù)研討的時間、人力、資源壓力，我們可以將在線研討平臺分為同步研討和異步研討兩種工作平臺。同步研討就是所有用戶同時在線，并在有時間壓力的情況下進行討論交流；異步研討就是用戶根據(jù)自己的時間安排選擇適當?shù)臅r候上線，在沒有時間壓力的情況下進行討論交流。同步研討平臺和異步研討平臺是兩種最具代表性的在線研討平臺。

在研究過程中，首先，收集研討平臺對應(yīng)的語言資料，提出相應(yīng)的言語行為分類體系；然后，在語料標注和正確選擇初始特征集的基礎(chǔ)上，設(shè)計言語行為分類所用的機器學習算法；在學習算法設(shè)計好以后，再進行系統(tǒng)評估。在整個研究過程中，各個步驟可能需要反復(fù)多次調(diào)整，才能達到較好的效果。因此，這是一個螺旋式推進的過程。

二、構(gòu)建在線研討言語行為分類體系

為了構(gòu)建在線研討言語行為分類體系，需要收集大量的語言資料，聘請專家閱讀這些資料，在前人類似研究的基礎(chǔ)上提出新的言語行為分類體系，并且，這個體系需要通過評估者間的信度測試。為了說明一個言語行為分類對于研討是有效的，我們需要保證這個分類是客觀存在并且可重復(fù)操作和調(diào)整的，方法就是測試評估者間的信度。評估者間的信度給出了測量不同主觀判斷之間一致性的值。如果評估者之間沒有足夠的一致性，要么是因為前期指標設(shè)計有問題，要么是因為評估者理解指標有缺陷。

語料標注。語料標注就是人工標注發(fā)言所屬的行為，有時還要手工標注關(guān)鍵特征。語料標注工作量比較大，也是解決分類問題和基于機器學習算法必不可少的內(nèi)容。為了進行語料標注，首先需要制定一個標準格式?；赬ML語法的標注方法是目前比較流行的，因為XML格式的數(shù)據(jù)本身能夠自說明，并且有眾多的工具可以進行后期處理。當資料較多、標注任務(wù)較繁重時，一個人難以完成。如果讓幾個人來標注語料，在開始標注前就應(yīng)該對所有標注者進行培訓，只有所有標注者間的信度達到預(yù)定的水平，正式的標注工作才可以開始，這樣結(jié)果才能達到足夠的一致性。

初始特征集的選擇。許多特征類別包含的特征數(shù)目是固定不變的。例如，句法特征中的標點符號特征的個數(shù)就是固定的，因為標點符號的個數(shù)是固定的；鏈接特征、風格特征和用戶特征的個數(shù)也是固定的。但是，言語行為分類的一個巨大挑戰(zhàn)是特征空間的維數(shù)過大。由于采用向量空間模型，原始特征空間通常由出現(xiàn)在文檔中的唯一的terms（words或phrases）組成，而一個中等大小的文本集合可能包含幾萬到幾十萬個terms。這樣的維數(shù)對于許多學習算法來說都過大了。因此，在不影響分類精度的情況下，減少原始的維數(shù)就變得非常必要。而且，自動實現(xiàn)這一目標也非常重要，即不需要手工定義或構(gòu)建特征。自動特征選擇方法包括根據(jù)語料統(tǒng)計除去那些無關(guān)的terms，以及通過將低層特征（如terms）合并成高層的正交維數(shù)的方法來構(gòu)建新的特征?；趎－grams的特征數(shù)目幾乎是無窮的。因此，n－grams空間的大小成為言語分類過程中非常重要的一個閥值。

設(shè)計機器學習算法。在語料標注和正確選擇初始特征集的基礎(chǔ)上，設(shè)計機器學習算法，最終完成對言語行為的有效分類。言語行為分類可以采用多種機器學習算法。其中最為成功的兩種方法是基于轉(zhuǎn)換的學習（Transformation Based Learning，TBL）和支持向量機（Support Vector Machine，SVM）。TBL算法以帶有一定激發(fā)環(huán)境的轉(zhuǎn)換式的方式存在，獲取所需的規(guī)則，易懂直觀，這樣既不需要花費大量的機器存儲空間，又可從一定程度上避免數(shù)據(jù)稀疏的問題。其基本思想是，用已標注過的文字作為訓練資料庫。首先采用一種初始標注方法對語料進行標注，然后將結(jié)果與正確的文本進行對比，通過預(yù)先設(shè)計好的目標函數(shù)和轉(zhuǎn)換模板，找出應(yīng)用轉(zhuǎn)換模板后標注錯誤次數(shù)最少的轉(zhuǎn)換式，作為系統(tǒng)的新的標注規(guī)則，再用該規(guī)則重新標注語料。重復(fù)上述過程，每次轉(zhuǎn)化都會得到一條新的規(guī)則，直到找不出有價值的規(guī)則為止。SVM算法是一種實現(xiàn)了結(jié)構(gòu)風險最小化的方法，其被廣泛應(yīng)用于模式識別和機器學習，也被應(yīng)用于言語行為分類。它的機器學習策略是保持經(jīng)驗風險值固定而最小化置信范圍。SVM算法通過核函數(shù)將向量映射到一個更大維數(shù)的空間中，在這個空間里建立一個最大間隔超平面來將兩類樣本點分開，從而縮小n－grams空間，緩解數(shù)據(jù)稀疏問題和過擬合的問題。

三、系統(tǒng)評估

常用的評估機器學習性能的方法有n－fold cross validation和 bootstrap兩種。N－fold cross validation方法將數(shù)據(jù)分成n（通常n＝10）份，將其中n－1份作為訓練數(shù)據(jù)，最后1份作為測試數(shù)據(jù)。系統(tǒng)的綜合性能就是這n次結(jié)果的平均值。Bootstrap方法則是從訓練集中用隨機的方法選擇一定數(shù)量的數(shù)據(jù)作為測試原始集，其他的數(shù)據(jù)作為訓練集。這樣重復(fù)n（通常n＝50）次，這n次的測試結(jié)果就是系統(tǒng)的綜合性能。人們可以根據(jù)研究問題的不同特征，選擇適合在線研討平臺的系統(tǒng)評估方法。

［1］ Koppel M.，Argamon S.，Shimoni A.R.Automatically Categorizing Written Texts by Author Gender［J］.Literary and Linguistic Computing，2002（4）.

［2］程少川，張朋柱.電子公共大腦設(shè)計的信息組織研究［J］.西安交通大學學報（社會科學版），2001（1）.

［3］ Li，J.，Zhang，P.Z.，Cao，J.W.External Concept Support for Group Support Systems through Web Mining［J］.Journal of the American Society for Information Science and Technology，2009（5）.

［4］ Limayem M.，DeSanctis G.Providing Decisional Guidance for Multicriteria Decision Making in Groups［J］.Information Systems Research，2000（4）.

［5］蔣御柱，張朋柱，張興學.群體研討支持系統(tǒng)中的智能可視化研究［J］.管理科學學報，2009（3）.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于在線研討平臺的言語行為分類體系構(gòu)建

一、選擇兩種典型的在線研討平臺作為研究環(huán)境

二、構(gòu)建在線研討言語行為分類體系

三、系統(tǒng)評估

一、選擇兩種典型的在線研討平臺作為研究環(huán)境

二、構(gòu)建在線研討言語行為分類體系

三、系統(tǒng)評估