亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于在線研討平臺的言語行為分類體系構(gòu)建

        2013-08-15 00:49:10
        長江大學學報(社會科學版) 2013年4期
        關(guān)鍵詞:分類特征方法

        胡 萍

        (合肥學院 管理系,安徽 合肥 230022)

        以群件、即時通訊工具、網(wǎng)絡(luò)論壇、新聞和郵件列表為代表的在線群體研討平臺產(chǎn)生的海量數(shù)據(jù)[1],常常超出其處理信息的能力。依靠傳統(tǒng)人工分析文本的做法,不僅費時、費錢、費力,而且通常不能全天循環(huán)工作[2]。因此,基于在線研討平臺的言語行為分類體系研究,即研究如何讓機器自動分析文本,判斷研討狀態(tài),并根據(jù)這些數(shù)據(jù)為討論群體提供半自動或自動的干涉和輔助,就成為一個非常有意義的課題。

        言語行為理論[3]認為,人們說話的同時是在實施某種行為,這種行為是通過語言表達完成的。一個言語行為體系由兩個因素組成。一方面,對言語行為的標注必須十分清晰,這樣才有足夠的識別力。如果不是這樣,標注者之間的統(tǒng)一性就會很低。另一方面,定義一個可以重用的分類體系可以提高效率,因為這樣的分類體系可以很容易地應(yīng)用于其他領(lǐng)域。大多數(shù)時候,人們會采用一部分已有的言語行為類別,然后自定義一些言語行為類別。

        研討理論(Argumentation Theory)[4]是用來描述如何研討的理論。Toulmin提出了一套比較完備的知識表達結(jié)構(gòu),用來支持辯論過程中的知識表達和文本組織。Brockriede和Ehninger采用Toulmin的觀點,將研討描述為“從事實出發(fā),通過推理,最后得出結(jié)論”[5]。

        一、選擇兩種典型的在線研討平臺作為研究環(huán)境

        根據(jù)研討的時間、人力、資源壓力,我們可以將在線研討平臺分為同步研討和異步研討兩種工作平臺。同步研討就是所有用戶同時在線,并在有時間壓力的情況下進行討論交流;異步研討就是用戶根據(jù)自己的時間安排選擇適當?shù)臅r候上線,在沒有時間壓力的情況下進行討論交流。同步研討平臺和異步研討平臺是兩種最具代表性的在線研討平臺。

        在研究過程中,首先,收集研討平臺對應(yīng)的語言資料,提出相應(yīng)的言語行為分類體系;然后,在語料標注和正確選擇初始特征集的基礎(chǔ)上,設(shè)計言語行為分類所用的機器學習算法;在學習算法設(shè)計好以后,再進行系統(tǒng)評估。在整個研究過程中,各個步驟可能需要反復(fù)多次調(diào)整,才能達到較好的效果。因此,這是一個螺旋式推進的過程。

        二、構(gòu)建在線研討言語行為分類體系

        為了構(gòu)建在線研討言語行為分類體系,需要收集大量的語言資料,聘請專家閱讀這些資料,在前人類似研究的基礎(chǔ)上提出新的言語行為分類體系,并且,這個體系需要通過評估者間的信度測試。為了說明一個言語行為分類對于研討是有效的,我們需要保證這個分類是客觀存在并且可重復(fù)操作和調(diào)整的,方法就是測試評估者間的信度。評估者間的信度給出了測量不同主觀判斷之間一致性的值。如果評估者之間沒有足夠的一致性,要么是因為前期指標設(shè)計有問題,要么是因為評估者理解指標有缺陷。

        語料標注。語料標注就是人工標注發(fā)言所屬的行為,有時還要手工標注關(guān)鍵特征。語料標注工作量比較大,也是解決分類問題和基于機器學習算法必不可少的內(nèi)容。為了進行語料標注,首先需要制定一個標準格式?;赬ML語法的標注方法是目前比較流行的,因為XML格式的數(shù)據(jù)本身能夠自說明,并且有眾多的工具可以進行后期處理。當資料較多、標注任務(wù)較繁重時,一個人難以完成。如果讓幾個人來標注語料,在開始標注前就應(yīng)該對所有標注者進行培訓,只有所有標注者間的信度達到預(yù)定的水平,正式的標注工作才可以開始,這樣結(jié)果才能達到足夠的一致性。

        初始特征集的選擇。許多特征類別包含的特征數(shù)目是固定不變的。例如,句法特征中的標點符號特征的個數(shù)就是固定的,因為標點符號的個數(shù)是固定的;鏈接特征、風格特征和用戶特征的個數(shù)也是固定的。但是,言語行為分類的一個巨大挑戰(zhàn)是特征空間的維數(shù)過大。由于采用向量空間模型,原始特征空間通常由出現(xiàn)在文檔中的唯一的terms(words或phrases)組成,而一個中等大小的文本集合可能包含幾萬到幾十萬個terms。這樣的維數(shù)對于許多學習算法來說都過大了。因此,在不影響分類精度的情況下,減少原始的維數(shù)就變得非常必要。而且,自動實現(xiàn)這一目標也非常重要,即不需要手工定義或構(gòu)建特征。自動特征選擇方法包括根據(jù)語料統(tǒng)計除去那些無關(guān)的terms,以及通過將低層特征(如terms)合并成高層的正交維數(shù)的方法來構(gòu)建新的特征?;趎-grams的特征數(shù)目幾乎是無窮的。因此,n-grams空間的大小成為言語分類過程中非常重要的一個閥值。

        設(shè)計機器學習算法。在語料標注和正確選擇初始特征集的基礎(chǔ)上,設(shè)計機器學習算法,最終完成對言語行為的有效分類。言語行為分類可以采用多種機器學習算法。其中最為成功的兩種方法是基于轉(zhuǎn)換的學習(Transformation Based Learning,TBL)和支持向量機(Support Vector Machine,SVM)。TBL算法以帶有一定激發(fā)環(huán)境的轉(zhuǎn)換式的方式存在,獲取所需的規(guī)則,易懂直觀,這樣既不需要花費大量的機器存儲空間,又可從一定程度上避免數(shù)據(jù)稀疏的問題。其基本思想是,用已標注過的文字作為訓練資料庫。首先采用一種初始標注方法對語料進行標注,然后將結(jié)果與正確的文本進行對比,通過預(yù)先設(shè)計好的目標函數(shù)和轉(zhuǎn)換模板,找出應(yīng)用轉(zhuǎn)換模板后標注錯誤次數(shù)最少的轉(zhuǎn)換式,作為系統(tǒng)的新的標注規(guī)則,再用該規(guī)則重新標注語料。重復(fù)上述過程,每次轉(zhuǎn)化都會得到一條新的規(guī)則,直到找不出有價值的規(guī)則為止。SVM算法是一種實現(xiàn)了結(jié)構(gòu)風險最小化的方法,其被廣泛應(yīng)用于模式識別和機器學習,也被應(yīng)用于言語行為分類。它的機器學習策略是保持經(jīng)驗風險值固定而最小化置信范圍。SVM算法通過核函數(shù)將向量映射到一個更大維數(shù)的空間中,在這個空間里建立一個最大間隔超平面來將兩類樣本點分開,從而縮小n-grams空間,緩解數(shù)據(jù)稀疏問題和過擬合的問題。

        三、系統(tǒng)評估

        常用的評估機器學習性能的方法有n-fold cross validation和 bootstrap兩種。N-fold cross validation方法將數(shù)據(jù)分成n(通常n=10)份,將其中n-1份作為訓練數(shù)據(jù),最后1份作為測試數(shù)據(jù)。系統(tǒng)的綜合性能就是這n次結(jié)果的平均值。Bootstrap方法則是從訓練集中用隨機的方法選擇一定數(shù)量的數(shù)據(jù)作為測試原始集,其他的數(shù)據(jù)作為訓練集。這樣重復(fù)n(通常n=50)次,這n次的測試結(jié)果就是系統(tǒng)的綜合性能。人們可以根據(jù)研究問題的不同特征,選擇適合在線研討平臺的系統(tǒng)評估方法。

        [1] Koppel M.,Argamon S.,Shimoni A.R.Automatically Categorizing Written Texts by Author Gender[J].Literary and Linguistic Computing,2002(4).

        [2] 程少川,張朋柱.電子公共大腦設(shè)計的信息組織研究[J].西安交通大學學報(社會科學版),2001(1).

        [3] Li,J.,Zhang,P.Z.,Cao,J.W.External Concept Support for Group Support Systems through Web Mining[J].Journal of the American Society for Information Science and Technology,2009(5).

        [4] Limayem M.,DeSanctis G.Providing Decisional Guidance for Multicriteria Decision Making in Groups[J].Information Systems Research,2000(4).

        [5] 蔣御柱,張朋柱,張興學.群體研討支持系統(tǒng)中的智能可視化研究[J].管理科學學報,2009(3).

        猜你喜歡
        分類特征方法
        分類算一算
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        无码gogo大胆啪啪艺术| 国产人成在线免费视频| 好看的中文字幕中文在线| 丰满女人猛烈进入视频免费网站| 免费无码又黄又爽又刺激| 亚洲熟妇少妇任你躁在线观看| 97无码人妻一区二区三区蜜臀 | 国产亚洲精品久久久久久国模美| 亚洲欧美激情精品一区二区| 久久九九有精品国产尤物| 91亚洲国产成人久久精品网站| 亚洲av男人的天堂一区| 国内精品人妻无码久久久影院| 推油少妇久久99久久99久久| 国产AV无码无遮挡毛片| 少妇激情高潮视频网站| 无码人妻一区二区三区兔费 | 精品福利视频一区二区三区| 成人永久福利在线观看不卡| 字幕网中文字幕精品一区| 刺激一区仑乱| 欧洲熟妇色xxxx欧美老妇多毛网站| 国产91一区二这在线播放| 一区二区三区亚洲免费| 日日日日做夜夜夜夜做无码| 日本乱子人伦在线视频| 国产精品亚洲综合天堂夜夜| 伊人久久大香线蕉av最新午夜| 中文字幕网伦射乱中文| 久久婷婷综合色丁香五月| 亚洲啊啊啊一区二区三区| 亚洲中文av中文字幕艳妇| 99久久免费国产精品| 久久精品国产亚洲vr| 开心激情网,开心五月天| 公和我做好爽添厨房| 亚洲av无码第一区二区三区 | 久久99精品这里精品动漫6| 美女免费观看一区二区三区| 九九久久99综合一区二区| 国内免费AV网站在线观看|