亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)DE-Tri-Training算法的漢語多詞表達(dá)抽取*

        2017-02-25 02:32:59梁穎紅譚紅葉鮮學(xué)豐黃丹丹錢海忠沈春澤
        數(shù)據(jù)采集與處理 2017年1期
        關(guān)鍵詞:方法

        梁穎紅 譚紅葉 鮮學(xué)豐 黃丹丹 錢海忠 沈春澤

        (1.金陵科技學(xué)院軟件工程學(xué)院,南京,211169; 2.山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,太原,030006; 3.蘇州市職業(yè)大學(xué)計(jì)算機(jī)工程學(xué)院,蘇州,215104)

        基于改進(jìn)DE-Tri-Training算法的漢語多詞表達(dá)抽取*

        梁穎紅1譚紅葉2鮮學(xué)豐3黃丹丹1錢海忠1沈春澤1

        (1.金陵科技學(xué)院軟件工程學(xué)院,南京,211169; 2.山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,太原,030006; 3.蘇州市職業(yè)大學(xué)計(jì)算機(jī)工程學(xué)院,蘇州,215104)

        多詞表達(dá)的識別錯(cuò)誤會(huì)對很多自然語言處理任務(wù)造成不利影響。DE-Tri-Training半指導(dǎo)聚類算法在聚類初期使用有指導(dǎo)的標(biāo)注信息,取得了較好的抽取結(jié)果。本文采用基于中心詞擴(kuò)展的初始聚類中心確定方法和基于有指導(dǎo)信息的一致性協(xié)同學(xué)習(xí)數(shù)據(jù)凈化方法,提出了半指導(dǎo)策略抽取漢語多詞表達(dá),聚類算法的中后期也加入有指導(dǎo)的信息,使分類器能使用正確的標(biāo)注信息進(jìn)行訓(xùn)練。通過與DE-Tri-Training算法的對比實(shí)驗(yàn),改進(jìn)的DE-Tri-Training算法得到的漢語多詞表達(dá)抽取結(jié)果優(yōu)于原來的算法,驗(yàn)證了改進(jìn)DE-Tri-Training算法的有效性。

        多詞表達(dá);半指導(dǎo);協(xié)同訓(xùn)練

        引 言

        自然語言處理領(lǐng)域中,多詞表達(dá)(Multi-word expression,MWE)的準(zhǔn)確抽取和翻譯會(huì)影響機(jī)器翻譯、信息檢索和詞義消歧等研究的性能提升。Sag等對多詞表達(dá)的定義[1]是:把兩個(gè)或多個(gè)詞組合在一起形成的具有單一意義的單元叫做多詞表達(dá)。多詞表達(dá)被認(rèn)為是自然語言處理領(lǐng)域的難點(diǎn)和性能提升的瓶頸問題。為了規(guī)避漢語多詞表達(dá)語料的構(gòu)建,研究者大多使用英漢雙語平行語料來進(jìn)行研究[2-6],有少數(shù)的研究者先標(biāo)注小規(guī)模語料再進(jìn)行多詞表達(dá)抽取[7]。有指導(dǎo)學(xué)習(xí)方法和無指導(dǎo)學(xué)習(xí)方法是常用的語料建設(shè)方法。無指導(dǎo)學(xué)習(xí)方法不用手工標(biāo)注語料,但學(xué)習(xí)性能不太理想。半指導(dǎo)學(xué)習(xí)方法能在人工標(biāo)注和系統(tǒng)性能之間取得折中的效果,因此得到越來越多研究人員的青睞。半指導(dǎo)聚類方法使用較少的指導(dǎo)性信息,一般分為基于約束和基于距離兩大方法[8]。其中,基于約束的方法使用約束條件使得聚類的數(shù)據(jù)能夠更加快速地聚到合適的類中,受到研究者的關(guān)注[9]。Wagstaff等使用增強(qiáng)的限制條件來分派聚類的數(shù)據(jù)[10]。文獻(xiàn)[11]也使用少量的標(biāo)注數(shù)據(jù)來優(yōu)化初始的聚類中心。基于聚類的方法對初始聚類中心的確定非常重要,同時(shí)初始種子的選擇會(huì)對結(jié)果造成很大影響?;诜诸惖姆椒ㄏ葘W(xué)習(xí)標(biāo)注語料,再對未標(biāo)注語料進(jìn)行標(biāo)注,然后再把標(biāo)注的語料放到已標(biāo)注的語料中,如此反復(fù)。如果放回到標(biāo)注語料中不準(zhǔn)確的結(jié)果,會(huì)使錯(cuò)誤進(jìn)一步擴(kuò)散到下一步的標(biāo)注中。聚類和分類方法各有優(yōu)缺點(diǎn),把兩者結(jié)合,進(jìn)行優(yōu)勢互補(bǔ)是研究者們努力的方向。本文提出基于半指導(dǎo)的聚類算法進(jìn)行多詞表達(dá)抽取,解決人工標(biāo)注語料的費(fèi)時(shí)費(fèi)力問題。在半指導(dǎo)聚類算法中,DE-Tri-training算法是比較受關(guān)注的算法。從2003年開始,自然語言處理領(lǐng)域的計(jì)算機(jī)語言聯(lián)合會(huì)(Association for computational linguistics,ACL)年會(huì)為多詞表達(dá)設(shè)立workshop主題以供全世界研究者交流。目前大多研究者把多詞表達(dá)抽取看成分類問題[2-7],從預(yù)先標(biāo)注好的語料中進(jìn)行學(xué)習(xí)。近兩年,有少數(shù)研究者為了解決語料短缺問題使用了聚類方法進(jìn)行多詞表達(dá)抽取[12]。因?yàn)槿鄙俅笠?guī)模的專用漢語多詞表達(dá)標(biāo)注語料,以往從事漢語多詞表達(dá)抽取的研究者往往運(yùn)用已有的漢語標(biāo)注語料,采用統(tǒng)計(jì)上下文詞搭配信息、互信息和對數(shù)似然函數(shù)來衡量漢語詞之間的結(jié)合強(qiáng)度,把結(jié)合緊密的詞當(dāng)作漢語多詞表達(dá)[5];另外一些研究者采用英漢雙語對齊語料,采用統(tǒng)計(jì)方法和錯(cuò)誤驅(qū)動(dòng)規(guī)則來篩選候選多詞表達(dá)[11];還有少數(shù)研究者自己構(gòu)建特定領(lǐng)域的語料資源,如Wang等[7]構(gòu)建了漢語習(xí)語庫,為多詞表達(dá)中習(xí)語類型抽取提供了資源。對于缺少專門多詞表達(dá)標(biāo)注語料的漢語多詞表達(dá)抽取,聚類方法無疑是比較好的選擇。然而,為了提高聚類的準(zhǔn)確率,尋求比較好的半指導(dǎo)聚類算法是研究者努力的目標(biāo)。

        文獻(xiàn)[8]提出DE-Tri-training半指導(dǎo)K近鄰聚類算法,是有指導(dǎo)和無指導(dǎo)方法有機(jī)結(jié)合的典型代表,而且也取得了較好的結(jié)果。DE-Tri-training的半指導(dǎo)K近鄰聚類算法的基本思想是:首先利用事先人工標(biāo)注的小部分語料,采用Tri-training進(jìn)行學(xué)習(xí)并對未標(biāo)注語料進(jìn)行標(biāo)注,再把標(biāo)注好的結(jié)果添加到已標(biāo)注語料中,這樣就擴(kuò)大了標(biāo)注語料的規(guī)模,然后把擴(kuò)大規(guī)模后的標(biāo)注語料作為下一步聚類的種子,而且為了盡可能把正確的標(biāo)注結(jié)果放回到原來的標(biāo)注語料中,對經(jīng)過Tri-training標(biāo)注的結(jié)果采用了數(shù)據(jù)編輯技術(shù),以去除不正確的標(biāo)注結(jié)果。周志華等[13-16]也證明了該算法的有效性。但是,該方法存在兩個(gè)缺陷:(1)它在聚類過程中還是采用隨機(jī)確定初始中心的方法,這對聚類結(jié)果會(huì)產(chǎn)生不利的影響;(2)采用數(shù)據(jù)編輯技術(shù)去除不正確的標(biāo)注結(jié)果時(shí),需選擇聚類結(jié)果中的3個(gè)最近鄰,至少兩個(gè)最近鄰和此結(jié)果一致,才認(rèn)為該結(jié)果為真,再放回已標(biāo)注語料中。因?yàn)榫垲惙椒ㄈ鄙儆兄笇?dǎo)的標(biāo)注語料信息,而以上方法采用聚類結(jié)果來確認(rèn)是否正確,這種去除不正確結(jié)果的方法缺乏可信度。

        1 改進(jìn)的DE-Tri-Training算法

        在語料構(gòu)建過程中,如果把不正確的聚類結(jié)果放回到標(biāo)注語料中,在后續(xù)的循環(huán)過程中會(huì)把這個(gè)錯(cuò)誤放大,致使聚類的結(jié)果更加不準(zhǔn)確,因此對放回標(biāo)注語料庫的結(jié)果進(jìn)行數(shù)據(jù)凈化非常關(guān)鍵。本文對DE-Tri-training的半指導(dǎo)K近鄰聚類算法進(jìn)行改進(jìn):(1)采用中心詞驅(qū)動(dòng)的方法來確定聚類的中心,以提高聚類的準(zhǔn)確率;(2)采用一致性協(xié)同學(xué)習(xí)原則來去除不正確的標(biāo)注結(jié)果。利用Tri-training的3個(gè)分類器對擬放回已標(biāo)注語料的聚類結(jié)果分別用3個(gè)分類器來識別,如果至少兩個(gè)分類器的結(jié)果與原來聚類的結(jié)果一致,才認(rèn)為該聚類結(jié)果正確,再放入到已標(biāo)注的語料中。改進(jìn)的一致性協(xié)同學(xué)習(xí)方法與原來的數(shù)據(jù)編輯技術(shù)區(qū)別主要在于:分類器由正確的標(biāo)注結(jié)果訓(xùn)練得到,而原來的數(shù)據(jù)編輯技術(shù)使用無指導(dǎo)的聚類結(jié)果,因此改進(jìn)的一致性協(xié)同學(xué)習(xí)方法在理論上更具優(yōu)越性。

        1.1 基于中心詞擴(kuò)展的初始聚類中心確定方法

        改進(jìn)K-均值聚類算法初始時(shí)不隨機(jī)確定每個(gè)分類的中心,而是采用少量特征數(shù)據(jù)(依據(jù)從手工標(biāo)注的語料庫中統(tǒng)計(jì)而來)來確定每個(gè)類的初始中心。有指導(dǎo)的統(tǒng)計(jì)方法和無指導(dǎo)的聚類方法有機(jī)結(jié)合,彌補(bǔ)了原來隨機(jī)確定初始中心的缺陷。改進(jìn)的K-均值聚類算法步驟如下:(1)從少量標(biāo)注語料庫中統(tǒng)計(jì)數(shù)據(jù)信息,采用有指導(dǎo)的策略把句子中的單詞先分到不同的類中。(2)運(yùn)用聚類算法調(diào)整中心,進(jìn)行聚類。(3)最后根據(jù)單詞在句子中的位置確定多詞表達(dá)的邊界。

        (1) 基于中心詞擴(kuò)展的方法

        短語被看成是單詞詞性按一定規(guī)則構(gòu)成的聚簇[17],在一個(gè)短語中,各單詞詞性間存在相互依賴關(guān)系;同時(shí)每個(gè)詞性與它周圍鄰近詞性的關(guān)系也可能比較緊密,即如果一個(gè)詞性出現(xiàn)在某種短語中,則這個(gè)詞性周圍出現(xiàn)的詞性在這類短語里同時(shí)出現(xiàn)的幾率也很大,這種可能性就用關(guān)聯(lián)度進(jìn)行表示。對于一種短語,有一種或幾種詞性的出現(xiàn)頻率高于其他詞性。因此在一個(gè)句子中,如果某個(gè)詞的詞性與某種短語中經(jīng)常出現(xiàn)的詞性相吻合,則可以假定這個(gè)詞性為中心詞。本文為每個(gè)短語選擇兩個(gè)中心詞。有了中心詞后,即可以利用詞語間的關(guān)聯(lián)度計(jì)算在中心詞被設(shè)定的這類短語中,中心詞與其周圍的詞性之間的關(guān)聯(lián)度,如果中心詞與其鄰近的詞性之間的關(guān)聯(lián)度大于閾值,則將這一鄰近的詞也劃入這一類型的短語,使短語的邊界擴(kuò)大;然后再計(jì)算新劃入詞的詞性與它鄰近的詞性的關(guān)聯(lián)度,如果這兩個(gè)詞性之間的關(guān)聯(lián)度仍大于閾值,則繼續(xù)將新詞劃入這一類型的短語,并繼續(xù)計(jì)算新的短語邊界上的詞性和邊界外鄰近的詞性之間的關(guān)聯(lián)度,以此類推,直到邊界上的詞性和邊界外相鄰的詞性之間的關(guān)聯(lián)度小于閾值,則邊界不再擴(kuò)大。

        (2) K-均值聚類算法

        根據(jù)統(tǒng)計(jì)數(shù)據(jù)得到的中心詞難免會(huì)出現(xiàn)偏差,因此運(yùn)用聚類算法調(diào)整中心,并計(jì)算多詞表達(dá)內(nèi)的每個(gè)詞與每個(gè)中心的距離,如某詞和其他類中心的距離小于該詞與當(dāng)前類中心的距離,則把該詞移動(dòng)到距離中心最小的類中。改進(jìn)K-均值聚類算法的詳細(xì)情況如下。使用的屬性:當(dāng)前詞的“詞”和“詞性”以及前一個(gè)詞的“詞性”信息作為屬性;中心的確定方法:當(dāng)某類中的其他詞距離某個(gè)詞的距離幾乎相等時(shí),把這個(gè)詞作為中心。距離函數(shù)為

        (1)

        式中:xi為某個(gè)詞;xj為另一個(gè)詞;d(xi,xj)為這兩詞之間的距離;ar(xi)為xi的第r個(gè)屬性值;n為屬性的個(gè)數(shù)。改進(jìn)后的K-均值聚類算法流程圖見圖1。

        1.2 基于有指導(dǎo)信息的一致性協(xié)同學(xué)習(xí)數(shù)據(jù)凈化

        在原來的DE-Tri-training算法中,對新標(biāo)注的數(shù)據(jù)在聚類中尋找它的3個(gè)最近鄰,如果這3個(gè)近鄰中至少兩個(gè)和它本身的標(biāo)注結(jié)果一致,就認(rèn)為該標(biāo)注結(jié)果是對的,則放入到已標(biāo)注語料中。原算法中,以上過程在聚類過程中進(jìn)行,缺少有指導(dǎo)標(biāo)注信息的借鑒。改進(jìn)的DE-Tri-training算法將充分利用已標(biāo)注信息,使用事先確定的3個(gè)分類器,把經(jīng)過聚類的標(biāo)注結(jié)果分別放入3個(gè)分類器中,如果至少兩個(gè)的標(biāo)注結(jié)果與原來一致,才認(rèn)為該結(jié)果為真,再放入到已標(biāo)注語料中。本文的改進(jìn)DE-Tri-training半指導(dǎo)聚類算法的流程見圖2,加底紋部分是改進(jìn)內(nèi)容。改進(jìn)DE-Tri-training半指導(dǎo)聚類算法形式化描述如下(原算法見文獻(xiàn)[10])。其中(1c),(2),(3),(4)為改進(jìn)部分。

        圖2 改進(jìn)的DE-Tri-training半指導(dǎo)聚類算法流程圖Fig.2 Flow chart of improved DE-Tri-training semi-supervised clustering algorithm

        算法1 改進(jìn)的DE-Tri-training半指導(dǎo)聚類算法

        步驟如下:

        (1) 執(zhí)行DE-Tri-training過程來擴(kuò)大和編輯初始種子集S:

        (1b) for eachHi(i=1,2,3):

        (1e) 如果Hi(i=1,2,3)中的任何一個(gè)發(fā)生改變,轉(zhuǎn)(1b);

        (4) 如果k個(gè)聚類中心不再變化,結(jié)束;否則,轉(zhuǎn)(2)。

        2 實(shí)驗(yàn)數(shù)據(jù)及方法

        因?yàn)闆]有公開的漢語多詞表達(dá)語料,先人工標(biāo)注小部分漢語多詞表達(dá)語料(8 000句)作為聚類的種子,人工標(biāo)注的多詞表達(dá)語料的領(lǐng)域包含科技(3 000句)、新聞(3 000句)和醫(yī)學(xué)(2 000句)3個(gè)領(lǐng)域,對漢語的復(fù)合名詞、動(dòng)詞結(jié)構(gòu)和習(xí)語進(jìn)行了人工標(biāo)注。把標(biāo)注好的語料作為種子,又從互聯(lián)網(wǎng)上下載了1.5 GB的漢語多領(lǐng)域語料作為聚類使用的生語料。實(shí)驗(yàn)設(shè)計(jì)如下。

        (1)采用原來的DE-Tri-training算法和本文改進(jìn)的DE-Tri-training算法,對復(fù)合名詞、動(dòng)詞結(jié)構(gòu)和習(xí)語進(jìn)行抽取。把標(biāo)注語料分為10份,其中10%作為測試集,其余90%作為訓(xùn)練集,采用10重交叉驗(yàn)證,取平均值作為最后結(jié)果。聚類算法使用了整個(gè)數(shù)據(jù)集。3個(gè)分類器分別采用支持向量機(jī)(Support vector machine,SVM)、K近鄰(K-nearest neighbor,KNN)和條件隨機(jī)場(Conditional random field,CRF),以上3個(gè)分類器代碼改寫自Python源代碼。聚類的個(gè)數(shù)K=4(K=1為復(fù)合名詞;K=2為動(dòng)詞結(jié)構(gòu);K=3為習(xí)語;K=4為不屬于任何類)。為了防止聚類不收斂,把聚類的最大循環(huán)次數(shù)設(shè)為200。為了選取合適的聚類錯(cuò)誤率閾值,分別對不同閾值進(jìn)行比較,結(jié)果見表1。

        (2)在本文的數(shù)據(jù)集上實(shí)現(xiàn)K-均值聚類算法,代碼改寫自Python源代碼,對復(fù)合名詞、動(dòng)詞結(jié)構(gòu)和習(xí)語的多詞表達(dá)進(jìn)行抽取,其結(jié)果與改進(jìn)的DE-Tri-training算法進(jìn)行比較。因?yàn)槎嘣~表達(dá)大多采用分類方法進(jìn)行抽取,而且使用語料與本文不同,因此不具備可比性。為了與本文方法比較,選取了典型的K-均值聚類算法在本文采用的數(shù)據(jù)集上抽取相同類型的多詞表達(dá)。K-均值聚類中的K=4(K=1為復(fù)合名詞;K=2為動(dòng)詞結(jié)構(gòu);K=3為習(xí)語;K=4為不屬于任何類),采用log-likelihood函數(shù)計(jì)算距離,經(jīng)過87次迭代之后收斂。從表1和圖3可以看出,當(dāng)錯(cuò)誤率閾值在0.000 05時(shí)抽取結(jié)果最好,之后閾值再增大結(jié)果反而下降,因此把0.000 05作為最后的錯(cuò)誤率閾值。

        表1 采用不同聚類錯(cuò)誤率閾值的結(jié)果比較

        圖3 采用不同聚類錯(cuò)誤率閾值的結(jié)果比較Fig.3 Comparison results based on different clustering error rate threshold

        3 實(shí)驗(yàn)結(jié)果及分析

        為了驗(yàn)證本文改進(jìn)DE-Tri-training方法的有效性,在相同的語料上分別采用原來未改進(jìn)的DE-Tri-training算法以及K-均值聚類算法對漢語的3種多詞表達(dá)(復(fù)合名詞、動(dòng)詞短語和習(xí)語)進(jìn)行了抽取,3種方法的結(jié)果見表2,比較結(jié)果見圖4。

        表2 本文方法與Baseline和K-均值聚類算法的結(jié)果比較

        圖4 本文改進(jìn)方法與其他方法的結(jié)果比較Fig.4 Comparison results based on improved method and other methods

        從表2和圖4可以看出,改進(jìn)后的DE-Tri-training算法對復(fù)合名詞、動(dòng)詞短語和習(xí)語的抽取結(jié)果均好于原來的DE-Tri-training算法和K-均值聚類算法,DE-Tri-training算法的結(jié)果優(yōu)于K-均值聚類算法,說明本文采用的基于中心詞擴(kuò)展的初始聚類中心確定方法和基于有指導(dǎo)信息的一致性協(xié)同學(xué)習(xí)數(shù)據(jù)凈化方法是有效的。從復(fù)合名詞、動(dòng)詞短語和習(xí)語各自的抽取結(jié)果分析,復(fù)合名詞的結(jié)果要好于動(dòng)詞短語,動(dòng)詞短語要好于習(xí)語。實(shí)驗(yàn)表明,習(xí)語是一些約定俗成的短語,單單依賴上下文的信息進(jìn)行抽取不能達(dá)到理想的效果。

        4 結(jié)束語

        本文對有指導(dǎo)和無指導(dǎo)方法相結(jié)合的DE-Tri-training半指導(dǎo)聚類算法進(jìn)行了分析,指出了它在聚類過程中的兩個(gè)缺陷。針對此缺陷,采用基于中心詞擴(kuò)展的初始聚類中心確定方法和基于有指導(dǎo)信息的一致性協(xié)同學(xué)習(xí)數(shù)據(jù)凈化方法,加強(qiáng)了有指導(dǎo)信息對聚類的影響。實(shí)驗(yàn)表明,改進(jìn)后的DE-Tri-training方法在抽取漢語復(fù)合名詞、動(dòng)詞短語和習(xí)語過程中優(yōu)于原來的方法和K-均值聚類算法。在以后的研究中,考慮加入習(xí)語詞典、動(dòng)詞詞典等知識提高習(xí)語和動(dòng)詞短語抽取的準(zhǔn)確率。本文方法對漢語多詞表達(dá)的抽取和語料的構(gòu)建提供了一個(gè)新的方法和思路。

        [1] Sag I A, Baldwin T, Bond F, et al. Multiword expressions: A pain in the neck for NLR[J]. Computational Linguistics and Intelligent Text Processing, Lecture Notes in Computer Science, 2002,2276: 189-206.

        [2] Duan Jianyong, Lu ruanzhan, Wu Weilin, et al. A bio-inspired approach for multiword expression extraction[C]∥Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics. Sydney, Australia: BPA Digital, 2006:4876-4883.

        [3] Constant M, Sigogne A. MWU-aware part-of-speech tagging with a CRF model and lexical resources [C]∥Workshop at ACL 2011,F(xiàn)rom Parsing and Generation to the Real World. Portland, Oregon: USA Production and Manufacturing,2011:49-56.

        [4] Vincze V, István Nagy T, Berend G. Detecting noun compounds and light verb constructions: A contrastive study [C]∥ Proceeding MWE'11 Proceedings of the Workshop on Multiword Expressions: From Parsing and Generation to the Real World. Portland, Oregon: USA Production and Manufacturing, 2011: 116-121.

        [5] Piao S S, Sun Guangfan, Rayson P, et al. Automatic extraction of Chinese multiword expressions with a statistical tool[C]∥Proceedings of the Workshop on Multi-word expressions in a Multilingual Context. Trento:Italy: J. Weeds, 2006:17-24.

        [6] Duan Jianyong, Zhang Mei, Tong Lijing, et al. A hybrid approach to improve bilingual multiword expression extraction[J]. Lecture Notes in Computer Science, 2009(5476):541-547.

        [7] Wang Lei. Construction of a Chinese idiom knowledge base and its applications[C]∥ Proceedings of Coling 2010 Multi-word Expressions. Beijing, China: Natural Language Engineering, 2010:10-17.

        [8] Deng Chao, Guo Maozu. Tri-training and data editing based semi-supervised clustering algorithm[J]. Lecture Notes in Computer Science, 2006,4293: 641-651.

        [9] Bilenko M, Basu S, Mooney R J. Integrating constraints and metric learning in semi-supervised clustering[C]∥21st International Conference on Machine Learning. Banff, Canada: Schapire RE, 2004: 81-88.

        [10]Wagstaff K, Cardie C, Rogers S, et al. Constrained K-means clustering with background knowledge[C]∥18th International Conference on Machine Learning (ICML-01). Williamstown, USA: Morgan Kaufmann Publishers Inc,2001: 577-584.

        [11]Tomás D, Giuliano C. Exploiting unlabeled data for question classification[J]. Lecture Notes in Computer Science, Natural Language Processing and Information Systems, 2011, 6716: 137-144.

        [12]Tutubalina E. Clustering-based approach to multiword expression extractionand ranking[C]∥Workshop at ACL 2015. Beijing, China: ACL, 2015:39-43.

        [13]Zhou Z H, Li M. Tri-training: Exploiting unlabeled data using three classifiers[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(11): 1529-1541.

        [14]Li M, Zhou Z H. Improve computer-aided diagnosis with machine learning techniques using undiagnosed samples[J]. IEEE Transactions on Systems, Man and Cybernetics-Part A: Systems and Humans, 2007, 37(6): 1088-1098.

        [15]Zhang M L, Zhou Z H. CoTrade: Confident co-training with data editing[J]. IEEE Transactions on Systems, Man, and Cybernetics-Part B: Cybernetics, 2011, 41(6): 1612-1626.

        [16]Zhou Fa,Zhang Wei,Sun Ke,et al. Optimized fuzzy clustering method for health monitoring of shield tunnels[J]. Transactions of Nanjing University of Aeronautics and Astronautics, 2015, 32(3):325-334.

        [17] 梁穎紅, 趙鐵軍, 劉博,等. 基于關(guān)聯(lián)度評價(jià)的中心詞擴(kuò)展的英文文本語塊識別[J].計(jì)算機(jī)研究與發(fā)展, 2006, 43(1): 153-158.

        Liang Yinghong, Zhao Tiejun, Liu bo, et al. English text chunk recognition based on relevance degree evaluation and head word extension strategy[J]. Computer Research and Development,2006, 43(1):153-158.

        Chinese Multi-word Expression Extraction Based Improved DE-Tri-Training Algorithm

        Liang Yinghong1, Tan Hongye2, Xian Xuefeng3, Huang Dandan1, Qian Haizhong1, Shen Chunze1

        (1.Software Engineering Department, Jingling Institute of Technology, Nanjing, 211169, China; 2.School of Computer and Information Technology, Shanxi University, Taiyuan, 030006, China; 3.Computer Engineering Department, Suzhou Vocational University, Suzhou, 215104, China)

        Failing to identify multiword expression (MWE) may cause serious problems for many natural language processing (NLP) tasks. Because of lacking of Chinese MWE tagging corpus, a semi supervised method is used to extract Chinese MWE. DE-Tri-Training semi-supervised clustering algorithm uses supervised information in the beginning of the cluster, and obtains good results. The selection method of original cluster center based head word expansion and the consistency collaborative learning data depuration method based supervised information are proposed, which adds the supervised information into the mid and late steps of clustering, so that classifiers can use correct label information to train it. The contrast experiment show that the extraction results of Chinese multi-word expression using the improved DE-Tri-Training algorithm are better than that of using unimproved one. The effectiveness of the improved DE-Tri-Training algorithm is thus verified.

        multi-word expression; semi-supervised; tri-training

        國家自然科學(xué)基金(61100138,61402134,11601202)資助項(xiàng)目;江蘇省“333”工程高層次人才培養(yǎng)(BRA2015108)資助項(xiàng)目;金陵科技學(xué)院高層次人才工作啟動(dòng)費(fèi)(40620022)資助項(xiàng)目;江蘇省高校自然科學(xué)研究面上(16KJB520013,14KJB520013)資助項(xiàng)目;山西省自然科學(xué)基金(2011011016-2)資助項(xiàng)目;山西省回國留學(xué)人員科研(2013-022)資助項(xiàng)目;山西省2012年度留學(xué)回國人員科技活動(dòng)擇優(yōu)資助項(xiàng)目。

        2015-06-05;

        2015-06-30

        TP391

        A

        梁穎紅(1970-),女,教授,研究方向:自然語言處理、網(wǎng)絡(luò)信息挖掘,E-mail:liangyh7036@126.com。

        黃丹丹(1987-),女,講師,研究方向:信息安全與密碼學(xué)。

        譚紅葉(1972-),女,副教授,研究方向:中文信息處理和信息抽取。

        錢海忠(1977-),男,副教授,研究方向:數(shù)據(jù)語義處理。

        鮮學(xué)豐(1980-),男,副教授,研究方向:智能信息處理和Deep Web信息挖掘。

        沈春澤(1976-),男,講師,研究方向:自然語言處理。

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學(xué)教學(xué)改革的方法
        化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學(xué)習(xí)方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        亚洲免费观看| 中文字幕无码毛片免费看 | 日韩有码中文字幕在线视频| 男女深夜视频网站入口| 日本国产精品久久一线| 国产成人精品无码免费看| 欧美国产亚洲日韩在线二区| 鲁丝片一区二区三区免费| 日日摸日日碰夜夜爽无码| 欧美成人看片黄a免费看| 久久国产自偷自免费一区100| 中文人妻AV高清一区二区| 丁香九月综合激情| 亚洲中文字幕不卡一区二区三区| 亚洲免费一区二区av| 国产成人高清在线观看视频| 国产精品久久久久久人妻无| 伊人色综合久久天天五月婷| 护士奶头又白又大又好摸视频| 精品视频在线观看免费无码| 尤物蜜芽福利国产污在线观看| 亚洲一区二区丝袜美腿| 日韩美腿丝袜三区四区| 蜜桃av噜噜一区二区三区策驰| 免费国产a国产片高清网站| 人人爽久久涩噜噜噜av| 中文字幕美人妻亅u乚一596| 波多野结衣一区二区三区视频| 国产丝袜长腿在线看片网站 | 亚洲 欧美 影音先锋| 久天啪天天久久99久孕妇| 日本一二三区在线视频观看| 精品国产一区二区三区性色 | 无码人妻丰满熟妇啪啪网不卡| 亚洲av永久无码精品| 亚洲av美女在线播放啊| 日韩一区二区三区人妻中文字幕| 草逼动态图视频免费观看网站| 97人人模人人爽人人喊电影| 国产极品美女高潮无套在线观看 | 日本最新一区二区三区在线|