亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于依存語法的祈使句分類研究

        2019-04-01 12:44:02涂錦宇
        關(guān)鍵詞:語義分類方法

        涂錦宇 朱 敏

        (華東師范大學(xué)計(jì)算機(jī)科學(xué)與軟件工程學(xué)院計(jì)算中心 上海 200062)

        0 引 言

        在人機(jī)交互過程中,系統(tǒng)的第一步就需要理解人類自然語言傳達(dá)的含義。人類向機(jī)器傳達(dá)的自然語言存在著多種句式。針對(duì)漢語問句這一句式,研究者們利用問句依存語法分析[1],在智能問答系統(tǒng)的模型中如何進(jìn)行特征提取和分類進(jìn)行了研究。而在智能駕駛、智能家居等其他領(lǐng)域中,祈使句這一特殊的自然語言類型,在常規(guī)的人機(jī)交互的自然語言中也占著較大的比重。人類向特定系統(tǒng)傳達(dá)自然語言指令,需要被不同的功能模塊接收,例如“把電飯煲切換成保溫模式”這句指令,在經(jīng)過初步的信息分揀后,應(yīng)被分入廚房模塊進(jìn)行繼續(xù)加工,臥室、客廳等其他模塊就無需對(duì)這句話進(jìn)行處理。如何將收集的命令式的自然語言信息進(jìn)行分揀,成了一個(gè)亟待解決的問題,而以祈使句為對(duì)象的自然語言處理研究卻很少。因此本文提出了一種基于核心詞語義方法,該方法利用祈使句這一特殊的句式語法依存關(guān)系,對(duì)語義依存樹進(jìn)行剪枝操作,提取其核心動(dòng)詞以及核心名詞,構(gòu)建詞庫進(jìn)行分類。

        1 相關(guān)研究

        1.1 依存語法

        在依存語法模型理論中,將以句為單位的語料劃分為一棵依存語法樹,句中唯一確定一個(gè)核心詞作為語法依存樹的根,支配著句中其他所有的詞,且每個(gè)詞的父節(jié)點(diǎn)有且僅有一個(gè),其余的詞直接或間接依賴于這個(gè)核心詞,在依存語法樹中表現(xiàn)為樹的子節(jié)點(diǎn)或葉子節(jié)點(diǎn)。將每一句祈使句轉(zhuǎn)化為依存語法樹,是提取祈使句核心詞匯的必要前提。

        1.2 短文本特征提取

        常見的文本分類在完成分詞和停用詞等預(yù)處理之后,往往將文本詞袋化。普通文本中可以使用文檔頻率DF、信息增益IG等多種方法[2]提取詞袋特征。而短文本,包括句子(陳述句、問句、祈使句)具有分詞少、缺乏信息量、詞袋特征稀疏的特點(diǎn),相較于長文本難于進(jìn)行分類?;贚DA主題擴(kuò)展的方法[3],補(bǔ)充了短文本中較少的文本特征,增加了特征維數(shù),使得分類準(zhǔn)確率有所提升;也利用卡方統(tǒng)計(jì)和知網(wǎng)文本相似度計(jì)算的方法[4],預(yù)先篩選出對(duì)某個(gè)測試數(shù)據(jù)分類結(jié)果產(chǎn)生影響的若干樣本,再進(jìn)行短文本分類。然而,上述一些方法都將文本看作詞袋模型,在簡化問題的同時(shí),與自然語言的實(shí)際結(jié)構(gòu)不符,即忽略了詞序、句法以及語法等信息。本文針對(duì)祈使句的語法特性,進(jìn)行語義依存分析,從句子對(duì)應(yīng)的依存語法樹中提取特征,達(dá)到特征提取和特征擴(kuò)展的目的。

        1.3 文本的表示方法

        傳統(tǒng)的One-Hot文本表示方法將每個(gè)詞語表示成一個(gè)維度為詞典大小的向量,向量的每一個(gè)分量表示為該文本中是否有該詞匯。這樣產(chǎn)生的One-Hot向量配合向量分類效果較好的常用的SVM[3]、KNN[4]等分類算法能基本完成一些自然語言處理中的分類任務(wù)。然而這樣的詞語表示方法有很大的不足,例如向量維數(shù)過大容易造成維數(shù)災(zāi)難;無法完整刻畫詞與詞之間的相似性,造成詞匯鴻溝等。而Mikolov等[5]提出的詞向量是一種分布式的詞語表示形式。通過語料學(xué)習(xí),將每個(gè)詞映射到預(yù)先設(shè)置好維數(shù)大小的實(shí)數(shù)向量中,詞向量維數(shù)一般在幾十到幾百之間,遠(yuǎn)小于語料中詞典的大小,從而解決了One-Hot表示方法產(chǎn)生的維數(shù)災(zāi)難和向量系數(shù)的不足。同時(shí)詞向量的距離也能否反映詞向量所對(duì)應(yīng)的詞在語義上的相似度。

        2 基于依存語法的祈使句分類實(shí)現(xiàn)方法

        2.1 基本步驟

        在語義依存樹構(gòu)建時(shí),將語法樹的構(gòu)建轉(zhuǎn)化為序列標(biāo)注問題,并修改編碼方式,對(duì)句法樹的剪枝操作以完成核心詞提取。相關(guān)領(lǐng)域語料庫訓(xùn)練出的詞向量來表示提取的依存關(guān)系核心詞與樣本中的核心詞產(chǎn)生的詞向量進(jìn)行相似度計(jì)算,以實(shí)現(xiàn)祈使句的分類。具體流程如圖1所示。

        圖1 基于依存語法的祈使句分類方法流程圖

        2.2 語義依存樹的構(gòu)建

        在“清華大學(xué)語料依存關(guān)系集合”[6]中,定義了包括核心關(guān)系在內(nèi)的59種依存關(guān)系,通過標(biāo)注語料編碼的方式,將語義依存樹的生成問題,轉(zhuǎn)化為常見的序列標(biāo)注問題,利用條件隨機(jī)場的模型進(jìn)行訓(xùn)練,具體過程如下:

        對(duì)于一句含有n個(gè)詞的祈使句,將其視作為隨機(jī)變量序列X=(x1,x2,…,xn),為了方便求得序列標(biāo)注的隨機(jī)變量Y=(y1,y2,…,yn),根據(jù)已標(biāo)注的語法依存樹,將利用支配詞距離編碼的方式,來實(shí)現(xiàn)特征隨機(jī)變量的降維,組成標(biāo)簽集合T,其中y1,y2,…,yn∈T。

        根據(jù)文獻(xiàn)[7]中提出的特征模板,提取一元特征特征函數(shù)su(yi,x,i)以及二元特征函數(shù)tb(yi-1,yi,x,i):

        (1)

        (2)

        計(jì)算各隨機(jī)變量分布的條件概率:

        (3)

        2.3 核心詞的提取與句法樹的剪枝

        核心詞用于體現(xiàn)祈使句的特征,傳統(tǒng)的句法樹的序列標(biāo)注類標(biāo)過于復(fù)雜,影響特征函數(shù)訓(xùn)練時(shí)間,因此需要將句子中與祈使句分類特征相關(guān)的核心詞重新編碼標(biāo)注,縮短訓(xùn)練時(shí)間。核心詞的選取原則是需要使得核心詞與祈使句分類標(biāo)簽存在顯著聯(lián)系,根據(jù)祈使句語法構(gòu)成的不同,定義特征依存關(guān)系集合DEP={受事、內(nèi)容、關(guān)系主體、類指、處所、存現(xiàn)體、參照體}[6],提取某祈使句Imp的核心詞集合動(dòng)詞集合coreVerb和名詞集合coreNouns規(guī)則的偽代碼如下:

        Fun(Imp)

        coreVerb.add(Imp.root);

        node=Imp.root;

        while(node←node.child)

        if(DEP.contains(node.deprel)&node.lemma=‘noun’)

        then coreNouns.add(node.word);

        return coreVerb, coreNouns;

        End Fun

        本文根據(jù)提取核心詞結(jié)果,總結(jié)歸納出特征形式主要分為以下三類:V型、VN型和VNN型。

        2.3.1 V型

        針對(duì)祈使句這類自然語言,每句祈使句對(duì)應(yīng)的語法依存樹的根,也就是核心關(guān)系的詞,都為動(dòng)詞,且這一核心動(dòng)詞蘊(yùn)涵了祈使句中的類別的信息。例如“快停下”句中,核心動(dòng)詞為“?!?,因此將每句祈使句的核心詞列為判斷其類別的特征值之一。

        2.3.2 VN型和VNN型

        這一核心動(dòng)詞連接的子節(jié)點(diǎn),直接依存于此核心動(dòng)詞的受事等名詞,代表了核心動(dòng)詞操作的對(duì)象以及結(jié)果,對(duì)于類別區(qū)分,也存在貢獻(xiàn)。例如VN型“開啟雨刷”的語法依存樹:核心動(dòng)詞:開啟;核心名詞:雨刷。如圖2所示。

        圖2 VN型語義依存樹舉例

        VNN型“把電飯煲切換成保溫模式”的語義依存樹:核心動(dòng)詞:切換;核心名詞:電飯煲、保溫模式。如圖3所示。

        圖3 VNN型語義依存樹舉例

        由于在語義依存樹中,其他分詞在分類時(shí)屬無關(guān)信息,因此可以根據(jù)此類原則對(duì)語義依存樹進(jìn)行剪枝操作。

        2.4 分類方法

        在提取語義依存關(guān)系核心詞后,本文采用了基于One-Hot表示方法和基于詞向量的分布式表示方法的多種分類算法。

        2.4.1 基于One-Hot的分類方法

        將每個(gè)出現(xiàn)過的核心動(dòng)詞和核心名詞排列,組成一個(gè)共有n個(gè)詞的詞典D=[d1,d2,…,dn],再根據(jù)每個(gè)類別的核心詞庫BPi=[bpi1,bpi2,…],BPi是詞典D的子集,定義類別向量VPij:

        (4)

        將測試集T={t1,t2,…}中每個(gè)句子的核心詞BTk=[tpk1,tpk2,…]?D取出后,根據(jù)詞典向量,生成一個(gè)祈使句向量,公式如下:

        (5)

        由于類別特征向量和每個(gè)句子向量維數(shù)統(tǒng)一,都為詞典中詞的個(gè)數(shù),利用余弦距離:

        1≤j≤n

        (6)

        和Jaccard相似度[8]進(jìn)行樣本與類別向量之間的計(jì)算, 計(jì)算方法為祈使句向量與類別向量的交集元素個(gè)數(shù)與并集元素個(gè)數(shù)之商:

        (7)

        同時(shí)針對(duì)樣本個(gè)體,利用生成的核心詞向量,對(duì)文獻(xiàn)[2]中總結(jié)的SVM和KNN分類方法進(jìn)行分類。

        2.4.2 基于詞向量的分類方法

        在詞向量訓(xùn)練模型中,相關(guān)度在樸素假設(shè)的前提下[9],即特征之間相互獨(dú)立的情況下,兩個(gè)多元變量之間的互信息,等于兩兩單變量之間的互信息之和,因此互信息是可加的。即:

        (8)

        在計(jì)算提取了m個(gè)語義依存核心詞的待分類祈使句S和有n個(gè)語義依存核心詞的類別C的相關(guān)性:

        (9)

        并選擇相似度最大的類作為最終分類類別。

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)背景

        針對(duì)各大高校開設(shè)的Office辦公軟件課程,為了減輕閱卷老師重復(fù)機(jī)械的閱卷工作,目前已開發(fā)出不少計(jì)算機(jī)操作題的判題系統(tǒng)進(jìn)行閱卷。文獻(xiàn)[10]中目前的閱卷系統(tǒng)分為大兩類:一類基于VBA實(shí)現(xiàn),針對(duì)每套試卷,錄制標(biāo)準(zhǔn)答案相關(guān)的一系列宏,利用宏進(jìn)行批閱;另一類方法基于微軟制定的組件對(duì)象模型COM標(biāo)準(zhǔn)實(shí)現(xiàn),通過C#等編程語言的編程實(shí)現(xiàn)對(duì)Office文檔中COM節(jié)點(diǎn)及其屬性的訪問,并與標(biāo)準(zhǔn)答案對(duì)應(yīng)的COM節(jié)點(diǎn)及屬性進(jìn)行匹配的方式來批閱試卷,在利用此類方法的實(shí)際閱卷過程中,不需要對(duì)判題函數(shù)做出頻繁的修改。

        然而針對(duì)不同的考題,由于考點(diǎn)類別不同,調(diào)用的判題函數(shù)也是不同的。由于考題的句式均為祈使句,且包含了核心關(guān)系以外的較多其他依賴關(guān)系作為祈使句分類的干擾項(xiàng),可以利用基于依存語法的分類方法進(jìn)行考題的考點(diǎn)分類,以便于根據(jù)分類后的類別,調(diào)用對(duì)應(yīng)的判題函數(shù),進(jìn)行閱卷。

        3.2 實(shí)驗(yàn)數(shù)據(jù)

        3.2.1 相關(guān)領(lǐng)域語料庫

        在訓(xùn)練詞向量時(shí),需要用到相關(guān)領(lǐng)域的語料庫。本文利用了近年全國計(jì)算機(jī)等級(jí)考試(NCRE)中MS office操作題和相關(guān)的模擬題,以及華東師范大學(xué)2014-2017《大學(xué)計(jì)算機(jī)》課程考試中Office操作題考題作為合并作為語料庫進(jìn)行詞向量的模型訓(xùn)練,語料庫中包含24.8萬詞。

        3.2.2 祈使句分類數(shù)據(jù)

        在考題祈使句分類中,本文利用了華東師范大學(xué)《大學(xué)計(jì)算機(jī)》課程考試2014-2017學(xué)年Office Excel操作題考題作為數(shù)據(jù)集,考題類別由任課老師根據(jù)考綱標(biāo)注。其中每一學(xué)年的考題共有10套試卷,每套試卷有17~22題不等的考題,綜合覆蓋了57個(gè)不同的考點(diǎn)。實(shí)驗(yàn)采用3年考題作為樣本,1年考題作為測試數(shù)據(jù)的交叉驗(yàn)證方式。

        3.3 數(shù)據(jù)預(yù)處理

        將考題語料以每道考題對(duì)應(yīng)一個(gè)考點(diǎn)為單位進(jìn)行簡單的分割,并將考題結(jié)構(gòu)化,即將考題以考題文本、分值、考試信息等數(shù)據(jù)存入樣本語料庫、測試集語料庫中,以備在考點(diǎn)分類后的批閱過程中使用。

        考題原語料舉例:“在工作表1中,計(jì)算出各種價(jià)格的平均值,并為圖表邊框設(shè)置“內(nèi)部右下角”的陰影。(4分)”;“為第一行標(biāo)題添加如樣張所示的雙線邊框。(2分)”

        預(yù)處理后的結(jié)構(gòu)化存儲(chǔ)方式如表1所示。

        表1 考題祈使句結(jié)構(gòu)化存儲(chǔ)方式舉例

        3.4 實(shí)驗(yàn)結(jié)果

        3.4.1 語義依存樹的生成與剪枝

        本文利用選自人民日?qǐng)?bào)的標(biāo)注好完整語法依存樹的20 000句短句,利用剪枝前后的標(biāo)注方式經(jīng)兩次編碼后訓(xùn)練出條件隨機(jī)場分類模型。根據(jù)結(jié)構(gòu)化后的文本內(nèi)容字段,分別進(jìn)行分詞和編碼,編碼的序列標(biāo)簽分別為未剪枝與剪枝后,并將編碼的結(jié)果放入條件隨機(jī)場模型進(jìn)行計(jì)算,得出序列標(biāo)注結(jié)果如表2所示。

        表2 剪枝前后的序列標(biāo)注結(jié)果舉例

        解碼后對(duì)應(yīng)的語義依存樹分別如圖4-圖5所示。

        圖4 16102號(hào)考題語義依存樹解析(剪枝前)

        圖5 16102號(hào)考題語義依存樹解析(剪枝后)

        通過對(duì)文獻(xiàn)[6]中編碼方式針對(duì)于祈使句式的簡化,重新對(duì)分詞標(biāo)簽進(jìn)行編碼,減少語法標(biāo)簽,實(shí)現(xiàn)對(duì)語義依存樹的剪枝,從而使訓(xùn)練時(shí)間減少約70%。

        3.4.2 類別核心詞庫的生成

        根據(jù)基于依存語法的核心詞匯提取,根據(jù)標(biāo)注的樣本標(biāo)簽,匯總到每個(gè)考點(diǎn),每個(gè)考點(diǎn)類別形成了一個(gè)由若干詞組成的核心詞庫,如表3所示。

        表3 考題類別核心詞庫舉例

        3.4.3 詞向量的訓(xùn)練

        利用Google的開源工具包Word2Vec在NCRE試題及模擬題和計(jì)算機(jī)基礎(chǔ)課操作題的語料進(jìn)行分詞、停用詞刪除和數(shù)據(jù)清洗之后訓(xùn)練,詞向量維數(shù)為200。訓(xùn)練出的詞向量以“行楷”、“函數(shù)”兩個(gè)詞為例,分別與其語義相關(guān)性最大的相關(guān)詞結(jié)果如表4所示。

        表4 基于詞向量的語義相關(guān)性計(jì)算結(jié)果舉例

        3.4.4 分類結(jié)果與分析

        根據(jù)核心詞匯的提取與統(tǒng)計(jì),One-Hot核心詞典中共286個(gè)詞,分別將考點(diǎn)核心詞庫和測試集中考題語料向量化后進(jìn)行基于類別特征的余弦相似度、Jaccard相似度的計(jì)算。同時(shí)將待測文本向量在樣本空間中進(jìn)行KNN和SVM算法分類,并利用卡方指數(shù)提取核心詞作為對(duì)比實(shí)驗(yàn)。其中KNN和SVM算法均使用實(shí)驗(yàn)后效果最佳的參數(shù),Word2Vec詞向量表示向量為200維。實(shí)驗(yàn)結(jié)果如表5所示。

        表5 考題分類結(jié)果

        從實(shí)驗(yàn)結(jié)果可以看出,提取語義依存核心詞,并用這些核心詞的詞向量進(jìn)行相似度計(jì)算,產(chǎn)生的分類效果最佳。語義依存特征在大部分分類算法的情況下的分類效果都優(yōu)于卡方核心詞。因此語義依存核心詞的提取,更能在祈使句中刻畫句子特征。

        4 結(jié) 語

        相比于普通的句子分類方法,本文利用了祈使句的特殊性,運(yùn)用依存語法特征選取方法,將語義依存的特征信息作為向量權(quán)重映射到向量空間,并分別采用了包括Word2Vec相似度和傳統(tǒng)分類方法在內(nèi)的多種方法實(shí)現(xiàn)了將祈使句分類。

        在實(shí)際運(yùn)用部分,本文以O(shè)ffice Excel考題為例,闡述了祈使句分類算法的實(shí)例,即為考題根據(jù)考點(diǎn)分類的方法,可以直接推廣在其他操作類主觀題自動(dòng)評(píng)閱系統(tǒng)中,以減輕評(píng)閱教師為自動(dòng)評(píng)閱系統(tǒng)標(biāo)注分類考點(diǎn)的壓力。還可以用于將考題分類結(jié)構(gòu)化,實(shí)現(xiàn)自動(dòng)出題、分析考試錯(cuò)誤率分布情況等方面。

        除了考題考點(diǎn)分類之外,針對(duì)其他領(lǐng)域的祈使句類型,本文的方法還可以運(yùn)用于智能駕駛、智能家居等領(lǐng)域的自然語言命令預(yù)分揀模塊,從而簡化系統(tǒng),減少系統(tǒng)不必要的負(fù)荷。

        本文的方法也有不足之處。對(duì)相關(guān)領(lǐng)域語料有一定規(guī)模的要求,完全影響到生成的詞向量的質(zhì)量。同時(shí)對(duì)復(fù)合類別的祈使句類別分析效果欠佳。

        猜你喜歡
        語義分類方法
        分類算一算
        語言與語義
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對(duì)
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        一区二区三区精品偷拍av| 成年无码aⅴ片在线观看| 亚洲中文字幕无线无码毛片| 区一区一日本高清视频在线观看| 日本本土精品午夜视频| 欧美丰满熟妇bbb久久久 | 日韩人妻无码精品一专区二区三区 | 国产色无码精品视频国产| 亚洲欧美国产日韩字幕| 中文字幕一区二区三区.| 一区二区三区在线视频观看| 99久久婷婷国产综合精品青草免费 | 91麻豆精品激情在线观最新| 极品人妻少妇av免费久久| 人妻有码中文字幕| 91精品国产丝袜在线拍| 精品国产麻豆一区二区三区| 加勒比东京热中文字幕| 永久免费av无码入口国语片| 国产人澡人澡澡澡人碰视频| 亚洲av成人无网码天堂 | 亚洲av永久无码精品网址| 国产曰批免费视频播放免费s| 女优免费中文字幕在线| 日本中文字幕有码网站| 在线人成免费视频69国产| 一本无码av一区二区三区| 亚洲精品久久麻豆蜜桃| 国产69精品久久久久9999apgf| 欧美人与动人物姣配xxxx| 天天澡天天揉揉AV无码人妻斩| 一区二区在线观看日本视频| 久久久久免费看成人影片| 亚洲三级黄色| 亚洲国产人成自精在线尤物| 强开小婷嫩苞又嫩又紧视频 | 亚洲国产欧美日韩一区二区| 国产av大片久久中文字幕| 亚洲一区二区三区小说| 制服丝袜人妻中文字幕在线| 日韩av无码午夜福利电影|