亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于依存語法的祈使句分類研究

2019-04-01 12:44:02涂錦宇

計(jì)算機(jī)應(yīng)用與軟件 2019年2期

涂錦宇朱敏

(華東師范大學(xué)計(jì)算機(jī)科學(xué)與軟件工程學(xué)院計(jì)算中心上海 200062)

0 引言

在人機(jī)交互過程中，系統(tǒng)的第一步就需要理解人類自然語言傳達(dá)的含義。人類向機(jī)器傳達(dá)的自然語言存在著多種句式。針對(duì)漢語問句這一句式，研究者們利用問句依存語法分析[1]，在智能問答系統(tǒng)的模型中如何進(jìn)行特征提取和分類進(jìn)行了研究。而在智能駕駛、智能家居等其他領(lǐng)域中，祈使句這一特殊的自然語言類型，在常規(guī)的人機(jī)交互的自然語言中也占著較大的比重。人類向特定系統(tǒng)傳達(dá)自然語言指令，需要被不同的功能模塊接收，例如“把電飯煲切換成保溫模式”這句指令，在經(jīng)過初步的信息分揀后，應(yīng)被分入廚房模塊進(jìn)行繼續(xù)加工，臥室、客廳等其他模塊就無需對(duì)這句話進(jìn)行處理。如何將收集的命令式的自然語言信息進(jìn)行分揀，成了一個(gè)亟待解決的問題，而以祈使句為對(duì)象的自然語言處理研究卻很少。因此本文提出了一種基于核心詞語義方法，該方法利用祈使句這一特殊的句式語法依存關(guān)系，對(duì)語義依存樹進(jìn)行剪枝操作，提取其核心動(dòng)詞以及核心名詞，構(gòu)建詞庫進(jìn)行分類。

1 相關(guān)研究

1.1 依存語法

在依存語法模型理論中，將以句為單位的語料劃分為一棵依存語法樹，句中唯一確定一個(gè)核心詞作為語法依存樹的根，支配著句中其他所有的詞，且每個(gè)詞的父節(jié)點(diǎn)有且僅有一個(gè)，其余的詞直接或間接依賴于這個(gè)核心詞，在依存語法樹中表現(xiàn)為樹的子節(jié)點(diǎn)或葉子節(jié)點(diǎn)。將每一句祈使句轉(zhuǎn)化為依存語法樹，是提取祈使句核心詞匯的必要前提。

1.2 短文本特征提取

常見的文本分類在完成分詞和停用詞等預(yù)處理之后，往往將文本詞袋化。普通文本中可以使用文檔頻率DF、信息增益IG等多種方法[2]提取詞袋特征。而短文本，包括句子(陳述句、問句、祈使句)具有分詞少、缺乏信息量、詞袋特征稀疏的特點(diǎn)，相較于長文本難于進(jìn)行分類?；贚DA主題擴(kuò)展的方法[3]，補(bǔ)充了短文本中較少的文本特征，增加了特征維數(shù)，使得分類準(zhǔn)確率有所提升；也利用卡方統(tǒng)計(jì)和知網(wǎng)文本相似度計(jì)算的方法[4]，預(yù)先篩選出對(duì)某個(gè)測試數(shù)據(jù)分類結(jié)果產(chǎn)生影響的若干樣本，再進(jìn)行短文本分類。然而，上述一些方法都將文本看作詞袋模型，在簡化問題的同時(shí)，與自然語言的實(shí)際結(jié)構(gòu)不符，即忽略了詞序、句法以及語法等信息。本文針對(duì)祈使句的語法特性，進(jìn)行語義依存分析，從句子對(duì)應(yīng)的依存語法樹中提取特征，達(dá)到特征提取和特征擴(kuò)展的目的。

1.3 文本的表示方法

傳統(tǒng)的One-Hot文本表示方法將每個(gè)詞語表示成一個(gè)維度為詞典大小的向量，向量的每一個(gè)分量表示為該文本中是否有該詞匯。這樣產(chǎn)生的One-Hot向量配合向量分類效果較好的常用的SVM[3]、KNN[4]等分類算法能基本完成一些自然語言處理中的分類任務(wù)。然而這樣的詞語表示方法有很大的不足，例如向量維數(shù)過大容易造成維數(shù)災(zāi)難；無法完整刻畫詞與詞之間的相似性，造成詞匯鴻溝等。而Mikolov等[5]提出的詞向量是一種分布式的詞語表示形式。通過語料學(xué)習(xí)，將每個(gè)詞映射到預(yù)先設(shè)置好維數(shù)大小的實(shí)數(shù)向量中，詞向量維數(shù)一般在幾十到幾百之間，遠(yuǎn)小于語料中詞典的大小，從而解決了One-Hot表示方法產(chǎn)生的維數(shù)災(zāi)難和向量系數(shù)的不足。同時(shí)詞向量的距離也能否反映詞向量所對(duì)應(yīng)的詞在語義上的相似度。

2 基于依存語法的祈使句分類實(shí)現(xiàn)方法

2.1 基本步驟

在語義依存樹構(gòu)建時(shí)，將語法樹的構(gòu)建轉(zhuǎn)化為序列標(biāo)注問題，并修改編碼方式，對(duì)句法樹的剪枝操作以完成核心詞提取。相關(guān)領(lǐng)域語料庫訓(xùn)練出的詞向量來表示提取的依存關(guān)系核心詞與樣本中的核心詞產(chǎn)生的詞向量進(jìn)行相似度計(jì)算，以實(shí)現(xiàn)祈使句的分類。具體流程如圖1所示。

圖1 基于依存語法的祈使句分類方法流程圖

2.2 語義依存樹的構(gòu)建

在“清華大學(xué)語料依存關(guān)系集合”[6]中，定義了包括核心關(guān)系在內(nèi)的59種依存關(guān)系，通過標(biāo)注語料編碼的方式，將語義依存樹的生成問題，轉(zhuǎn)化為常見的序列標(biāo)注問題，利用條件隨機(jī)場的模型進(jìn)行訓(xùn)練，具體過程如下：

對(duì)于一句含有n個(gè)詞的祈使句，將其視作為隨機(jī)變量序列X=(x1,x2,…,xn),為了方便求得序列標(biāo)注的隨機(jī)變量Y=(y1,y2,…,yn)，根據(jù)已標(biāo)注的語法依存樹，將利用支配詞距離編碼的方式，來實(shí)現(xiàn)特征隨機(jī)變量的降維，組成標(biāo)簽集合T，其中y1,y2,…,yn∈T。

根據(jù)文獻(xiàn)[7]中提出的特征模板，提取一元特征特征函數(shù)su(yi,x,i)以及二元特征函數(shù)tb(yi-1,yi,x,i)：

(1)

(2)

計(jì)算各隨機(jī)變量分布的條件概率：

(3)

2.3 核心詞的提取與句法樹的剪枝

核心詞用于體現(xiàn)祈使句的特征，傳統(tǒng)的句法樹的序列標(biāo)注類標(biāo)過于復(fù)雜，影響特征函數(shù)訓(xùn)練時(shí)間，因此需要將句子中與祈使句分類特征相關(guān)的核心詞重新編碼標(biāo)注，縮短訓(xùn)練時(shí)間。核心詞的選取原則是需要使得核心詞與祈使句分類標(biāo)簽存在顯著聯(lián)系，根據(jù)祈使句語法構(gòu)成的不同，定義特征依存關(guān)系集合DEP={受事、內(nèi)容、關(guān)系主體、類指、處所、存現(xiàn)體、參照體}[6]，提取某祈使句Imp的核心詞集合動(dòng)詞集合coreVerb和名詞集合coreNouns規(guī)則的偽代碼如下：

Fun(Imp)

coreVerb.add(Imp.root);

node=Imp.root;

while(node←node.child)

if(DEP.contains(node.deprel)&node.lemma=‘noun’)

then coreNouns.add(node.word);

return coreVerb, coreNouns;

End Fun

本文根據(jù)提取核心詞結(jié)果，總結(jié)歸納出特征形式主要分為以下三類：V型、VN型和VNN型。

2.3.1 V型

針對(duì)祈使句這類自然語言，每句祈使句對(duì)應(yīng)的語法依存樹的根，也就是核心關(guān)系的詞，都為動(dòng)詞，且這一核心動(dòng)詞蘊(yùn)涵了祈使句中的類別的信息。例如“快停下”句中，核心動(dòng)詞為“?！?，因此將每句祈使句的核心詞列為判斷其類別的特征值之一。

2.3.2 VN型和VNN型

這一核心動(dòng)詞連接的子節(jié)點(diǎn)，直接依存于此核心動(dòng)詞的受事等名詞，代表了核心動(dòng)詞操作的對(duì)象以及結(jié)果，對(duì)于類別區(qū)分，也存在貢獻(xiàn)。例如VN型“開啟雨刷”的語法依存樹：核心動(dòng)詞：開啟；核心名詞：雨刷。如圖2所示。

圖2 VN型語義依存樹舉例

VNN型“把電飯煲切換成保溫模式”的語義依存樹：核心動(dòng)詞：切換；核心名詞：電飯煲、保溫模式。如圖3所示。

圖3 VNN型語義依存樹舉例

由于在語義依存樹中，其他分詞在分類時(shí)屬無關(guān)信息，因此可以根據(jù)此類原則對(duì)語義依存樹進(jìn)行剪枝操作。

2.4 分類方法

在提取語義依存關(guān)系核心詞后，本文采用了基于One-Hot表示方法和基于詞向量的分布式表示方法的多種分類算法。

2.4.1 基于One-Hot的分類方法

將每個(gè)出現(xiàn)過的核心動(dòng)詞和核心名詞排列，組成一個(gè)共有n個(gè)詞的詞典D=[d1,d2,…,dn]，再根據(jù)每個(gè)類別的核心詞庫BPi=[bpi1,bpi2,…],BPi是詞典D的子集，定義類別向量VPij:

(4)

將測試集T={t1,t2,…}中每個(gè)句子的核心詞BTk=[tpk1,tpk2,…]?D取出后，根據(jù)詞典向量，生成一個(gè)祈使句向量，公式如下：

(5)

由于類別特征向量和每個(gè)句子向量維數(shù)統(tǒng)一，都為詞典中詞的個(gè)數(shù)，利用余弦距離:

1≤j≤n

(6)

和Jaccard相似度[8]進(jìn)行樣本與類別向量之間的計(jì)算, 計(jì)算方法為祈使句向量與類別向量的交集元素個(gè)數(shù)與并集元素個(gè)數(shù)之商：

(7)

同時(shí)針對(duì)樣本個(gè)體，利用生成的核心詞向量，對(duì)文獻(xiàn)[2]中總結(jié)的SVM和KNN分類方法進(jìn)行分類。

2.4.2 基于詞向量的分類方法

在詞向量訓(xùn)練模型中，相關(guān)度在樸素假設(shè)的前提下[9]，即特征之間相互獨(dú)立的情況下，兩個(gè)多元變量之間的互信息，等于兩兩單變量之間的互信息之和，因此互信息是可加的。即：

(8)

在計(jì)算提取了m個(gè)語義依存核心詞的待分類祈使句S和有n個(gè)語義依存核心詞的類別C的相關(guān)性:

(9)

并選擇相似度最大的類作為最終分類類別。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)背景

針對(duì)各大高校開設(shè)的Office辦公軟件課程，為了減輕閱卷老師重復(fù)機(jī)械的閱卷工作，目前已開發(fā)出不少計(jì)算機(jī)操作題的判題系統(tǒng)進(jìn)行閱卷。文獻(xiàn)[10]中目前的閱卷系統(tǒng)分為大兩類：一類基于VBA實(shí)現(xiàn)，針對(duì)每套試卷，錄制標(biāo)準(zhǔn)答案相關(guān)的一系列宏，利用宏進(jìn)行批閱；另一類方法基于微軟制定的組件對(duì)象模型COM標(biāo)準(zhǔn)實(shí)現(xiàn)，通過C#等編程語言的編程實(shí)現(xiàn)對(duì)Office文檔中COM節(jié)點(diǎn)及其屬性的訪問，并與標(biāo)準(zhǔn)答案對(duì)應(yīng)的COM節(jié)點(diǎn)及屬性進(jìn)行匹配的方式來批閱試卷，在利用此類方法的實(shí)際閱卷過程中，不需要對(duì)判題函數(shù)做出頻繁的修改。

然而針對(duì)不同的考題，由于考點(diǎn)類別不同，調(diào)用的判題函數(shù)也是不同的。由于考題的句式均為祈使句，且包含了核心關(guān)系以外的較多其他依賴關(guān)系作為祈使句分類的干擾項(xiàng)，可以利用基于依存語法的分類方法進(jìn)行考題的考點(diǎn)分類，以便于根據(jù)分類后的類別，調(diào)用對(duì)應(yīng)的判題函數(shù)，進(jìn)行閱卷。

3.2 實(shí)驗(yàn)數(shù)據(jù)

3.2.1 相關(guān)領(lǐng)域語料庫

在訓(xùn)練詞向量時(shí)，需要用到相關(guān)領(lǐng)域的語料庫。本文利用了近年全國計(jì)算機(jī)等級(jí)考試(NCRE)中MS office操作題和相關(guān)的模擬題，以及華東師范大學(xué)2014-2017《大學(xué)計(jì)算機(jī)》課程考試中Office操作題考題作為合并作為語料庫進(jìn)行詞向量的模型訓(xùn)練，語料庫中包含24.8萬詞。

3.2.2 祈使句分類數(shù)據(jù)

在考題祈使句分類中，本文利用了華東師范大學(xué)《大學(xué)計(jì)算機(jī)》課程考試2014-2017學(xué)年Office Excel操作題考題作為數(shù)據(jù)集，考題類別由任課老師根據(jù)考綱標(biāo)注。其中每一學(xué)年的考題共有10套試卷，每套試卷有17～22題不等的考題，綜合覆蓋了57個(gè)不同的考點(diǎn)。實(shí)驗(yàn)采用3年考題作為樣本，1年考題作為測試數(shù)據(jù)的交叉驗(yàn)證方式。

3.3 數(shù)據(jù)預(yù)處理

將考題語料以每道考題對(duì)應(yīng)一個(gè)考點(diǎn)為單位進(jìn)行簡單的分割，并將考題結(jié)構(gòu)化，即將考題以考題文本、分值、考試信息等數(shù)據(jù)存入樣本語料庫、測試集語料庫中，以備在考點(diǎn)分類后的批閱過程中使用。

考題原語料舉例：“在工作表1中，計(jì)算出各種價(jià)格的平均值，并為圖表邊框設(shè)置“內(nèi)部右下角”的陰影。(4分)”；“為第一行標(biāo)題添加如樣張所示的雙線邊框。(2分)”

預(yù)處理后的結(jié)構(gòu)化存儲(chǔ)方式如表1所示。

表1 考題祈使句結(jié)構(gòu)化存儲(chǔ)方式舉例

3.4 實(shí)驗(yàn)結(jié)果

3.4.1 語義依存樹的生成與剪枝

本文利用選自人民日?qǐng)?bào)的標(biāo)注好完整語法依存樹的20 000句短句，利用剪枝前后的標(biāo)注方式經(jīng)兩次編碼后訓(xùn)練出條件隨機(jī)場分類模型。根據(jù)結(jié)構(gòu)化后的文本內(nèi)容字段，分別進(jìn)行分詞和編碼，編碼的序列標(biāo)簽分別為未剪枝與剪枝后，并將編碼的結(jié)果放入條件隨機(jī)場模型進(jìn)行計(jì)算，得出序列標(biāo)注結(jié)果如表2所示。

表2 剪枝前后的序列標(biāo)注結(jié)果舉例

解碼后對(duì)應(yīng)的語義依存樹分別如圖4-圖5所示。

圖4 16102號(hào)考題語義依存樹解析(剪枝前)

圖5 16102號(hào)考題語義依存樹解析(剪枝后)

通過對(duì)文獻(xiàn)[6]中編碼方式針對(duì)于祈使句式的簡化，重新對(duì)分詞標(biāo)簽進(jìn)行編碼，減少語法標(biāo)簽，實(shí)現(xiàn)對(duì)語義依存樹的剪枝，從而使訓(xùn)練時(shí)間減少約70%。

3.4.2 類別核心詞庫的生成

根據(jù)基于依存語法的核心詞匯提取，根據(jù)標(biāo)注的樣本標(biāo)簽，匯總到每個(gè)考點(diǎn)，每個(gè)考點(diǎn)類別形成了一個(gè)由若干詞組成的核心詞庫，如表3所示。

表3 考題類別核心詞庫舉例

3.4.3 詞向量的訓(xùn)練

利用Google的開源工具包Word2Vec在NCRE試題及模擬題和計(jì)算機(jī)基礎(chǔ)課操作題的語料進(jìn)行分詞、停用詞刪除和數(shù)據(jù)清洗之后訓(xùn)練，詞向量維數(shù)為200。訓(xùn)練出的詞向量以“行楷”、“函數(shù)”兩個(gè)詞為例，分別與其語義相關(guān)性最大的相關(guān)詞結(jié)果如表4所示。

表4 基于詞向量的語義相關(guān)性計(jì)算結(jié)果舉例

3.4.4 分類結(jié)果與分析

根據(jù)核心詞匯的提取與統(tǒng)計(jì)，One-Hot核心詞典中共286個(gè)詞，分別將考點(diǎn)核心詞庫和測試集中考題語料向量化后進(jìn)行基于類別特征的余弦相似度、Jaccard相似度的計(jì)算。同時(shí)將待測文本向量在樣本空間中進(jìn)行KNN和SVM算法分類，并利用卡方指數(shù)提取核心詞作為對(duì)比實(shí)驗(yàn)。其中KNN和SVM算法均使用實(shí)驗(yàn)后效果最佳的參數(shù)，Word2Vec詞向量表示向量為200維。實(shí)驗(yàn)結(jié)果如表5所示。

表5 考題分類結(jié)果

從實(shí)驗(yàn)結(jié)果可以看出，提取語義依存核心詞，并用這些核心詞的詞向量進(jìn)行相似度計(jì)算，產(chǎn)生的分類效果最佳。語義依存特征在大部分分類算法的情況下的分類效果都優(yōu)于卡方核心詞。因此語義依存核心詞的提取，更能在祈使句中刻畫句子特征。

4 結(jié) 語

相比于普通的句子分類方法，本文利用了祈使句的特殊性，運(yùn)用依存語法特征選取方法，將語義依存的特征信息作為向量權(quán)重映射到向量空間，并分別采用了包括Word2Vec相似度和傳統(tǒng)分類方法在內(nèi)的多種方法實(shí)現(xiàn)了將祈使句分類。

在實(shí)際運(yùn)用部分，本文以O(shè)ffice Excel考題為例，闡述了祈使句分類算法的實(shí)例，即為考題根據(jù)考點(diǎn)分類的方法，可以直接推廣在其他操作類主觀題自動(dòng)評(píng)閱系統(tǒng)中，以減輕評(píng)閱教師為自動(dòng)評(píng)閱系統(tǒng)標(biāo)注分類考點(diǎn)的壓力。還可以用于將考題分類結(jié)構(gòu)化，實(shí)現(xiàn)自動(dòng)出題、分析考試錯(cuò)誤率分布情況等方面。

除了考題考點(diǎn)分類之外，針對(duì)其他領(lǐng)域的祈使句類型，本文的方法還可以運(yùn)用于智能駕駛、智能家居等領(lǐng)域的自然語言命令預(yù)分揀模塊，從而簡化系統(tǒng)，減少系統(tǒng)不必要的負(fù)荷。

本文的方法也有不足之處。對(duì)相關(guān)領(lǐng)域語料有一定規(guī)模的要求，完全影響到生成的詞向量的質(zhì)量。同時(shí)對(duì)復(fù)合類別的祈使句類別分析效果欠佳。