亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT模型的中華典籍問句分類方法研究

        2022-09-24 14:32:12劉忠寶賈君枝
        晉圖學(xué)刊 2022年3期
        關(guān)鍵詞:典籍向量中華

        劉忠寶,賈君枝

        (1.北京語言大學(xué) 語言智能研究院,北京 100083;2.中國人民大學(xué) 信息資源管理學(xué)院,北京 100872)

        0 引言

        近年來,黨和國家對(duì)中華傳統(tǒng)文化高度重視,多次在重要文件和講話中強(qiáng)調(diào)中華傳統(tǒng)文化的重要性。作為中華傳統(tǒng)文化重要載體的中華典籍是中華優(yōu)秀傳統(tǒng)文化的強(qiáng)大根基,越來越多的國人開始關(guān)注和學(xué)習(xí)中華典籍?;ヂ?lián)網(wǎng)的飛速發(fā)展助推了這種學(xué)習(xí)熱潮,這無疑會(huì)增加互聯(lián)網(wǎng)上中華典籍的提問和搜索數(shù)量。

        傳統(tǒng)搜索引擎通常要求用戶將檢索請(qǐng)求表示為少量關(guān)鍵詞的組合,返回的結(jié)果是與檢索請(qǐng)求相關(guān)的信息列表,上述檢索方式存在信息過分冗余、檢索精度不高等問題。問答系統(tǒng)的出現(xiàn)有效地解決了上述問題。該系統(tǒng)允許用戶使用自然語言提問,并返回確切的答案。問句分類是問答系統(tǒng)的一個(gè)重要環(huán)節(jié),如“成語‘背水一戰(zhàn)’出自哪里?”“《新唐書》作者是誰?”等問句主要問及中華典籍的出處和基本信息。問句分類是指在明確分類依據(jù)的前提下,根據(jù)問句的語義和答案的特點(diǎn),來確定問句的類型。明確了問句類型,不僅能夠降低答案檢索的時(shí)間代價(jià),而且還能夠提高查找答案的準(zhǔn)確率。因此,有必要對(duì)問句分類問題進(jìn)行研究,以提高問答系統(tǒng)的工作效率,進(jìn)而為中華典籍的學(xué)習(xí)和傳播提供有利支撐。

        1 研究進(jìn)展

        當(dāng)前,問句分類的研究方法可歸納為三類:一是基于規(guī)則的問句分類方法;二是基于統(tǒng)計(jì)學(xué)習(xí)的問句分類方法;三是基于深度學(xué)習(xí)的問句分類方法。

        基于規(guī)則的問句分類方法通過提取各類問句中關(guān)鍵詞(如疑問詞、相關(guān)詞等)的特征規(guī)則來判斷問句類別。如問句中出現(xiàn)“哪”“在哪”等詞就可以判斷答案與地點(diǎn)相關(guān)。早期的問答系統(tǒng)都基于規(guī)則的問句分類方法。Magnini等在DIOGENE問答系統(tǒng)的基礎(chǔ)上擴(kuò)大了問句的類型,利用340余條規(guī)則來識(shí)別問句的特征,并根據(jù)上述特征給出問句的類型[1];Yang等引入語義技術(shù),利用基于規(guī)則的算法對(duì)問句進(jìn)行命名實(shí)體識(shí)別,以提高問句分類的精度[2];樊孝忠等借鑒本體和知網(wǎng)思想,給出基于問點(diǎn)塊和語義塊的規(guī)則,實(shí)現(xiàn)了金融領(lǐng)域問句的自動(dòng)分類[3];辛霄等面向?qū)嶋H應(yīng)用場(chǎng)景,將自動(dòng)問答技術(shù)與網(wǎng)友問答內(nèi)容相結(jié)合,以網(wǎng)友問答內(nèi)容作為知識(shí)庫,利用自動(dòng)問答技術(shù)建立規(guī)則,并基于此從知識(shí)庫中找到合適的答案[4];賈君枝等在分析農(nóng)民問句特點(diǎn)的基礎(chǔ)上,提出基于“特殊規(guī)則表”的疑問句和短語的問句分類方法,以期解決問句歸類問題[5]。基于規(guī)則的問句分類方法實(shí)現(xiàn)簡(jiǎn)單,分類速度快,在解決特定領(lǐng)域問句分類問題時(shí)具有較高的效率。但該方法依賴于規(guī)則,當(dāng)語料規(guī)模增大時(shí),需要人工定義更多的規(guī)則,這無疑增大了工作量。此外,當(dāng)問句表示形式和問句分類體系發(fā)生變化時(shí),這些規(guī)則靈活性不夠、適用性不強(qiáng)。因此,近年來該方法的研究沒有很大進(jìn)展。

        基于統(tǒng)計(jì)學(xué)習(xí)的問句分類方法在標(biāo)注部分問句的基礎(chǔ)上,選擇具有代表性特征來對(duì)問句建模,通過訓(xùn)練模型實(shí)現(xiàn)問句分類。常用于問句分類的統(tǒng)計(jì)學(xué)習(xí)模型有支持向量機(jī)(Support Vector Machine, SVM)、貝葉斯網(wǎng)絡(luò)(Bayesian Network, BN)、最大熵(Maximum Entropy, ME)模型等。Zhang等提出基于樹核函數(shù)的支持向量機(jī),該模型在問句分類時(shí)將問句的句法結(jié)構(gòu)考慮在內(nèi),因而其具有較高的分類效率[6]。Li等融合問句的句法信息、語義信息以及WordNet詞典知識(shí)來進(jìn)行問句分類,UIUC數(shù)據(jù)集上的分類準(zhǔn)確率達(dá)91.60%[7];Zhang等利用改進(jìn)的貝葉斯模型融合詞頻和詞性特征對(duì)問句分類[8];Wen等利用貝葉斯分類模型將問句的主干和疑問詞及其附屬成分作為分類特征[9];Dai等針對(duì)問句所屬領(lǐng)域經(jīng)常變化的情形,利用KL距離衡量不同領(lǐng)域之間的差異并借助最大似然模型對(duì)問句分類[10];Liu等在支持向量機(jī)的基礎(chǔ)上引入句法依存樹和問句屬性核函數(shù)來對(duì)問句進(jìn)行分類[11];Li等充分利用少量標(biāo)記樣本和大量未標(biāo)記樣本,提出一種基于集成學(xué)習(xí)的半監(jiān)督問句分類方法[12];Momtazi利用無監(jiān)督的隱狄利克雷分配模型解決社區(qū)問答系統(tǒng)中的問句分類問題[13];Muhammad等提出一種基于邏輯回歸(Logistic Regression, LR)的數(shù)據(jù)轉(zhuǎn)換方法,用于解決多標(biāo)簽生物醫(yī)學(xué)問句分類問題[14]。國內(nèi)開展相關(guān)研究較晚,典型代表有:余正濤等分析和定義了漢語問句的類型,建立了以支持向量機(jī)為基礎(chǔ)的問句分類模型[15];賈可亮等引入HowNet義原樹來計(jì)算問句之間的語義相似度,并構(gòu)建基于k-近鄰算法的分類器實(shí)現(xiàn)問句分類[16];范云杰等針對(duì)社區(qū)問答系統(tǒng)中的問句分類問題展開研究,首先將問句的特征詞映射為維基百科概念,接著利用維基百科重定向和消歧頁解決同義詞和多義詞問題,然后提出基于鏈接結(jié)構(gòu)和類別體系的概念關(guān)聯(lián)度計(jì)算方法,以提高問句的語義表達(dá)能力[17]。

        基于統(tǒng)計(jì)學(xué)習(xí)的問句分類方法涉及以下問題:一方面需要事先完成問句標(biāo)注、句法分析以及語義分析等任務(wù);另一方面人工選擇特征具有一定的隨機(jī)性和主觀性;再者應(yīng)用于問句分類的統(tǒng)計(jì)學(xué)習(xí)方法往往存在數(shù)據(jù)稀疏性問題。上述三方面制約了該方法效率的提升,因此,隨著深度學(xué)習(xí)的出現(xiàn),上述方法逐漸被基于深度學(xué)習(xí)的問句分類方法所取代。

        基于深度學(xué)習(xí)的問句分類方法的優(yōu)勢(shì)在于:其一,該方法通過訓(xùn)練模型能夠自動(dòng)獲取問句的特征以及問句類型之間的語義關(guān)系,上述過程無需人為干預(yù),降低了人力成本,提高了分類效率;其二,該方法沒有使用經(jīng)典的N-Gram語言模型,而是自動(dòng)獲取并利用問句的詞序特征,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)模型中的過濾器即發(fā)揮了N-Gram語言模型的作用。目前常用于問句分類的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)、長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)、雙向長短期記憶網(wǎng)絡(luò)(Bidirectional LSTM, BiLSTM)等。Xiao等通過共享粗粒度分類和細(xì)粒度分類的上下文信息來構(gòu)建多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)模型,對(duì)法律問句進(jìn)行分類[18];Xia等在長短期記憶網(wǎng)絡(luò)的基礎(chǔ)上引入注意力機(jī)制,該架構(gòu)能夠有效地提取問句的局部特征以及全局特征,因而具有較好地問句分類能力[19];Pota等提出一種基于詞嵌入和卷積申請(qǐng)網(wǎng)絡(luò)的問句分類方法[20];楊志明等在深入分析卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,提出意圖分類雙通道卷積神經(jīng)網(wǎng)絡(luò)算法,用以解決問句意圖分類問題[21],該方法利用Word2Vec工具提取問句中的語義特征,分別利用字級(jí)別的詞向量和詞級(jí)別的詞向量進(jìn)行卷積運(yùn)算,利用字級(jí)別詞向量輔助詞級(jí)別的詞向量發(fā)現(xiàn)文具中的深層次語義信息。中華典籍問句分類研究的成果不多,典型代表是王東波等利用支持向量機(jī)、條件隨機(jī)場(chǎng)、深度學(xué)習(xí)模型對(duì)先秦典籍問句分類的研究,研究結(jié)果表明BiLSTM模型具有更優(yōu)的分類能力[22]。

        2018年底由Google提出的BERT(Bidirectional Encoder Representations from Transformers)模型創(chuàng)造了自然語言處理領(lǐng)域的多項(xiàng)記錄。鑒于此,本文以《史記》《漢書》《三國志》《新唐書》《戰(zhàn)國策》《資治通鑒》《聊齋志異》《儒林外史》《搜神記》《世說新語》等十部中華典籍的相關(guān)問句構(gòu)成的語料集為基礎(chǔ),引入一系列深度學(xué)習(xí)模型,特別是BERT模型,以期進(jìn)一步提高中華典籍問句分類的效率。本文后續(xù)章節(jié)安排如下:第3節(jié)介紹支持向量機(jī)(SVM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)、雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)、BERT等深度學(xué)習(xí)模型。第4節(jié)首先引入問句分類體系以及中華典籍語料集,然后對(duì)比分析SVM、RNN、LSTM、BiLSTM、BERT等模型的實(shí)驗(yàn)結(jié)果,最后給出中華典籍問句分類系統(tǒng)平臺(tái)。第5節(jié)對(duì)全文進(jìn)行總結(jié)并指出下一步研究設(shè)想。

        2 模型引入

        2.1 SVM

        支持向量機(jī)(SVM)最初由Vapnik等提出,是建立在統(tǒng)計(jì)學(xué)習(xí)理論和風(fēng)險(xiǎn)最小化原理基礎(chǔ)上的分類模型。該模型通過構(gòu)造一個(gè)超平面將兩類分開。

        給定訓(xùn)練集(xi,yi),i=1,2,…,n,支持向量機(jī)優(yōu)化目標(biāo)函數(shù)和約束條件如式(1)所示。

        s.t.yi(wTφ(xi)+b)≥1-ξi,i=1,2,…,n

        (1)

        其中,w是超平面的法向量,b為偏置量,ξi為松弛變量,表示對(duì)噪聲的容忍度,C為懲罰因子。

        支持向量機(jī)一般應(yīng)用于二分類場(chǎng)景。但中華典籍問句分類問題是一個(gè)多分類問題。本文通過組合多個(gè)二分類支持向量機(jī)來解決問句多分類問題。

        2.2 深度學(xué)習(xí)模型

        2.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)具有獨(dú)特的序列結(jié)構(gòu),因而其適合捕獲問句內(nèi)部的語序特征。RNN由輸入層、隱藏層、輸出層和分類層組成,其基本結(jié)構(gòu)如圖1所示。

        Fig.1 The structure of RNN圖1 RNN結(jié)構(gòu)

        RNN的基本工作流程是:首先,將分詞后的問句(x1,…,xt-1,xt,xt+1,…,xn)依次輸入模型;然后,利用RNN的隱藏層(h1,…,ht-1,ht,ht+1,…,hn)提取問句的深層語義特征并得到特征向量(o1,…,ot-1,ot,ot+1,…,on);最后,依據(jù)分類函數(shù)得到問句的分類結(jié)果。

        2.2.2 LSTM和BiLSTM

        與RNN相比,長短期記憶網(wǎng)絡(luò)(LSTM)和雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)在隱藏層引入了門結(jié)構(gòu),該結(jié)構(gòu)能對(duì)從輸入層傳來的問句信息進(jìn)行更深層次的特征提取。LSTM和BiLSTM具有相似的工作機(jī)理,其不同在于:與LSTM相比,BiLSTM具有正向LSTM和反向LSTM兩層結(jié)構(gòu),如圖2所示。以BiLSTM為例,介紹其基本工作流程:首先,將分詞后的問句(x1,…,xt-1,xt,xt+1,…,xn)依次輸入模型;然后,利用BiLSTM隱藏層分別從正向(h1,…,ht-1,ht,ht+1,…,hn)和反向(hn,…,ht+1,ht,ht-1,…,h1)兩個(gè)維度提取問句的特征;接著,將兩個(gè)方向的特征進(jìn)行拼接,得到特征向量(o1,…,ot-1,ot,ot+1,…,on);最后,利用分類函數(shù)得到問句的分類結(jié)果。

        Fig.2 The structure of BiLSTM圖2 BiLSTM結(jié)構(gòu)

        2.2.3 BERT模型

        與傳統(tǒng)的深度學(xué)習(xí)模型相比,BERT模型進(jìn)一步增強(qiáng)了詞向量模型泛化能力,充分描述問句字符級(jí)、詞級(jí)、句子級(jí)甚至句間關(guān)系特征。該模型的基本結(jié)構(gòu)如圖3所示。

        Fig.3 The structure of BERT圖3 BERT模型結(jié)構(gòu)

        BERT模型的基本工作流程是:第一步,在問句開始位置增加一個(gè)起始標(biāo)記[CLS],將該標(biāo)記與問句一同輸入模型;第二步,對(duì)起始標(biāo)記和問句進(jìn)行向量化表示(E[CLS],E1,E2,…,EN);第三步,經(jīng)多層自注意力機(jī)制Trm進(jìn)行特征提取后生成特征向量(C,T1,T2,…,TM);第四步,將起始標(biāo)記[CLS]對(duì)應(yīng)的特征向量C作為整個(gè)問句的語義表示,其原因是:[CLS]標(biāo)記獨(dú)立于問句存在,經(jīng)特征提取后,該標(biāo)記能夠很好地表征問句特征,如果額外地增加其他特征,反而會(huì)效率降低;第五步,根據(jù)問句分類體系判斷C的類型,即問句的類型。

        3 實(shí)驗(yàn)設(shè)計(jì)與分析

        分別從“百度知道”和“知乎”獲取《史記》《漢書》《三國志》《新唐書》《戰(zhàn)國策》《資治通鑒》《聊齋志異》《儒林外史》《搜神記》《世說新語》等十部中華典籍的相關(guān)問句2 000條,并人工進(jìn)行類別標(biāo)注。按照五折交叉驗(yàn)證的方式進(jìn)行實(shí)驗(yàn),避免單次實(shí)驗(yàn)的偶然性。五折交叉驗(yàn)證是指將語料集等分為五份,將任意四份作為訓(xùn)練集,剩余一份用作測(cè)試,取五次實(shí)驗(yàn)結(jié)果的均值作為最終的實(shí)驗(yàn)結(jié)果。

        3.1 實(shí)驗(yàn)設(shè)計(jì)

        3.1.1 問句分類體系

        問句分類首先要明確分類體系,目前還沒有一個(gè)統(tǒng)一的分類體系。常見的問句分類體系有:Lehner等提出的概念分類體系,包括:因果的前因、因果相隨、目標(biāo)導(dǎo)向、驗(yàn)證、啟用、析取等[23]。Li等提出的分類體系包括縮寫、實(shí)體、描述、人物、位置、數(shù)量等六類[7]。上述分類體系是針對(duì)英文問句提出的。在中文問句分類體系研究中,文勖等提出的分類體系包括人物、地點(diǎn)、數(shù)字、時(shí)間、實(shí)體和未知等七類[24]。董才正等提出的分類體系包括定義、事實(shí)、過程、原因、觀點(diǎn)、是非、描述等七類[25]。上述分類體系并未考慮中華典籍的特殊性,均不適用于解決中華典籍問句分類問題。因此,本文給出一種適用于中華典籍的問句分類體系,如表1所示。

        3.1.2 問句語料標(biāo)注及預(yù)處理

        實(shí)驗(yàn)中的2 000條問句具體分布情況是:《史記》《漢書》《三國志》《新唐書》《戰(zhàn)國策》《資治通鑒》《聊齋志異》《儒林外史》《搜神記》《世說新語》分別有243、158、224、193、201、247、265、209、133、127條

        表1 中華典籍問句分類體系Table 1 The classification architecture of Chinese classics question

        問句。對(duì)上述問句進(jìn)行人工標(biāo)注生成“中華典籍問句分類語料集”。在人工參與下,借助jieba漢語分詞工具對(duì)問句進(jìn)行分詞。如,對(duì)“《史記》是一部什么體的史書?”分詞后得到“《/史記/》/是/一部/什么/體/的/史書/?”。即使是較為困難的釋義類問句也能達(dá)到較好的分詞效果,如,“成語負(fù)荊請(qǐng)罪出自哪本書?”分詞后得到“成語/負(fù)荊請(qǐng)罪/出自/哪/本書/?”。又如,“‘廉頗聞之,肉袒負(fù)荊,因賓客至藺相如門謝罪’是什么意思?”分詞后得到“‘/廉頗/聞/之/,/肉袒/負(fù)荊/,/因/賓客/至/藺相如/門/謝罪/’/是/什么/意思/?”。在分詞的基礎(chǔ)上,需要將問句轉(zhuǎn)化為向量表示。SVM利用Doc2Vec模型將每個(gè)問句表示為問句向量。由于問句向量包含的語義信息有限,故要對(duì)問句向量進(jìn)行特征提取。利用TF-IDF算法統(tǒng)計(jì)各類問句的特征詞,并將其按重要程度由高到低排列,人工選擇最具代表性的特征詞,如“相比”“哪個(gè)”常出現(xiàn)在對(duì)比類問句中,“是”常出現(xiàn)在常識(shí)類問句中,“為什么”一般出現(xiàn)原因類問句中,“如何”一般出現(xiàn)在描述類問句中。RNN、LSTM、BiLSTM等深度學(xué)習(xí)模型利用Word2Vec模型生成問句的詞向量表示,由于BERT的工作原理基于字而非詞,因而其無需進(jìn)行分詞處理。

        3.2 實(shí)驗(yàn)步驟

        3.2.1 利用SVM對(duì)中華典籍問句分類實(shí)驗(yàn)

        SVM問句分類實(shí)驗(yàn)包括三個(gè)步驟:首先,拼接問句向量和特征詞向量后輸入到分類模型進(jìn)行學(xué)習(xí),得到分類依據(jù);其次,根據(jù)分類依據(jù)對(duì)新到問句進(jìn)行類型判定;最后,利用精度、召回率、F1值對(duì)分類結(jié)果進(jìn)行評(píng)價(jià)。在SVM中,懲罰系數(shù)C的確定較為關(guān)鍵,多次實(shí)驗(yàn)結(jié)果表明,懲罰系數(shù)C=0.5時(shí)問句分類效果最優(yōu)。常用的核函數(shù)有兩類:線性函數(shù)和徑向基函數(shù),其中線性函數(shù)適用于線性可分的情況,其參數(shù)少且運(yùn)算快;徑向基函數(shù)適用于線性不可分的情況,其參數(shù)多且運(yùn)算慢。綜合考慮實(shí)驗(yàn)需求,采用線性函數(shù)作為核函數(shù)。圖4展示了利用SVM對(duì)中華典籍問句分類的系統(tǒng)界面。

        3.2.2 利用深度學(xué)習(xí)模型對(duì)中華典籍問句分類

        深度學(xué)習(xí)模型問句分類實(shí)驗(yàn)包括三個(gè)步驟:首先,利用前面提到的預(yù)處理方法,將中華典籍問句表示為詞向量,并依次輸入深度學(xué)習(xí)模型;其次,利用反向傳播算法調(diào)整模型參數(shù),經(jīng)多次迭代,得到最優(yōu)分類模型;最后,利用分類模型,對(duì)新到問句進(jìn)行類型判定,并對(duì)分類結(jié)果進(jìn)行分析評(píng)價(jià)。RNN、LSTM、BiLSTM等深度學(xué)習(xí)模型的參數(shù)設(shè)置如表2所示,其中隱層神經(jīng)元數(shù)表征深度學(xué)習(xí)模型的規(guī)模;參數(shù)batch_size表征一次學(xué)習(xí)的樣本規(guī)模;學(xué)習(xí)率反映深度學(xué)習(xí)模型的更新幅度;Dropout值用來規(guī)避“過擬合”現(xiàn)象的發(fā)生;最大序列長度表示問句的最大長度;Epoch表示全體樣本參與學(xué)習(xí)的次數(shù)。

        表2 RNN、LSTM、BiLSTM參數(shù)設(shè)置Table 2 The optimal parameters of RNN, LSTM and BiLSTM

        Fig.4 The interface of Chinese classics question system based on SVM圖4 利用SVM對(duì)中華典籍問句分類的系統(tǒng)界面

        圖5、圖6、圖7給出了利用上述三類深度學(xué)習(xí)模型對(duì)中華典籍問句分類的系統(tǒng)界面。

        3.2.3 BERT

        BERT模型問句分類實(shí)驗(yàn)包括三個(gè)步驟:首先,將中華典籍問句逐字輸入模型;然后,利用多層注意力機(jī)制進(jìn)行特征提??;最后,依據(jù)問句分類體系,判斷輸入問句的類型。BERT模型的參數(shù)設(shè)置如下:batch_size設(shè)置為16,epoch設(shè)置為5,學(xué)習(xí)率設(shè)置為2e-5。

        圖8展示了利用BERT模型對(duì)中華典籍問句分類的系統(tǒng)界面。

        Fig.5 The interface of Chinese classics question system based on RNN圖5 利用RNN對(duì)中華典籍問句分類的系統(tǒng)界面

        Fig.6 The interface of Chinese classics question system based on LSTM圖6 利用LSTM對(duì)中華典籍問句分類的系統(tǒng)界面

        Fig.7 The interface of Chinese classics question system based on BiLSTM圖7 利用BiLSTM對(duì)中華典籍問句分類的系統(tǒng)界面

        3.3 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)所用評(píng)價(jià)指標(biāo)包括精度P(Precision)、召回率R(Recall)、F1值,定義如下:

        在中華典籍問句分類語料集上先后運(yùn)行SVM、RNN、LSTM、BiLSTM以及BERT等方法,將實(shí)驗(yàn)結(jié)果記錄于表3。

        表3 不同方法的運(yùn)行結(jié)果Table 3 The performances of different classification methods

        Fig.8 The interface of Chinese classics question system based on BERT圖8 利用BERT對(duì)中華典籍問句分類的系統(tǒng)界面

        由表3可以看出:與深度學(xué)習(xí)模型相比,SVM由于特征提取能力弱,故問句分類能力較差;RNN利用序列化神經(jīng)元對(duì)詞向量抽取時(shí)間序列上的特征,因而問句分類能力較之SVM有了一定提升,但效率依然不高,究其原因是當(dāng)問句較長時(shí),過長的傳播路徑會(huì)導(dǎo)致該模型出現(xiàn)“梯度爆炸”和“梯度消失”的問題;LSTM通過引入門結(jié)構(gòu)來控制信息的傳遞和遺忘,有效地緩解了RNN面臨的兩大問題,因而與RNN相比,該模型在一定程度上提高了問句分類能力,其精度、召回率、F1值分別提高2.68%、3.74%、3.22%;BiLSTM是雙層LSTM結(jié)構(gòu),該模型較之LSTM具有更強(qiáng)的特征提取能力,因而其分類精度、召回率、F1值均有不同幅度的提升;BERT引入多層注意力機(jī)制不僅能夠捕獲長距離特征,而且還能有效區(qū)分問句特征詞的重要程度,因而其分類能力最優(yōu)。上述實(shí)驗(yàn)表明,BERT在中華典籍問句分類任務(wù)中具有一定優(yōu)勢(shì)。

        3.4 模型應(yīng)用

        圖9給出了中華典籍問句分類系統(tǒng)界面。該系

        Fig.9 The interface of Chinese classics question system圖9 中華典籍問句分類系統(tǒng)界面

        統(tǒng)包括模型選擇、模型訓(xùn)練、結(jié)果展示等功能。該系統(tǒng)的基本應(yīng)用流程是:首先,點(diǎn)擊界面左側(cè)的“模型應(yīng)用”按鈕進(jìn)入模型應(yīng)用界面;然后,點(diǎn)擊“模型選擇”按鈕進(jìn)行模型類型選擇,或點(diǎn)擊“選擇已有模型”按鈕加載事先訓(xùn)練好的模型;接著,將問句輸入“待分類問句”輸入框,點(diǎn)擊“分類”按鈕即可在下方的文本框顯示分類結(jié)果。

        4 總結(jié)與展望

        本文以《史記》《漢書》《三國志》《新唐書》《戰(zhàn)國策》《資治通鑒》《聊齋志異》《儒林外史》《搜神記》《世說新語》等十部中華典籍的相關(guān)問句構(gòu)成的語料集為基礎(chǔ),對(duì)SVM、RNN、LSTM、BiLSTM、BERT等模型的問句分類性能進(jìn)行了比較研究。實(shí)驗(yàn)語料集共包含2 000條問句,按照五折交叉驗(yàn)證方式設(shè)計(jì)實(shí)驗(yàn),取五次實(shí)驗(yàn)F1的均值作為最終的分類結(jié)果。實(shí)驗(yàn)結(jié)果表明,與SVM和傳統(tǒng)深度學(xué)習(xí)模型相比,BERT模型具有更優(yōu)的問句分類能力。本文對(duì)典籍問句標(biāo)注采用人工方式進(jìn)行,該方式費(fèi)事費(fèi)力,能否對(duì)典籍問句進(jìn)行自動(dòng)化標(biāo)注值得進(jìn)一步研究。

        猜你喜歡
        典籍向量中華
        向量的分解
        《典籍里的中國》為什么火?
        金橋(2021年4期)2021-05-21 08:19:24
        聚焦“向量與三角”創(chuàng)新題
        Satiric Art in Gulliver’s Travels
        東方教育(2017年11期)2017-08-02 15:02:00
        An Analysis of "The Open Boat" from the Perspective of Naturalism
        東方教育(2017年11期)2017-08-02 12:17:28
        On the Images of Araby and Their Symbolic Meaning
        東方教育(2017年11期)2017-08-02 06:22:44
        A Study of the Feminism in Mary Shelly`s Frankenstein
        東方教育(2017年11期)2017-08-02 00:08:49
        在詩詞典籍中賞春日盛景
        向量垂直在解析幾何中的應(yīng)用
        典籍翻譯模式的構(gòu)建與啟發(fā)
        久久一区av蜜桃人妻| 波多野42部无码喷潮在线| 亚洲人成网址在线播放| 久草热8精品视频在线观看| 色噜噜狠狠狠综合曰曰曰| 亚洲aⅴ无码成人网站国产app| 亚洲最大无码AV网站观看| 风韵丰满妇啪啪区老老熟女杏吧| 91久久香蕉国产熟女线看| 美女扒开内裤让我捅的视频| 国产精品美女一区二区视频| 国产精品福利自产拍在线观看| 好爽…又高潮了毛片免费看| 亚洲日产AV中文字幕无码偷拍| 中文字幕亚洲一区视频| 国99精品无码一区二区三区| 朝鲜女人大白屁股ass| 国产成人77亚洲精品www| 激情内射亚洲一区二区| 中文字幕综合一区二区| 真实的国产乱xxxx在线| 午夜亚洲www湿好爽| 午夜精品久视频在线观看| 亚洲av中文字字幕乱码软件| 亚洲精品中文字幕免费专区| 中文无码日韩欧| 亚洲精品中国国产嫩草影院美女| 亚洲高清精品50路| 国产精品国产三级国产专播| 亚洲综合图色40p| 国产精品对白刺激久久久| 亚洲成在人网av天堂| 国产一区二区三区免费在线播放| 日韩亚洲精品国产第二页 | 男人的天堂无码动漫av| 熟妇人妻中文av无码| 伊人色综合九久久天天蜜桃| 亚洲无毛成人在线视频| 久人人爽人人爽人人片av| 亚洲永久无码7777kkk| 韩国无码精品人妻一区二 |