彭玉芳 陳將浩 何志強
摘 要:[目的/意義]本文嘗試從文獻載體到文獻內(nèi)容(全文檢索)再到數(shù)據(jù)層面的細粒度的南海證據(jù)性數(shù)據(jù)抽取。首先,能提高南海文獻數(shù)字資源的檢索性能;其次,為專業(yè)人員提供充足的證據(jù)材料;最后,為南海維權(quán)的證據(jù)鏈關(guān)聯(lián)模型構(gòu)建做好基礎(chǔ)。[方法/過程]根據(jù)南海維權(quán)證據(jù)的特點,制定抽取規(guī)則。通過文本清洗、文本分段、段分句、分詞把非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)。然后分別比較樸素貝葉斯、SVM、隨機森林、DNN、TexCNN、Bi-LSTM、LightGBM和XGBoost的證據(jù)性數(shù)據(jù)抽取效果。最后為了進一步提高證據(jù)抽取的準(zhǔn)確性,增加了“5W”規(guī)則過濾和人工校驗。[結(jié)果/結(jié)論]實驗結(jié)果表明,基于TensorFlow深度學(xué)習(xí)框架,構(gòu)建DNN模型的證據(jù)性數(shù)據(jù)抽取效果較好,準(zhǔn)確率達0.88。通過進一步融合“5W”規(guī)則過濾和人工校驗,顯著地提高了南海證據(jù)性數(shù)據(jù)抽取的準(zhǔn)確率,本文的證據(jù)抽取的方法具有一定的可行性。
關(guān)鍵詞:證據(jù)性數(shù)據(jù)抽取;TensorFlow;機器學(xué)習(xí)算法;深度學(xué)習(xí)算法;“5W”規(guī)則
DOI:10.3969/j.issn.1008-0821.2022.02.006
〔中圖分類號〕G255 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821(2022)02-0055-15
Comparison and Application of South China Sea Evidence Data Extraction
Algorithms Based on the Machine Learning and the Deep Learning
Peng Yufang1,2 Chen Jianghao3 He Zhiqiang4
(1.School of Economics & Management,Nanjing Institute of Technology,Nanjing 211167,China;
2.Department of Information Management,Nanjing University,Nanjing 210046,China;
3.School of Mathematical Sciences,University of Science and Technology of China,Hefei 230026,China;
4.Suzhou Research Institute,University of Science and Technology of China,Suzhou 215123,China)
Abstract:[Purpose/Significance]The study attempts to extract the fine-grained evidence data of the South China Sea from the document carrier to the document content(full-text search)to the data level.Firstly,it can improve the retrieval performance of the digital resources of the South China Sea literature;secondly,it provides sufficient evidence materials for professionals;and finally,it provides a foundation for the construction of the evidence chain association model of the South China Sea rights protection.[Method/Process]According to the characteristics of the South China Sea rights protection evidence,the extraction rules were formulated.Unstructured data were transformed into structured data through text cleaning,text segmentation,paragraph segmentation,and word segmentation.Then the evidence data extraction effects of Naive Bayes,SVM,Random Forest,DNN,TextCNN,Bi-LSTM,LightGBM and XGBoost were compared respectively.Finally,in order to further improve the accuracy of evidence extraction,“5W”rule filtering and manual verification were added.[Result/Conclusion]The experimental results showed that based on the TensorFlow deep learning framework,the evidence data extraction effect of the DNN model was better,and the accuracy rate was 0.88.Through further integration of“5W”rule filtering and manual verification,the accuracy of evidence extraction was significantly improved.The method of evidence extraction from? the South China Sea literature in this article has certain feasibility.
Key words:evidence data extraction;TensorFlow;machine learning algorithm;deep learning algorithm;“5W”rule
自西漢時期,中國人就已經(jīng)發(fā)現(xiàn)了今天的南沙群島。時至今日,沒有一個國家在南海留下如此多的中國文化烙印,也沒有哪一國政府像中國那樣雖歷經(jīng)改朝換代,卻始終如一地在官史記載中留下大量主權(quán)行使的記錄。隨著近幾年南海問題國際化和司法化愈演愈烈,為了爭取更多的國際話語權(quán),維護中國在南海的海洋權(quán)益和領(lǐng)土主權(quán)完整,首先需要從大量的證據(jù)材料中抽取證據(jù),為證據(jù)鏈的構(gòu)建做好充分的準(zhǔn)備。南海證據(jù),指所有能夠證明南海領(lǐng)土主權(quán)歸屬事實的材料。南海證據(jù)需同時包含時間、地點、人物、機構(gòu)和事件,除了證據(jù)本身以外,還包含一些比較重要的證據(jù)描述。
越來越多的學(xué)者開始投身南海證據(jù)的研究,但目前無論從南海文庫數(shù)字資源中還是從實體證據(jù)材料中尋找南海證據(jù),大多局限于證據(jù)材料的載體形式,難以直接深入證據(jù)材料的內(nèi)容或數(shù)據(jù)層面,因而孤證較多,難以構(gòu)成反映歷史全貌的證據(jù)體系。關(guān)于證據(jù)抽取方法,陶鵬通過命名實體識別和神經(jīng)網(wǎng)絡(luò)模型對司法領(lǐng)域的庭審記錄文書進行證據(jù)信息抽取[1],張力元等通過LS-SVM對生物證據(jù)句子抽取[2],丁志遠提出了基于混合模型和邊界的判決文書與案件卷宗的證據(jù)抽取方法[3],而領(lǐng)域性的南海證據(jù)抽取的研究方法甚少,目前主要依靠人工實現(xiàn)。例如,20世紀(jì)70年代起,我國學(xué)者就開始從歷史和法律結(jié)合的角度提供了無可辯駁的證據(jù)。從1979年,林金枝教授開始從史料角度論述南海領(lǐng)土主權(quán)歸屬[4],到2011年余敏友等,結(jié)合國際法來論述南海領(lǐng)土主權(quán)歸屬[5],尤其是2015年至今,國內(nèi)有學(xué)者從法理依據(jù)和歷史依據(jù)相結(jié)合來論述南海領(lǐng)土主權(quán)的歸屬[6],張衛(wèi)彬教授對南沙群島主權(quán)證據(jù)的梳理[7]和黃巖島主權(quán)的證據(jù)梳理[8],許盤清等教授亦從地圖視角詳細論述南海主權(quán)的證據(jù)[9]。
綜上所述,目前基于歷史依據(jù)和法律依據(jù),從文獻載體到文獻內(nèi)容(全文檢索)再到數(shù)據(jù)層面的細粒度的南海證據(jù)抽取還處于空白。本文通過選擇常用的機器學(xué)習(xí)算法和深度學(xué)習(xí)算法,構(gòu)建南海證據(jù)性數(shù)據(jù)抽取模型,并分別比較證據(jù)性數(shù)據(jù)抽取的效果。最后融合“5W”規(guī)則過濾和人工校驗進一步提高證據(jù)抽取的準(zhǔn)確率。但這里需要注意:通過機器學(xué)習(xí)或深度學(xué)習(xí)抽取的數(shù)據(jù),不能完全稱為證據(jù),只能叫證據(jù)性數(shù)據(jù)。證據(jù)性數(shù)據(jù)有的是證據(jù),有的不屬于證據(jù),只有通過證據(jù)價值判斷和人工甄別才可能稱為證據(jù)。本文不做從證據(jù)學(xué)視角的證據(jù)研究,即不做證據(jù)價值判斷。由于抽取出來的證據(jù)性數(shù)據(jù)有一部分是屬于一手資料的證據(jù),還有一部分屬于二手資料的證據(jù)性描述(帶有作者觀點的證據(jù)性數(shù)據(jù))是有一定價值,可以作為證明案件的線索,所以沒有刪除,為了統(tǒng)一名詞,將這兩種證據(jù)性數(shù)據(jù)都統(tǒng)一命名為證據(jù)(后期將展開證據(jù)研究)。
1 相關(guān)研究
本文南海證據(jù)抽取,屬于細粒度的信息抽取。信息抽取指從自然語言文本中抽取指定類型的實體、關(guān)系、事件等事實信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)[10]。目前信息抽取依然是自然語言處理的研究熱點和重點。
國內(nèi)外信息抽取研究現(xiàn)狀。本文從CNKI數(shù)據(jù)庫,通過主題精確檢索“信息抽取”,采集2011—2021年的國內(nèi)信息抽取研究數(shù)據(jù),最終獲得有效數(shù)據(jù)2 968條。通過jieba[11]對摘要數(shù)據(jù)部分進行分詞,然后應(yīng)用LDA主題模型[12]分析國內(nèi)信息抽取的研究主題。從Web of Science核心合集,主題檢索“Information Extraction”,時間跨度:2011—2021,文獻類型:ARTICLE,發(fā)現(xiàn)有88 246條,數(shù)據(jù)量比較大,此時修改檢索策略。從Web of Science核心合集,標(biāo)題檢索“Information Extraction”,時間跨度:2011—2021,最終獲得有效數(shù)據(jù)1 959條。通過Nltk[13]對摘要數(shù)據(jù)部分進行分詞,同樣應(yīng)用LDA主題模型分析國外信息抽取的研究主題。
通過LDA模型,比較分析國內(nèi)外信息抽取的研究主題,具體如表1所示。由此可見,目前國內(nèi)外信息抽取主要集中在信息技術(shù)及命名實體識別中,而且領(lǐng)域性的信息抽取也逐漸增多,例如醫(yī)療領(lǐng)域、圖像等的信息抽取。
為了更直觀地看到國內(nèi)外信息抽取的研究主題,通過Python生成詞云圖[14],具體如圖1和圖2所示。
綜上所述,目前國內(nèi)外信息抽取的研究主要集中在信息抽取技術(shù)、命名實體識別以及領(lǐng)域性的應(yīng)用研究。①信息抽取技術(shù)。信息抽取的主要任務(wù)包括命名實體識別、實體消歧、關(guān)系抽取、事件抽取等,但無論哪種任務(wù)信息抽取的方法都大同小異。李嘉欣等[15]的命名實體識別方法綜述。信息抽取的方法主要可分為以下幾種:基于詞典和規(guī)則的方法;基于統(tǒng)計機器學(xué)習(xí)的方法,例如隱馬爾可夫模型(HMM)、最大熵、支持向量機(SVM)、條件隨機場(CRF)、貝葉斯方法、決策樹、隨機森林等;基于深度學(xué)習(xí)的方法:循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)、用雙向長短期記憶模型和條件隨機場(BILSTM-CRF)、BILSTM-CNNs-CRF、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、BERT、GRU、ELMo、GPT等,每種算法都有其優(yōu)缺點,沒有最好的算法,只有最適合的算法;②信息抽取的領(lǐng)域性應(yīng)用,主要集中在醫(yī)療健康領(lǐng)域、圖像的信息抽取。證據(jù)抽取屬于信息抽取的一部分,但目前證據(jù)抽取的研究甚少。例如,陶鵬基于聯(lián)合模型的庭審記錄證據(jù)信息抽取[16];張力元等應(yīng)用LS-SVM與條件隨機場結(jié)合的生物證據(jù)句子抽取[17];歐陽輝等基于證據(jù)理論的論文元數(shù)據(jù)抽取[18];楊健等基于邊界識別與組合的裁判文書證據(jù)抽取方法研究[19];Kamarainen J K等基于簡單的Gabor特征及其統(tǒng)計排名的對象證據(jù)抽取[20];Nishida K等通過多跳問答的多任務(wù)學(xué)習(xí)的證據(jù)抽取[21]等,以上已經(jīng)初步實現(xiàn)自動化或半自動化的證據(jù)抽取。關(guān)于南海證據(jù)抽取,現(xiàn)階段主要為人工抽取,例如,張朔人等的《更路簿》民間的南海證據(jù)[22];康丹關(guān)于南海島礁主權(quán)歸屬證據(jù)研究[23];黃盛璋關(guān)于南海諸島的歷史證據(jù)[24];張衛(wèi)彬的中國擁有釣魚島[25]、南沙主權(quán)的證據(jù)[26]等。因此,本文應(yīng)用常用的機器學(xué)習(xí)算法和深度學(xué)習(xí)算法構(gòu)建南海證據(jù)性數(shù)據(jù)抽取模型,并比較模型的證據(jù)抽取效果,然后結(jié)合“5W”規(guī)則過濾和人工校驗,初步實現(xiàn)南海證據(jù)的半自動化抽取。
2 相關(guān)理論與方法
2.1 機器學(xué)習(xí)算法
Tom Mitchell,認(rèn)為機器學(xué)習(xí)就是指計算機通過自身經(jīng)驗改善系統(tǒng)性能的行為[27]。簡言之,機器學(xué)習(xí)指計算機通過算法學(xué)習(xí)數(shù)據(jù)中隱藏的規(guī)律和信息,從而獲得新的經(jīng)驗和知識,便于計算機處理類似任務(wù)時候,能夠像人一樣思考與決策[28]。機器學(xué)習(xí)的算法眾多,包括樸素貝葉斯(Nave Bayesian)、決策樹、隨機森林、K-Means、AdaBoost、SVM等[29]。
本文選用了機器學(xué)習(xí)領(lǐng)域經(jīng)典算法:樸素貝葉斯、SVM、隨機森林,以及常用的集成學(xué)習(xí)方法:LightGBM和XGBoost,重點描述樸素貝葉斯、LightGBM和XGBoost。
1)樸素貝葉斯(NB)算法是國內(nèi)外常用統(tǒng)計分類算法,由于其較高的穩(wěn)定性和簡潔的模型的特點,在文本分類領(lǐng)域占有重要的地位。潘忠英[30]對樸素貝葉斯做了詳細闡述。貝葉斯理論[31]作為概率論理論,即利用已知樣本數(shù)據(jù)的先驗知識,通過計算未知分類樣本的后驗概率,從而選擇后驗概率值最大的那一類[32]。
本文首先人工標(biāo)注南海證據(jù),標(biāo)簽Tag=1,即為“南海證據(jù)”,Tag=0,為非“南海證據(jù)”。設(shè)D為證據(jù)材料集,D={d1,d2,…,dn},對應(yīng)的每份證據(jù)材料抽取的數(shù)據(jù)集為X={x1,x2,…,xd},標(biāo)簽數(shù)據(jù)T={t1,t2}={1,0},即D中的Xi可以分為T的類別。其中X中的每個元素都是相互獨立且隨機。則T的先驗概率Pprior=P(T),T的后驗概率Ppost=(T|X),由樸素貝葉斯算法可得:
P(T|X)=P(T)P(X|T)P(X)(1)
樸素貝葉斯基于Xi之間相互獨立,在給定類別為T的情況下,式(1)進一步表示為:
P(X|T=tm)=∏di=1P(xi|T=tm) (m=1,2)(2)
由式(1)和式(2)計算出后驗概率為:
Ppost=P(T|X)=P(T)∏di=1P(xi|T)P(X)(3)
最終得到X數(shù)據(jù)集中類別屬于Tm(m=1,2)的樸素貝葉斯計算:
P(tm|x1,x2,…,xd)=P(tm)∏dj=1P(xj|tm)∏dj=1P(xj) (m=1,2)(4)
2)LightGBM
集成學(xué)習(xí)(Ensemble learning),比傳統(tǒng)的機器學(xué)習(xí)算法具有較高的泛化能力,愈加備受青睞[33]。2016年底,Ke G L等[34]提出LightGBM(Light Gradient Bosting Machine),是微軟提出的一種基于決策樹的梯度提升框架,具有高精度、高并發(fā)、占用內(nèi)存小等優(yōu)點。LightGBM是GBDT的一種,包括兩個最主要的創(chuàng)新:GOSS和EFB。
3)XGBoost算法[35]
極限梯度提升樹(Extreme Gradient Boosting,XGBoost)算法是Boosting集成算法的一種。由Chen T和Guestrin C在2011年初步提出,這是一種基于GTB的學(xué)習(xí)框架。XGBoost的拓展性十分強,靈活性也相對較強、精度高。XGBoost通常以決策樹為基學(xué)習(xí)器,新生成的樹不斷學(xué)習(xí)當(dāng)前樹預(yù)測值與真實值之間的殘差,最終將多棵樹的學(xué)習(xí)結(jié)果累加作為預(yù)測結(jié)果。目標(biāo)函數(shù)由損失函數(shù)和樹模型復(fù)雜度兩部分組成,即:obj=∑ni=1l(yi,i)+∑kk=1θ(fk)。
2.2 深度學(xué)習(xí)算法
深度學(xué)習(xí)(Deep Learning,DL)是從已標(biāo)注分類的實驗數(shù)據(jù)學(xué)習(xí)類似人腦處理信息的神經(jīng)結(jié)構(gòu),實現(xiàn)實驗數(shù)據(jù)的自動分類的過程[36]。它是機器學(xué)習(xí)領(lǐng)域的一個最新發(fā)展[37]。深度學(xué)習(xí)網(wǎng)絡(luò)內(nèi)部應(yīng)用了激活函數(shù)、損失函數(shù)、神經(jīng)單元誤差反向傳播法、梯度下降法等多種數(shù)學(xué)工具,具備嚴(yán)謹(jǐn)?shù)目茖W(xué)性。通過不斷地計算數(shù)據(jù)和損失,得到可以用于預(yù)測或分類的神經(jīng)網(wǎng)絡(luò)模型[38]。目前基于深度學(xué)習(xí)的信息抽取方法主要包括DNN、LSTM、CNN、RNN,及其他們的擴展,包括Bi-LSTM,Bi-LSTM-CNN,CNN+Attention等[39]。本文就選擇了文本分類中較常用的深度學(xué)習(xí)算法DNN、TextCNN和Bi-LSTM。
1)深度神經(jīng)網(wǎng)絡(luò)(DNN)
目前,深度學(xué)習(xí)算法大多是基于DNN,它分為輸入層、輸出層和隱藏層,網(wǎng)絡(luò)的每一層都由許多神經(jīng)元組成,層與層間采用全連接結(jié)構(gòu)[40]。本文的深度神經(jīng)網(wǎng)絡(luò)是由一層輸入層、兩層隱藏層以及一層輸出層組成,并且經(jīng)過多次試驗,隱藏層64、隱藏層16可獲得最佳性能,具體如圖3所示。
深度神經(jīng)網(wǎng)絡(luò),層與層之間的數(shù)據(jù)傳輸通過神經(jīng)網(wǎng)絡(luò)的最小單元——神經(jīng)元來計算,具體如圖4所示。z表示將輸入線性加權(quán),權(quán)重是需要學(xué)習(xí)的參數(shù),表示激活函數(shù)(常用的激活函數(shù)有sigmoid函數(shù)、tanh函數(shù)、relu函數(shù))。激活函數(shù)的引入,使得深度學(xué)習(xí)具有解決非線性問題的能力,使模型的假設(shè)空間從線性擴展到非線性,大大提高了模型的表達能力。
z=∑(wixi+bi)
y=σ(z)=σ∑(wixi+bi)
2)卷積神經(jīng)網(wǎng)絡(luò)(CNN)
卷積神經(jīng)網(wǎng)絡(luò),是一種深度學(xué)習(xí)模型或類似于人工神經(jīng)網(wǎng)絡(luò)的多層感知器,為了提高一般前向向后傳播算法的訓(xùn)練性能,CNN通過不斷迭代訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu),并利用空間關(guān)系減少需要學(xué)習(xí)的參數(shù)數(shù)目[42]。
典型的CNN主要由輸入層、卷積層、池化層、全連接層和輸出層組成,具體如圖5所示[43]。其中CNN的基本結(jié)構(gòu)包括兩種特殊的神經(jīng)元層:①卷積層,每個神經(jīng)元的輸入與前一層的局部相連,并提取該局部的特征;②池化層,用來求局部敏感性與二次特征提取的計算層。這種兩次特征提取結(jié)構(gòu)減小了特征分辨率,減少了需要優(yōu)化的參數(shù)數(shù)目[44-45]。卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中,通常采用梯度下降方法進行優(yōu)化模型。
Kim Y在2014年首次提出運用卷積神經(jīng)網(wǎng)絡(luò)進行文本分類,即TextCNN。TextCNN輸入層的形式是一個句子中的單詞以及單詞對應(yīng)的詞向量形成的n*k矩陣,其中n為句子的單詞數(shù),k為詞向量維度。本文TextCNN分別使用步長為3、4和5的一維卷積層處理文本數(shù)據(jù)[46]。
3)長短期記憶網(wǎng)絡(luò)(LSTM)
長短期記憶網(wǎng)絡(luò)(Long-Short Time Memory,LSTM)作為目前最有效的序列模型,對傳統(tǒng)RNN模型的梯度消失問題的改進,增加了一個判斷數(shù)據(jù)保留還是遺忘的細胞結(jié)構(gòu)cell[47]。LSTM主要由三大門限單元構(gòu)成,分別是遺忘門、輸入門和輸出門,具體如圖6所示[48]。
首先,遺忘門,LSTM處理時序數(shù)據(jù)時,是從左邊向右邊處理,因此大量的信息在輸入時,需要決定哪些信息是保留的,哪些信息是需要舍棄的。在遺忘門里有一個開關(guān)控制,即圖中ft。控制函數(shù)為:
f(t)=σ(wf[h(t-1),xt]+bf)(5)
其中wf、bf分別為遺忘門的權(quán)重和偏置。
其次,輸入門,前文的信息經(jīng)過選擇輸入到輸入門中,在這一層的任務(wù)是決定哪些信息需要更新,以及更新多少:
it=σ(wi[h(t-1),xt]+bi)(6)
ct=σ(wc[h(t-1),xt]+bc)(7)
Ct=it*ct+f(t)*Ct-1(8)
其中wi和wc代表相應(yīng)的權(quán)重,bi以及bc代表相應(yīng)的偏置,Ct表示當(dāng)前的單元狀態(tài)值。
最后,輸出門,經(jīng)過前兩道門的篩選完成后,最后經(jīng)過輸出門,決定哪些信息是需要輸出的,輸出門內(nèi)有控制輸出的開關(guān):
σt=σ(wo[h(t-1),xt]+bo)(9)
ht=ot*tanh-1(ct)(10)
其中wo和bo代表輸出門的權(quán)重和偏置,ht為當(dāng)前單元的輸出值。
本文使用Bi-LSTM(Bidirectional Long ShortTerm Memory,BLSTM)在LSTM的基礎(chǔ)上,分別用前向和后向的LSTM來抓取過去和將來所含的隱藏信息,這兩部分的信息組成最終的輸出[49]。
3 數(shù)據(jù)預(yù)處理及數(shù)據(jù)標(biāo)注
3.1 文本清洗
南海文庫數(shù)字資源由沈固朝團隊構(gòu)建,是南海問題證據(jù)鏈工程和話語權(quán)工程的重要內(nèi)容。本文從中下載409篇PDF格式的南海證據(jù)材料,并通過Python程序轉(zhuǎn)化成TXT格式。證據(jù)材料資源類型主要包括期刊和學(xué)位論文,含有少量的報紙、地圖、檔案。為了提高實驗的準(zhǔn)確性,這時候需要對TXT的證據(jù)材料做進一步清洗,主要包括以下幾個方面:①去掉除中文詞、英文字母、數(shù)字,以及某些特定標(biāo)點符號以外的特殊符號;②去掉文章中多余的空格、空行;③英文字母統(tǒng)一轉(zhuǎn)為小寫。文本清洗之后,再進行文本分段、段分句,獲得處理對象的最小單位“句子”,即一句話或一段文字。
3.2 文本分詞
通過對文本中的句子進行分詞,便于后期做抽取工作,也有利于對證據(jù)材料做進一步的數(shù)據(jù)挖掘。目前分詞工具眾多,例如jieba、thulac、pkuseg、hanlp、ltp等,鑒于分詞的準(zhǔn)確性及運行時效,最終選擇jieba分詞作為本文的分詞工具,其采用比較流行的分詞算法隱馬爾可夫鏈(HMM)。本文研究南海證據(jù),屬于領(lǐng)域性的主題,現(xiàn)有的分詞字典可能不包含南海領(lǐng)域詞匯,因此本研究增加了6 418個南海專業(yè)領(lǐng)域詞。
3.3 文本預(yù)處理結(jié)果
通過以上文本清洗、文本分段、段分句,獲得處理對象的最小單位——中文概念中的句子,然后對句子進行分析,將非結(jié)構(gòu)的txt文本轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù),每一行都表示文本中的完整的一個句子,具體如表2所示。
3.4 實驗數(shù)據(jù)標(biāo)注
南海證據(jù)的抽取屬于二分類問題。由于不同學(xué)科不同研究領(lǐng)域的專家對南海證據(jù)的鑒定及證據(jù)價值的評價容易產(chǎn)生分歧,很難統(tǒng)一,因此從定性或定量的角度來評判南海證據(jù)是非常困難的。本文不從證據(jù)法視角來研究南海證據(jù),其研究目標(biāo)之一是為相關(guān)專家提供南海證據(jù)材料,不做南海證據(jù)的研究。人工標(biāo)注南海證據(jù)的依據(jù)是證據(jù)的五大基本屬性“時間、地點、人物、機構(gòu)和事件”。然后通過機器學(xué)習(xí)、深度學(xué)習(xí)算法,自動學(xué)習(xí)證據(jù)性數(shù)據(jù)抽取模型,找出證據(jù)性數(shù)據(jù)抽取效果比較好的模型,并應(yīng)用到具體證據(jù)材料中。由于機器學(xué)習(xí)和深度學(xué)習(xí)并不能百分百精確完成證據(jù)抽取任務(wù),因此增加了“5W”規(guī)則過濾,以及最終的人工校驗。通過以上才能初步完成南海證據(jù)的抽取。
本文從409篇證據(jù)材料中隨機抽取81篇,然后每篇隨機抽取10~20條句子作為南海證據(jù),進行人工標(biāo)注,標(biāo)注的依據(jù)是“凡是能證明南海領(lǐng)土主權(quán)歸屬事實的材料,同時包含時間、地點、人物、機構(gòu)和事件”。由于作者自2014年至今都從事南海證據(jù)鏈研究,所以標(biāo)注的效果相對比較好一些。“Tag=1”是“南海證據(jù)”,“Tag=0”屬于非“南海證據(jù)”。最終從81篇證據(jù)材料中抽取1 529條數(shù)據(jù),其中“Tag=1”的“南海證據(jù)”有641條,“Tag=0”的非“南海證據(jù)”有888條,具體如表3所示。然后對1 529條實驗樣本按比例進行分配。訓(xùn)練集和驗證集共計占80%,用來訓(xùn)練模型,驗證集的作用是為了模型調(diào)優(yōu),防止過擬合。測試集是將模型訓(xùn)練和預(yù)測過程隔離,防止信息泄露。模型是否成功,主要看其在測試集上的效果。這樣得到訓(xùn)練集樣本容量980;驗證集樣本容量244;測試集樣本容量305。本文應(yīng)用機器學(xué)習(xí)和深度學(xué)習(xí)的證據(jù)抽取的實驗樣本分布參考此處。
4 南海證據(jù)性數(shù)據(jù)抽取模型構(gòu)建
本文分別基于樸素貝葉斯、SVM、隨機森林、DNN、CNN、LSTM、LightGBM和XGBoost構(gòu)建南海維權(quán)的證據(jù)性數(shù)據(jù)抽取模型,并比較這些模型的證據(jù)性數(shù)據(jù)抽取效果。
4.1 基于樸素貝葉斯的南海證據(jù)性數(shù)據(jù)抽取
4.1.1 文本向量化
輸入上文已經(jīng)分好詞的文本,使用BOW和N-gram將文本向量化。根據(jù)訓(xùn)練樣本,將單詞進行one-hot編碼,計算出的詞匯量大小為V,則每個單詞獲得一個唯一的向量,長度為V。除了單詞所在的位置為1,其他位置均為0:
wordi=(0,…,1,…,0)
單詞向量化以后,再將單詞所構(gòu)成的句子進行向量化。S表示一個待分類的句子。將S中的單詞計數(shù),獲得S的單詞和對應(yīng)的數(shù)量(即詞袋)。S中的單詞集合表示為{word1:n1,…,words:ns},S中的單詞的位置上,放置這個單詞的個數(shù),未出現(xiàn)的單詞為0,此時文本向量化完成,即S的向量表示為:
S=(n1,…,ns,0,…,0)
4.1.2 模型訓(xùn)練
樸素貝葉斯模型的實驗數(shù)據(jù)表示為(文本向量,標(biāo)簽)。前文抽取的1 529條數(shù)據(jù),按8∶2的比例分為訓(xùn)練集和測試集,然后放入樸素貝葉斯分類模型,學(xué)習(xí)出樸素貝葉斯分類器。實驗數(shù)據(jù)集如表4所示。
通過混淆矩陣分析基于樸素貝葉斯分類器的南海證據(jù)性數(shù)據(jù)抽取結(jié)果,測試集上的混淆矩陣如表5所示。
從混淆矩陣可得基于樸素貝葉斯分類器的南海證據(jù)性數(shù)據(jù)抽取效果,計算準(zhǔn)確率(Accuracy)、精確率(Precision,查準(zhǔn)率)及召回率(Recall,查全率)。本文定義:TP為“南海證據(jù)”被判斷為“南海證據(jù)”的數(shù)量,TN“南海證據(jù)”被判斷為非“南海證據(jù)”的數(shù)量,F(xiàn)P為非“南海證據(jù)”被判斷為“南海證據(jù)”的數(shù)量,F(xiàn)N為“南海證據(jù)”被判斷為非“南海證據(jù)”的數(shù)量。于是得TP=100,TN=131,F(xiàn)P=31,F(xiàn)N=44,根據(jù)以下公式得:
Accuracy=(TP+TN)/(TP+TN+FP+FN)(11)
Precision=TP/(TP+FP)(12)
Recall=TP/(TP+FN)(13)
F1=2PR/(P+R)(14)
最終基于樸素貝葉斯的南海證據(jù)抽取效果為:Accuracy=0.75,Precision=0.76,Recall=0.69,F(xiàn)1=0.72。
4.2 基于DNN的南海證據(jù)性數(shù)據(jù)抽取
本文的深度學(xué)習(xí)方法,主要使用目前主流的TensorFlow深度學(xué)習(xí)框架。薛先貴等[19]對TensorFlow深度學(xué)習(xí)框架做了詳細的闡述,它是最流行的,且相對完善的深度學(xué)習(xí)庫之一,可以比較方便快捷地設(shè)計神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
4.2.1 文本向量化
與樸素貝葉斯的文本向量化相似,仍然使用BOW和N-gram將文本向量化,包括詞級別的向量化(Word Level Vectorize)和字級別的向量化(Character Level Vectorize)。
4.2.2 模型訓(xùn)練
深度學(xué)習(xí)的實驗數(shù)據(jù)仍表示為(文本向量,標(biāo)簽數(shù)據(jù))。與樸素貝葉斯模型的實驗數(shù)據(jù)區(qū)別在于,此模型將準(zhǔn)備好1 529條數(shù)據(jù)分成3塊:訓(xùn)練集樣本、驗證集樣本和測試集樣本。其中訓(xùn)練集(Training Data)和驗證集(Validation Data)的容量占總數(shù)的80%。Validation Data是用來避免過擬合,在訓(xùn)練過程中,通常用Validation Data來確定一些超參數(shù)。最終實驗數(shù)據(jù)集分布如表6所示。
DNN模型中的層數(shù)、每一層中的神經(jīng)元個數(shù)屬于超參數(shù),這個在模型訓(xùn)練中需要人工進行模型調(diào)參。經(jīng)過多次試驗,隱藏層64、隱藏層16可獲得最佳性能。同時為了防止模型過擬合,給深度學(xué)習(xí)網(wǎng)絡(luò)增加Dropout和L2正則化(Regularization)。經(jīng)過交叉驗證,隱含節(jié)點Dropout率等于0.5的時候效果最好,其隨機生成的網(wǎng)絡(luò)結(jié)構(gòu)最多,通過以上超參數(shù)的設(shè)置,使得“目標(biāo)數(shù)據(jù)”抽取模型達到最優(yōu),具體如表7所示。
由于南海證據(jù)性數(shù)據(jù)抽取屬于二分類問題,本文選用交叉熵作為損失函數(shù)(Loss),優(yōu)化器選擇改進的隨機梯度下降法,RMSprop[50]。將數(shù)據(jù)分Batch,Batch_size=64,通過每一次模型輪循計算驗證集上的損失率和準(zhǔn)確率,最終可見輪循到第8次以后,驗證集上的Loss不再下降,驗證集上的準(zhǔn)確率不再提升,再往后模型則開始過擬合。因此,模型的輪循次數(shù)為8時,模型達到最優(yōu),具體如圖7、圖8所示。
通過混淆矩陣分析基于DNN南海證據(jù)性數(shù)據(jù)抽取結(jié)果,混淆矩陣如表8所示。
最終基于DNN的南海證據(jù)性數(shù)據(jù)抽取效果為,正確率是0.88,精確率是0.90,召回率是0.82,F(xiàn)1值是0.86。
4.3 基于TextCNN的南海證據(jù)性數(shù)據(jù)抽取
TextCNN是利用卷積神經(jīng)網(wǎng)絡(luò)對文本進行分類的算法,模型的實驗數(shù)據(jù)的樣本分布與DNN相同。首先通過一個Embedding層,相當(dāng)于臨時進行了詞向量的計算,把原始的詞序列轉(zhuǎn)換成了指定維數(shù)的詞向量序列,嵌入成為100維度的向量,然后使用一個核數(shù)為50,分別使用大小為3、4和5的一維卷積處理文本數(shù)據(jù)?;赥extCNN的證據(jù)性數(shù)據(jù)抽取模型結(jié)構(gòu),如圖9所示,并且通過以下超參數(shù)的設(shè)置,使得南海維權(quán)的證據(jù)性數(shù)據(jù)抽取模型達到最優(yōu),具體如表9所示。
由于南海證據(jù)抽取屬于二分類問題,TextCNN模型的卷積層的激活函數(shù)選擇Relu,輸出層的激活函數(shù)選擇Softmax,優(yōu)化器選擇Adam,Batch_size=128。通過每一次模型輪循計算驗證集上的損失率和準(zhǔn)確率,最終可見輪循到第50次以后,驗證集上的Loss不再下降,驗證集上的準(zhǔn)確率不再提升,再往后模型開始過擬合。因此,模型的輪循次數(shù)為50時,模型達到最優(yōu),具體如圖10所示。
通過混淆矩陣分析基于TextCNN的數(shù)據(jù)抽取效果,混淆矩陣如表10所示。
最終基于TextCNN的南海證據(jù)性數(shù)據(jù)抽取效果為,正確率是0.87,精確率是0.87,召回率是0.87,F(xiàn)1是0.87。
4.4 基于Bi-LSTM的南海證據(jù)性數(shù)據(jù)抽取
模型的實驗數(shù)據(jù)的樣本分布與DNN相同。基于Bi-LSTM的證據(jù)性數(shù)據(jù)抽取模型結(jié)構(gòu),如圖11所示,并且通過以下超參數(shù)的設(shè)置,使得南海維權(quán)的證據(jù)性數(shù)據(jù)抽取模型達到最優(yōu),具體如表11所示。
由于南海證據(jù)抽取屬于二分類問題,Bi-LSTM模型的卷積層的激活函數(shù)選擇Relu,輸出層的激活函數(shù)選擇Softmax,優(yōu)化器選擇Adam,Batch_size =128,通過每一次模型輪循計算驗證集上的損失率和準(zhǔn)確率,最終可見輪循到第80次以后,驗證集上的Loss不再下降,驗證集上的準(zhǔn)確率不再提升,再往后模型開始過擬合。因此,模型的輪循次數(shù)為80時,模型達到最優(yōu),具體如圖12所示。
通過混淆矩陣分析基于Bi-LSTM的南海證據(jù)性數(shù)據(jù)抽取效果,混淆矩陣如表12所示。
最終基于Bi-LSTM的南海證據(jù)性數(shù)據(jù)抽取效果為,正確率是0.83,精確率是0.85,召回率是0.83,F(xiàn)1是0.83。
4.5 基于SVM的南海證據(jù)性數(shù)據(jù)抽取
實驗樣本分布及文本預(yù)處理與上文相同。通過TF-IDF對1 529條數(shù)據(jù)構(gòu)造詞袋特征。
通過混淆矩陣分析基于SVM的南海證據(jù)性數(shù)據(jù)抽取效果,混淆矩陣如表13所示。
最終基于SVM的南海證據(jù)性數(shù)據(jù)抽取效果為,正確率是0.71,精確率是0.74,召回率是0.71,F(xiàn)1是0.68。
4.6 基于隨機森林的南海證據(jù)性數(shù)據(jù)抽取
實驗樣本分布及文本預(yù)處理與上文相同。首先使用隨機森林模型默認(rèn)的參數(shù)進行訓(xùn)練模型,并在驗證集上顯示模型效果,結(jié)果如表14所示。
通過表14可以看到,模型在訓(xùn)練集上表現(xiàn)良好,驗證上表現(xiàn)很差,表現(xiàn)出明顯的過擬合的現(xiàn)象。因此,對隨機森林的參數(shù)進行調(diào)整,將基分類器的個數(shù)從默認(rèn)的100減少到70,此時驗證集的效果有所提升,最終驗證集的數(shù)據(jù)抽取效果為:正確率是0.71,精確率是0.71,召回率是0.71,F(xiàn)1值是0.69。
通過混淆矩陣分析基于隨機森林的南海證據(jù)性數(shù)據(jù)抽取效果,混淆矩陣如表15所示。
最終基于隨機森林的南海證據(jù)性數(shù)據(jù)抽取效果為,正確率是0.70,精確率是0.72,召回率是0.70,F(xiàn)1是0.68。
4.7 基于LightGBM的南海證據(jù)性數(shù)據(jù)抽取
實驗樣本分布及文本預(yù)處理與上文相同。首先使用LightGBM模型默認(rèn)的參數(shù)進行訓(xùn)練模型,并在驗證集上顯示模型效果,結(jié)果如表16所示。
通過表16可以看到,模型在訓(xùn)練集上表現(xiàn)良好,驗證上表現(xiàn)很差,表現(xiàn)出明顯的過擬合的現(xiàn)象。因此,加入L1、L2正則項,驗證集上得到了提升,最終驗證集的數(shù)據(jù)抽取效果為:正確率是0.72,精確率是0.72,召回率是0.72,F(xiàn)1值是0.72。
通過混淆矩陣分析基于LightGBM的南海證據(jù)性數(shù)據(jù)抽取效果,混淆矩陣如表17所示。
最終基于LightGBM的南海證據(jù)性數(shù)據(jù)抽取效果為,正確率是0.66,精確率是0.66,召回率是0.66,F(xiàn)1是0.66。
4.8 基于XGBoost的南海證據(jù)性數(shù)據(jù)抽取
實驗樣本分布及文本預(yù)處理與上文相同。通過混淆矩陣分析基于XGBoost的南海證據(jù)性數(shù)據(jù)抽取效果,混淆矩陣如表18所示。
最終基于XGBoost的南海證據(jù)性數(shù)據(jù)抽取效果為,正確率是0.69,精確率是0.69,召回率是0.69,F(xiàn)1是0.68。
4.9 南海證據(jù)性數(shù)據(jù)抽取模型的比較
通過上文的基于機器學(xué)習(xí)和深度學(xué)習(xí)的南海證據(jù)性數(shù)據(jù)抽取模型應(yīng)用,比較模型的證據(jù)性數(shù)據(jù)抽取效果,具體如表19所示。
為了更直觀地顯示模型的證據(jù)性數(shù)據(jù)抽取效果,具體如圖13所示。最終DNN的南海證據(jù)性數(shù)據(jù)抽取效果最好,準(zhǔn)確率和精確率是最高的,分別是0.88和0.90。
5 南海證據(jù)性數(shù)據(jù)抽取模型的應(yīng)用與優(yōu)化
5.1 基于DNN的證據(jù)性數(shù)據(jù)抽取
本文最終選擇基于DNN的南海證據(jù)性數(shù)據(jù)抽取模型。通過DNN南海證據(jù)性數(shù)據(jù)抽取模型,從南海文庫采集的409篇證據(jù)材料抽取具體的證據(jù),最終從98 809個句子中,抽取到31 826條句子屬于南海證據(jù)性數(shù)據(jù),具體如表20所示。
由于模型的準(zhǔn)確率是0.88,抽取的31 826條證據(jù)中還存在一些非證據(jù)。而且證據(jù)性數(shù)據(jù)只有通過證據(jù)價值判斷和人工甄別才可能成為證據(jù),但本文不從證據(jù)學(xué)視角研究證據(jù),為了能夠使證據(jù)性數(shù)據(jù)結(jié)果轉(zhuǎn)化為證據(jù),本文制定了證據(jù)性數(shù)據(jù)過濾規(guī)則和最終的人工判斷,進一步提高證據(jù)抽取的準(zhǔn)確率。
5.2 基于“5W”規(guī)則過濾
根據(jù)證據(jù)的固有屬性,構(gòu)建證據(jù)鏈的過濾規(guī)則,即證據(jù)需同時滿足“5W”規(guī)則:時間(when)、地點(where)、人物(who1)、機構(gòu)(who2)、事件(what)。論文使用哈工大的語言平臺采用深度學(xué)習(xí)方式的LTP提供的NER接口進行實體識別,獲得證據(jù)屬性,其中what是選擇LTP抽取的證據(jù)的動詞或動名詞。
需要注意的是,盡管證據(jù)中的“What”作為證據(jù)的事件,被界定為能表達證據(jù)內(nèi)容行為詞,可以是動詞或動名詞。但在證據(jù)的規(guī)則過濾時,為了提高證據(jù)過濾的準(zhǔn)確性,本研究使用TF-IDF計算每條證據(jù)排名前5的關(guān)鍵詞也加入“What”中。最終通過“5W”規(guī)則過濾,結(jié)合人工校驗,從409篇證據(jù)材料中,抽取有效的證據(jù)21 174條,部分南海維權(quán)的證據(jù)及“5W”抽取結(jié)果如表21所示。(注:經(jīng)過“5W”規(guī)則過濾和人工判斷,依然有小部分證據(jù)性數(shù)據(jù)帶有作者的個人感情色彩,但考慮其在證據(jù)鏈中可能的重要性,就沒有過濾,最終作為證據(jù)呈現(xiàn)。)
6 結(jié)論與展望
本文分別基于機器學(xué)習(xí)和深度學(xué)習(xí)的經(jīng)典算法構(gòu)建南海證據(jù)性數(shù)據(jù)抽取模型,經(jīng)過比較分析,基于DNN的南海證據(jù)性數(shù)據(jù)抽取模型效果最好,正確率達0.88,精確率達0.90。但人工智能的方法并不是完美的,為了進一步提高證據(jù)抽取的效果,本文融合了“5W”規(guī)則過濾及人工判定,顯著地提高證據(jù)抽取的準(zhǔn)確率。南海證據(jù)的抽取是一個艱難的任務(wù),本文只是初探,后期將進一步通過語義分析及融合其他算法進一步實現(xiàn)南海證據(jù)的自動抽取。為南海文庫數(shù)字資源的檢索提供支持,為專業(yè)人員提供充足的證據(jù)材料做好準(zhǔn)備,也為后續(xù)南海維權(quán)的證據(jù)鏈關(guān)聯(lián)模型構(gòu)建做好基礎(chǔ)。
參考文獻
[1]陶鵬.基于聯(lián)合模型的庭審記錄證據(jù)信息抽取研究[D].武漢:武漢大學(xué),2020.
[2]張力元,姬東鴻.LS-SVM與條件隨機場結(jié)合的生物證據(jù)句子抽取[J].計算機工程,2015,41(5):207-212.
[3]丁志遠.基于證據(jù)匹配的案件質(zhì)量評估方法設(shè)計與實現(xiàn)[D].貴陽:貴州大學(xué),2019.
[4]林金枝.西沙群島主權(quán)屬我的國外歷史證據(jù)[J].南洋問題研究,1979,(5):79-93.
[5]余敏友,雷筱璐.南海諸島爭端國際仲裁的可能性——國際法分析[J].武漢大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2011,64(1):5-11.
[6]談中正,王婷婷.“南海維權(quán):歷史與法理斗爭研討會”綜述[J].亞太安全與海洋研究,2015,(5):119-124.
[7]張衛(wèi)彬.中國擁有南沙群島主權(quán)證據(jù)鏈的構(gòu)造[J].社會科學(xué),2019,(9):85-96.
[8]王璇.我國擁有黃巖島主權(quán)的地圖證據(jù)證明力研究[D]. 合肥:安徽財經(jīng)大學(xué),2017.
[9]許盤清,沈固朝.菲律賓地圖展覽中的“北島”地理位置與地名沿革考[J].亞太安全與海洋研究,2016,(4):102-112,126.
[10]Grishman R.Information Extraction:Techniques and Challenges[M].Information Extraction a Multidisciplinary Approach to an Emerging Information Technology.Springer Berlin Heidelberg,1997:10-27.
[11]石鳳貴.基于jieba中文分詞的中文文本語料預(yù)處理模塊實現(xiàn)[J].電腦知識與技術(shù),2020,16(14):248-251,257.
[12]鄒曉輝,孫靜.LDA主題模型[J].智能計算機與應(yīng)用,2014,4(5):105-106.
[13]李晨,劉衛(wèi)國.基于NLTK的中文文本內(nèi)容抽取方法[J].計算機系統(tǒng)應(yīng)用,2019,28(1):275-278.
[14]宋海霞.用Python生成詞云圖[J].少年電腦世界,2019,(9):4-8.
[15]李嘉欣,王平.中文命名實體識別研究方法綜述[J].計算機時代,2021,(4):18-21.
[16]陶鵬.基于聯(lián)合模型的庭審記錄證據(jù)信息抽取研究[D].武漢:武漢大學(xué),2020.
[17]張力元,姬東鴻.LS-SVM與條件隨機場結(jié)合的生物證據(jù)句子抽取[J].計算機工程,2015,41(5):207-212.
[18]歐陽輝,祿樂濱.基于證據(jù)理論的論文元數(shù)據(jù)抽取算法研究[J].電子設(shè)計工程,2010,18(4):66-69.
[19]楊健,黃瑞章,丁志遠,等.基于邊界識別與組合的裁判文書證據(jù)抽取方法研究[J].中文信息學(xué)報,2020,34(3):80-87.
[20]Kamarainen J K,Ilonen J,Paalanen P,et al.Object Evidence Extraction Using Simple Gabor Features and Statistical Ranking[C]//Scandinavian Conference on Image Analysis.Springer-Verlag,2005.
[21]Nishida K,Nagata M,Otsuka A,et al.Answering while Summarizing:Multi-task Learning for Multi-hop QA with Evidence Extraction[C]//Meeting of the Association for Computational Linguistics,2019.
[22]張朔人,張若城.南海維權(quán)的民間證據(jù)——《更路簿》內(nèi)涵與面世抄本研究[J].云南師范大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2018,50(4):26-35.
[23]康丹.南海島礁主權(quán)歸屬證據(jù)研究初論[D].武漢:武漢大學(xué),2013.
[24]黃盛璋.南海諸島歷來是中國領(lǐng)土的歷史證據(jù)[J].東南文化,1996,(4):84-94.
[25]張衛(wèi)彬.中國擁有釣魚島主權(quán)的證據(jù)鏈構(gòu)造[J].政治與法律,2020,(2):90-100.
[26]張衛(wèi)彬.中國擁有南沙群島主權(quán)證據(jù)鏈的構(gòu)造[J].社會科學(xué),2019,(9):85-96.
[27]趙彰.機器學(xué)習(xí)研究范式的哲學(xué)基礎(chǔ)及其可解釋性問題[D].上海:上海社會科學(xué)院,2018.
[28]張潤,王永濱.機器學(xué)習(xí)及其算法和發(fā)展研究[J].中國傳媒大學(xué)學(xué)報:自然科學(xué)版,2016,23(2):10-18,24.
[29]姜娜,楊海燕,顧慶傳,等.機器學(xué)習(xí)及其算法和發(fā)展分析[J].信息與電腦:理論版,2019,(1):83-84,87.
[30]潘忠英.樸素貝葉斯中文文本分類器的設(shè)計與實現(xiàn)[J].電腦編程技巧與維護,2021,(2):37-39,70.
[31]Cornfield J.Bayes Theorem[J].Revue De Linstitut International De Statistique,1967,35(1):34-49.
[32]王峻.基于屬性相關(guān)性分析的擴展樸素貝葉斯分類器[J].平頂山學(xué)院學(xué)報,2018,33(5):65-69.
[33]Dietterich T G.Machine Learning Research:Four Current Directions[J].AI Magazine,1997,18(4):97-136.
[34]Ke G L,Meng Q,F(xiàn)inley T,et al.LightGBM:A Highly Efficient Gradient Boosting Decision Tree[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems.Red Hook:Curran Associates Inc.,2017:3146-3154.
[35]徐國天,沈耀童.基于XGBoost和LightGBM雙層模型的惡意軟件檢測方法[J].信息網(wǎng)絡(luò)安全,2020,20(12):54-63.
[36]尹寶才,王文通,王立春.深度學(xué)習(xí)研究綜述[J].北京工業(yè)大學(xué)學(xué)報,2015,41(1):48-59.
[37]張潤,王永濱.機器學(xué)習(xí)及其算法和發(fā)展研究[J].中國傳媒大學(xué)學(xué)報:自然科學(xué)版,2016,23(2):10-18,24.
[38]涌井良幸,涌井貞美.深度學(xué)習(xí)的數(shù)學(xué)[M].北京:人民郵電出版社,2020.
[39]鄂海紅,張文靜,肖思琪,等.深度學(xué)習(xí)實體關(guān)系抽取研究綜述[J].軟件學(xué)報,2019,30(6):1793-1818.
[40]趙志欣,戴文婷,陳鑫,等.基于深度神經(jīng)網(wǎng)絡(luò)的正交頻分復(fù)用波形外輻射源雷達參考信號重構(gòu)[J/OL].電子與信息學(xué)報:1-8[2021-07-09].http://kns.cnki.net/kcms/detail/11.4494.TN.20210702.0906.012.html.
[41]Jurafsky D.Speech and Language Processing:An Introduction to Natural Language Processing,Computational Linguistics,and Speech Recognition[M].北京:人民郵電出版社,2010.
[42]王晨琛,王業(yè)琳,葛中芹,等.基于卷積神經(jīng)網(wǎng)絡(luò)的中國水墨畫風(fēng)格提取[J].圖學(xué)學(xué)報,2017,38(5):754-759.
[43]陳鴻翔.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割[D].杭州:浙江大學(xué),2016.
[44]李飛騰.卷積神經(jīng)網(wǎng)絡(luò)及其應(yīng)用[D].大連:大連理工大學(xué),2014.
[45]吳瀟穎,李銳,吳勝昔.基于CNN與雙向LSTM的行為識別算法[J].計算機工程與設(shè)計,2020,41(2):361-366.
[46]史沛卓,陳凱天,鐘葉珂,等.基于TextCNN的中國古詩文分類方法研究[J].電子技術(shù)與軟件工程,2021,(10):190-192.
[47]張蕾,孫尚紅,王月.基于深度學(xué)習(xí)LSTM模型的匯率預(yù)測[J/OL].統(tǒng)計與決策,2021,37(13):158-162[2021-07-09].https://doi.org/10.13546/j.cnki.tjyjc.2021.13.037.
[48]周凌寒.基于LSTM和投資者情緒的股票行情預(yù)測研究[D].武漢:華中師范大學(xué),2018.
[49]侯偉濤,姬東鴻.基于Bi-LSTM的醫(yī)療事件識別研究[J].計算機應(yīng)用研究,2018,35(7):1974-1977.
[50]張?zhí)鞚?,李元香,項正龍,?基于RMSprop的粒子群優(yōu)化算法[J].計算機工程與設(shè)計,2021,42(3):642-648.
(責(zé)任編輯:孫國雷)
收稿日期:2021-05-26
基金項目:國家社會科學(xué)基金重大項目“南海疆文獻資料整理中的知識發(fā)現(xiàn)與維權(quán)證據(jù)鏈建構(gòu)研究”(項目編號:19ZDA347);南京大學(xué)2015年度研究生創(chuàng)新工程“跨學(xué)科科研創(chuàng)新基金”項目“民國檔案文獻中的環(huán)中國南海文化電函與報道研究”(項目編號:2015CW04);江蘇省研究生培養(yǎng)創(chuàng)新工程項目“基于自動關(guān)聯(lián)技術(shù)的南海問題證據(jù)鏈研究”(項目編號:KYLX15_0025)。
作者簡介:彭玉芳(1987-),女,博士,研究方向:情報分析、安全情報、自然語言處理、信息組織與檢索。陳將浩(1989-),男,碩士研究生,研究方向:用戶畫像、文本分類、情感分析。何志強(1990-),男,碩士研究生,研究方向:數(shù)據(jù)挖掘,信息與網(wǎng)絡(luò)安全。