亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

論文摘要學術規(guī)范自動檢測模型研究初探*

2019-04-20 07:34:52葉繼元

圖書館 2019年4期

呂遠葉繼元

（1.南京大學信息管理學院南京 210023；2.南京工業(yè)大學圖書館南京 211816）

引言

改革開放以來，隨著經(jīng)濟社會的高速發(fā)展，在科研學術方面我國也取得了令世人矚目的巨大成就。但與之而來的學術失范、不端現(xiàn)象也是越來越猖獗，論文學術不規(guī)范的問題即是其中一個重要表現(xiàn)形式，該問題在高校研究生群體中表現(xiàn)尤為突出。由于研究生群體初涉科研工作，每一篇學術論文的發(fā)表都需要經(jīng)過大量的學術規(guī)范方面的評審。目前對論文學術規(guī)范方面的評審主要是定性的主觀性評價，這需要耗費大量的時間和人力成本。如何對論文的學術規(guī)范水平做一個高效的科學合理的客觀評價，達到提升評審效率，降低評審成本的預期效果。這已經(jīng)成為當下亟待解決的一個課題。

近幾年關于學術規(guī)范和評價研究，國內(nèi)外的研究成果較為豐富。劉大可從研究生學術規(guī)范意識培養(yǎng)的角度進行了研究，界定了學術規(guī)范的內(nèi)涵與作用，并分析了造成學術失范的主要原因，在此基礎上，從發(fā)揮師生關系作用的角度，提出高等院校及導師對研究生學術規(guī)范意識培養(yǎng)的管理機制[1]。王剛教授對社會科學學術研究規(guī)范做了詳細分析，他認為一個科學、全面的社會科學學術研究規(guī)范應該包括以下三個方面：哲學上的思辨、科學上的實證、人文上的關懷。哲學上的思辨為社會科學研究提供研究的源泉和動力，科學上的實證為其提供研究的論證工具，而人文上的關懷則為社會科學研究提供價值規(guī)范[2]。葉繼元教授對學術規(guī)范進行了科學定義，并提出了基本研究規(guī)范、研究程序規(guī)范、研究方法規(guī)范、論著寫作規(guī)范、引文規(guī)范、署名及著作方式規(guī)范、學術批評和評價規(guī)范等內(nèi)容體系。早在10多年前就出版了《學術規(guī)范通論》一書。一個學術作品是否規(guī)范，可以利用葉教授近些年提出的“全評價”理論框架來評價。所謂 “全評價”理論框架，他認為，簡單地說就是，“六個要素”（六位一體）和“三大維度”?！傲鶄€要素”是指評價主體、評價客體、評價目的、評價標準及指標、評價方法和評價制度，其中評價主體是核心，評價目的是龍頭，制約著其他要素?！叭缶S度”是指任一評價客體都可以從三個維度去考察：形式評價、內(nèi)容評價和價值、效用評價。形式評價主要是根據(jù)評價對象的表象來評價，往往可以定量評價，相對直觀、簡單。內(nèi)容評價主要深入評價對象的內(nèi)核，往往依靠同行專家來評價，費時費力。效用評價是指對評價對象的實際貢獻、社會和經(jīng)濟效益、應用結(jié)果、人們思想變化等的評價，它依賴于一段時間或較長時間的評價，是“進行時”或“未完成時”，可以用數(shù)字，也可以用文字來表述[3]。

具體針對論文摘要的學術規(guī)范，全國文獻工作標準化技術委員會于1986年發(fā)布了GB6447—86文摘編寫規(guī)則[4]，其中規(guī)定文摘是以提供文獻內(nèi)容梗概為目的,不加評論和補充解釋,簡明、確切地記述文獻重要內(nèi)容的短文；文摘包含四大要素，分別為目的、方法、結(jié)果、結(jié)論?；谶@一國家標準，很多學者對摘要的規(guī)范做了相應的研究。比較有代表性的有：高建群針對中文學術論文摘要的寫作規(guī)范[5]，其將摘要分為研究報告型，綜述型，論證型，發(fā)現(xiàn)、發(fā)明型，計算型五大類，并分別探討了相應摘要的寫作格式，最終概括了摘要的寫作總要求“忠實于原文、簡潔明了、章法規(guī)范”；金丹通過分析《工程索引》（EI）對英文摘要的要求[6]，從寫作要求、時態(tài)、人稱和語態(tài)、常用詞匯等方面，總結(jié)了英文摘要寫作的規(guī)范。她認為英文摘要的結(jié)構可以概括為IMARD（Introduction、Material and Methods、Result and Discussion），包括引言、材料與方法、結(jié)果和討論部分。而利用數(shù)據(jù)挖掘技術對摘要學術規(guī)范做自動化監(jiān)測的相關研究目前尚少。

論文摘要也可以通過計算機自動生成，目前主要有兩種方式：一類是以TextRank算法為代表的抽取關鍵詞句的方式[7]；另一類則是借助于深度神經(jīng)網(wǎng)絡讓計算機自動“造句”，最終生成摘要。由于后者在技術上還有一些關鍵性的難點有待突破，現(xiàn)在應用比較廣泛的是第一種方式。但由于抽取式摘要生成主要是基于詞頻，并沒有過多的語義信息，造成很多相關聯(lián)的詞匯都會被獨立對待，以至于無法建立文本段落中完整的語義信息，生成的摘要可閱讀性較差。因此借助于計算機自動生成符合學術規(guī)范的摘要信息目前還不成熟。

綜上可以看出，目前學界關于學術規(guī)范及其評價研究的理論已經(jīng)很充實，相關的模型框架也比較完備。但是在定量化的評價研究方面還有待深入。文章根據(jù)“全評價”理論框架，主要就其中的形式評價維度，嘗試利用機器學習技術，結(jié)合卷積神經(jīng)網(wǎng)絡，以摘要的文本內(nèi)容為研究對象（涉及到內(nèi)容評價的一部分），初步構建了一個自動化智能檢測模型，相較于傳統(tǒng)論文評審方式，不但可以節(jié)省大量人力物力，結(jié)果亦更具準確性和客觀性。

1 相關工作

卷積神經(jīng)網(wǎng)絡（Convolution Neural Network,CNN）自20世紀60年代由Hubel和Wiesel首次提出以后[8]，由于當時缺乏訓練數(shù)據(jù)和硬件設備性能不足的原因，一直沒有引起足夠的重視。2010年以后，像ImageNet這樣的大規(guī)模標記數(shù)據(jù)的出現(xiàn)和GPU計算性能的快速提升，使得關于CNN的研究重新得到井噴式的發(fā)展。

CNN的應用早期主要在手寫字符分類、圖像分類領域，比較有代表性的CNN結(jié)構模型有Krizhevsky 2012年提出的AlexNet[9]，該模型在ImageNet圖像分類競賽中以絕對優(yōu)勢奪冠。隨后不斷有新的CNN模型提出，比如牛津大學的VGG（Visual Geometry Group）、Google的 GoogleNet、微軟的ResNet等，這些研究都使得CNN的性能在圖像識別和分類的應用中不斷得到提升。

圖1 CNN基本結(jié)構

近幾年，CNN的應用正逐步向更深層次的人工智能發(fā)展，自然語言處理就是其中一個重要領域。較有代表性的，2014年Yoon Kim提出了一個經(jīng)典的用于文本分類的單層CNN 模型[10]。

圖2 Yoon Kim提出的CNN結(jié)構

該結(jié)構使用長度不同的過濾器對詞向量進行卷積，過濾器的寬度等于詞向量的長度，然后使用Max-polling池化層對每一個過濾器提取的向量進行操作，最后模型的預測都是基于這些拼接起來的過濾器。較經(jīng)典的多層CNN模型為Nal Kalchbrenner 2014提出的Dynamic Convolutional Neural Network[11]。相較于前者，該模型更加復雜，多加入了一層用來實現(xiàn)“情感聚類”。

CNN作為一種特殊的神經(jīng)網(wǎng)絡，在自然語言處理過程中，它的局部關聯(lián)特性能夠?qū)斎胛谋具M行大量的特征提取，從而可以對輸入對象進行精確的模擬；另外由于在卷積層中權重參數(shù)都是共享的，這就大大降低了模型的計算復雜度，與 N-Gram相比，運行速度更快?？傮w而言，CNN在自然語言處理中的性能表現(xiàn)是不錯的。文章就是同時基于Yoon Kim的單層CNN結(jié)構和傳統(tǒng)經(jīng)典的CNN模型結(jié)構，試圖將兩者結(jié)合起來，對論文摘要建立學術規(guī)范評價模型。

圖3 Nal Kalchbrenner提出的CNN結(jié)構

2 以摘要為對象的學術規(guī)范評價模型的構建

根據(jù)國家有關論文摘要的撰寫規(guī)范，摘要通常應具有研究目的、研究方法、研究結(jié)果和結(jié)論的陳述。摘要撰寫是否規(guī)范，專家通過閱讀文本即能判斷。如果要大規(guī)模的檢測摘要撰寫的規(guī)范程度，利用專家來閱讀和判斷的話，那很費時費力。如果能通過機器自動檢測，則可以大大節(jié)省專家閱讀和判斷的時間和精力，且在某個方面可提高檢測精度。

為了對論文摘要數(shù)據(jù)進行數(shù)據(jù)挖掘，首先要建立數(shù)據(jù)集。文章以中國知網(wǎng)（CNKI）為數(shù)據(jù)源，選定圖書情報為檢索學科，檢索出了有結(jié)構化數(shù)據(jù)的摘要信息2 500余條（均為符合規(guī)范的完整摘要文本），經(jīng)過導出和數(shù)據(jù)預處理操作，得到9 767條數(shù)據(jù)（同時包含規(guī)范和非規(guī)范的人造摘要文本），利用這些數(shù)據(jù)建立相應的訓練數(shù)據(jù)集（Train set，7 867條）、校驗數(shù)據(jù)集（Validate set，1 500條）、測試數(shù)據(jù)集（Test set，400條）和詞匯表（Vocabulary set）。

2.1 源數(shù)據(jù)預處理

以中國知網(wǎng)為檢索源，選取《圖書情報工作》和《情報科學》期刊為文獻來源，將檢索出來的摘要中有“目的/意義”“方法/過程”“結(jié)果/結(jié)論”標識的論文下載下來，經(jīng)過剔除一些會議通知等無關內(nèi)容之后，將論文的摘要單獨提取出來，共計2 500余條數(shù)據(jù)信息。

經(jīng)過以下數(shù)據(jù)預處理操作：

將每一條摘要中的“目的/意義”“方法/過程”“結(jié)果/結(jié)論”分別提取出來，分別用A、B、C標識。

構造訓練數(shù)據(jù)集、校驗數(shù)據(jù)集、測試數(shù)據(jù)集和詞匯表。其中數(shù)據(jù)集的結(jié)構主要包含三個部分：id、cotent和label，其中id為每條數(shù)據(jù)的唯一標識，content為文本內(nèi)容，label驗證結(jié)果（1為符合學術規(guī)范，2為缺少目的意義，3為缺少方法過程，4為缺少結(jié)果結(jié)論）。label的判定規(guī)則如下：如果content中同時包含A、B、C，則label為1；如果content中沒有包含A，則label為2；如果content中沒有包含B，則label為3；如果content中沒有包含C，則label為4。（這里主要以期刊發(fā)表為準則，即基于以下事實：如果論文在期刊中發(fā)表，則默認該論文的摘要部分符合學術規(guī)范；對于個別有明顯錯誤的摘要內(nèi)容，輔之于人工標注）

將每一條摘要中的A、B、C分別排列組合，構造相應的訓練數(shù)據(jù)（共計7 867條）。對訓練數(shù)據(jù)進行數(shù)據(jù)清洗操作，包括清除無效數(shù)據(jù)、對空數(shù)據(jù)進行補全等。通過編寫相應Python程序，構造好的數(shù)據(jù)集如下圖所示：

圖4 數(shù)據(jù)集圖

2.2 模型的構建

首先采用傳統(tǒng)的CNN模型（以下簡寫為模型1），完整結(jié)構如下圖所示，包含輸入層、3個卷積層、1個池化層、1個全連接層和輸出層：其中模型的輸入為詞向量（Word embedding），輸出為每一段文本對應的標簽（即1、2、3、4，各自代表相應的含義）。由于模型的參數(shù)對結(jié)果的準確性影響很大，利用網(wǎng)格搜索經(jīng)過反復調(diào)參，對模型作如下參數(shù)初始化：

模型詞向量（Word embedding）維度設定為64，卷積核個數(shù)為8，卷積核大小為64，全連接層中神經(jīng)元個數(shù)為64，初始權重矩陣隨機選取符合正態(tài)分布的數(shù)值。池化層中采用Max Polling方式，輸出層中激活函數(shù)采用修正線性單元（Rectified linear unit，ReLu）激活并采用SoftMax進行分類。準確率校驗過程采用交叉熵測度（Cross Entropy），權重優(yōu)化過程采用自適應矩估計優(yōu)化器（Adam Optimizer）。另外，由于模型的數(shù)據(jù)量較小，為避免模型訓練過程中發(fā)生過擬合，將Dropout比例設定為0.7，迭代次數(shù)為10。

類似的，利用Kim Y的單層CNN結(jié)構（見圖2），對該模型（以下簡寫為模型2）參數(shù)做如下初始化操作：

模型詞向量（Word embedding）維度設定為520，卷積核大小有三類，分別為3、4、5，每一類卷積核的個數(shù)均為128，初始權重矩陣隨機選取符合正態(tài)分布的數(shù)值；池化層中采用Max Polling方式，輸出層中激活函數(shù)采用修正線性單元（Rectified linear unit，ReLu）激活并采用SoftMax進行分類；準確率校驗過程采用交叉熵測度（Cross Entropy），權重優(yōu)化過程采用自適應矩估計優(yōu)化器（Adam Optimizer）；Dropout比例為0.5，迭代次數(shù)為200；L2 規(guī)范化參數(shù)為0。

圖5 CNN結(jié)構圖

根據(jù)模型1和模型2的輸出結(jié)果可以判斷一段文本是否完整包含摘要結(jié)構的四要素，如果不包含的話，亦可指出文本具體缺少哪一個要素。

2.3 模型的評估和預測

利用TensorFlow和Sklearn框架，通過編寫Python程序可以將上述兩個模型很方便的實現(xiàn)出來。運行程序發(fā)現(xiàn)，模型1在測試集上的精確度為80.13%，模型2精確度為82.57%，基本達到了預期目標（大于80%）。

結(jié)合TensorFlow提供的TensorBoard分析工具，可以看到模型圖（Graph）結(jié)構分別如下所示：

圖6 模型1圖結(jié)構（Graph）

圖7 模型2圖結(jié)構（Graph）

其中模型訓練過程中的精度（accuracy）和損失率（loss）變化趨勢圖如下：

圖8 模型1精度趨勢圖

圖9 模型1損失率趨勢圖

圖10 模型2精度趨勢圖

圖11 模型2損失率趨勢圖

進一步觀察程序輸出結(jié)果中的模型評估指標：

圖12 模型1評估指標

圖13 模型2評估指標

可以看到模型1、2的查準率（Precision）和召回率（Recall）這兩個指標均達到80%以上，由于兩者是互斥的關系，80%的結(jié)果基本符合預期。

綜合利用上面兩個預測模型，對模型1、2的輸出結(jié)果求平均值，以該值作為我們最終模型的最終結(jié)果。觀察最終模型的評價指標如下：

圖14 最終模型的評估指標

可以看到最終模型的各項指標都要高于單個模型（模型1、2）。其中精確達到83.20%，查準率和召回率分別為84%和83%。

3 總結(jié)和進一步優(yōu)化

文章基于數(shù)據(jù)挖掘技術初步構建了一個以論文摘要為研究對象的學術規(guī)范檢測模型，準確率總體達到了83%+，雖然還沒有符合產(chǎn)品級的高精度（95%+）要求，但其證明通過利用機器學習的相關技術實現(xiàn)論文學術規(guī)范的智能化檢測是可行的。概括起來，該模型相較于傳統(tǒng)學術規(guī)范評審方式有以下幾方面優(yōu)勢：

評審效率高，節(jié)省大量人力成本。上述模型除了在訓練階段耗費較長時間（模型1為11分鐘，模型2為28分鐘），在應用階段對400條樣本的預測僅耗時5秒，效率得到大幅度提升；并且模型只需初始訓練一次即可，后續(xù)階段無需再次訓練。

結(jié)果更具有客觀性和統(tǒng)一性。傳統(tǒng)的人工評審方式主觀性較大，可能會出現(xiàn)錯誤，甚至不同的專家之間也可能得出不同的結(jié)論。而利用機器學習的技術手段評審，就可以避免主觀性的誤判，提高評審的準確率。

有利于論文的學術規(guī)范標準化。由于論文是由計算機評審，省去人工評審繁瑣的工作，從而可以把精力主要放在論文內(nèi)容的學術規(guī)范的評定上。標準作為模型訓練階段的一個基石，標準統(tǒng)一了，評審結(jié)果也就更具有一致性。

為了進一步提高模型的準確率，對上述CNN模型的進一步優(yōu)化，后續(xù)工作可以考慮從以下幾方面展開：

數(shù)據(jù)集數(shù)量規(guī)模較小。模型訓練數(shù)據(jù)集總量共計7300余條，這對于構建一個高精度的神經(jīng)網(wǎng)絡而言，是遠遠不夠的，一般來說，數(shù)據(jù)集的量級最好在萬以上。CNN模型結(jié)構過于簡單。模型1目前僅包含三個卷積層和一個池化層，可以考慮引入多個卷積層和多個池化層以提高精度，比如采用LeNet模型等。詞向量的構建目前采用的Id標識（即每個字唯一對應于詞匯表中的相應Id），這樣不能從語義上對詞義相近的字進行區(qū)分，優(yōu)化過程中可以考慮采用Word2vec或Tf-Idf的方法。模型的初始權重矩陣目前為隨機矩陣，可以考慮采用Xavier初始化方法[12]，防止梯度消減和梯度爆炸，從而提高模型的穩(wěn)定性。

（來稿時間：2018年10月）