呂 遠 葉繼元
(1.南京大學信息管理學院 南京 210023;2.南京工業(yè)大學圖書館 南京 211816)
改革開放以來,隨著經(jīng)濟社會的高速發(fā)展,在科研學術方面我國也取得了令世人矚目的巨大成就。但與之而來的學術失范、不端現(xiàn)象也是越來越猖獗,論文學術不規(guī)范的問題即是其中一個重要表現(xiàn)形式,該問題在高校研究生群體中表現(xiàn)尤為突出。由于研究生群體初涉科研工作,每一篇學術論文的發(fā)表都需要經(jīng)過大量的學術規(guī)范方面的評審。目前對論文學術規(guī)范方面的評審主要是定性的主觀性評價,這需要耗費大量的時間和人力成本。如何對論文的學術規(guī)范水平做一個高效的科學合理的客觀評價,達到提升評審效率,降低評審成本的預期效果。這已經(jīng)成為當下亟待解決的一個課題。
近幾年關于學術規(guī)范和評價研究,國內(nèi)外的研究成果較為豐富。劉大可從研究生學術規(guī)范意識培養(yǎng)的角度進行了研究,界定了學術規(guī)范的內(nèi)涵與作用,并分析了造成學術失范的主要原因,在此基礎上,從發(fā)揮師生關系作用的角度,提出高等院校及導師對研究生學術規(guī)范意識培養(yǎng)的管理機制[1]。王剛教授對社會科學學術研究規(guī)范做了詳細分析,他認為一個科學、全面的社會科學學術研究規(guī)范應該包括以下三個方面:哲學上的思辨、科學上的實證、人文上的關懷。哲學上的思辨為社會科學研究提供研究的源泉和動力,科學上的實證為其提供研究的論證工具,而人文上的關懷則為社會科學研究提供價值規(guī)范[2]。葉繼元教授對學術規(guī)范進行了科學定義,并提出了基本研究規(guī)范、研究程序規(guī)范、研究方法規(guī)范、論著寫作規(guī)范、引文規(guī)范、署名及著作方式規(guī)范、學術批評和評價規(guī)范等內(nèi)容體系。早在10多年前就出版了《學術規(guī)范通論》一書。一個學術作品是否規(guī)范,可以利用葉教授近些年提出的“全評價”理論框架來評價。所謂 “全評價”理論框架,他認為,簡單地說就是,“六個要素”(六位一體)和“三大維度”?!傲鶄€要素”是指評價主體、評價客體、評價目的、評價標準及指標、評價方法和評價制度,其中評價主體是核心,評價目的是龍頭,制約著其他要素?!叭缶S度”是指任一評價客體都可以從三個維度去考察:形式評價、內(nèi)容評價和價值、效用評價。形式評價主要是根據(jù)評價對象的表象來評價,往往可以定量評價,相對直觀、簡單。內(nèi)容評價主要深入評價對象的內(nèi)核,往往依靠同行專家來評價,費時費力。效用評價是指對評價對象的實際貢獻、社會和經(jīng)濟效益、應用結(jié)果、人們思想變化等的評價,它依賴于一段時間或較長時間的評價,是“進行時”或“未完成時”,可以用數(shù)字,也可以用文字來表述[3]。
具體針對論文摘要的學術規(guī)范,全國文獻工作標準化技術委員會于1986年發(fā)布了GB6447—86文摘編寫規(guī)則[4],其中規(guī)定文摘是以提供文獻內(nèi)容梗概為目的,不加評論和補充解釋,簡明、確切地記述文獻重要內(nèi)容的短文;文摘包含四大要素,分別為目的、方法、結(jié)果、結(jié)論?;谶@一國家標準,很多學者對摘要的規(guī)范做了相應的研究。比較有代表性的有:高建群針對中文學術論文摘要的寫作規(guī)范[5],其將摘要分為研究報告型,綜述型,論證型,發(fā)現(xiàn)、發(fā)明型,計算型五大類,并分別探討了相應摘要的寫作格式,最終概括了摘要的寫作總要求“忠實于原文、簡潔明了、章法規(guī)范”;金丹通過分析《工程索引》(EI)對英文摘要的要求[6],從寫作要求、時態(tài)、人稱和語態(tài)、常用詞匯等方面,總結(jié)了英文摘要寫作的規(guī)范。她認為英文摘要的結(jié)構可以概括為IMARD(Introduction、Material and Methods、Result and Discussion),包括引言、材料與方法、結(jié)果和討論部分。而利用數(shù)據(jù)挖掘技術對摘要學術規(guī)范做自動化監(jiān)測的相關研究目前尚少。
論文摘要也可以通過計算機自動生成,目前主要有兩種方式:一類是以TextRank算法為代表的抽取關鍵詞句的方式[7];另一類則是借助于深度神經(jīng)網(wǎng)絡讓計算機自動“造句”,最終生成摘要。由于后者在技術上還有一些關鍵性的難點有待突破,現(xiàn)在應用比較廣泛的是第一種方式。但由于抽取式摘要生成主要是基于詞頻,并沒有過多的語義信息,造成很多相關聯(lián)的詞匯都會被獨立對待,以至于無法建立文本段落中完整的語義信息,生成的摘要可閱讀性較差。因此借助于計算機自動生成符合學術規(guī)范的摘要信息目前還不成熟。
綜上可以看出,目前學界關于學術規(guī)范及其評價研究的理論已經(jīng)很充實,相關的模型框架也比較完備。但是在定量化的評價研究方面還有待深入。文章根據(jù)“全評價”理論框架,主要就其中的形式評價維度,嘗試利用機器學習技術,結(jié)合卷積神經(jīng)網(wǎng)絡,以摘要的文本內(nèi)容為研究對象(涉及到內(nèi)容評價的一部分),初步構建了一個自動化智能檢測模型,相較于傳統(tǒng)論文評審方式,不但可以節(jié)省大量人力物力,結(jié)果亦更具準確性和客觀性。
卷積神經(jīng)網(wǎng)絡(Convolution Neural Network,CNN)自20世紀60年代由Hubel和Wiesel首次提出以后[8],由于當時缺乏訓練數(shù)據(jù)和硬件設備性能不足的原因,一直沒有引起足夠的重視。2010年以后,像ImageNet這樣的大規(guī)模標記數(shù)據(jù)的出現(xiàn)和GPU計算性能的快速提升,使得關于CNN的研究重新得到井噴式的發(fā)展。
CNN的應用早期主要在手寫字符分類、圖像分類領域,比較有代表性的CNN結(jié)構模型有Krizhevsky 2012年提出的AlexNet[9],該模型在ImageNet圖像分類競賽中以絕對優(yōu)勢奪冠。隨后不斷有新的CNN模型提出,比如牛津大學的VGG(Visual Geometry Group)、Google的 GoogleNet、微軟的ResNet等,這些研究都使得CNN的性能在圖像識別和分類的應用中不斷得到提升。
圖1 CNN基本結(jié)構
近幾年,CNN的應用正逐步向更深層次的人工智能發(fā)展,自然語言處理就是其中一個重要領域。較有代表性的,2014年Yoon Kim提出了一個經(jīng)典的用于文本分類的單層CNN 模型[10]。
圖2 Yoon Kim提出的CNN結(jié)構
該結(jié)構使用長度不同的過濾器對詞向量進行卷積,過濾器的寬度等于詞向量的長度,然后使用Max-polling池化層對每一個過濾器提取的向量進行操作,最后模型的預測都是基于這些拼接起來的過濾器。較經(jīng)典的多層CNN模型為Nal Kalchbrenner 2014提出的Dynamic Convolutional Neural Network[11]。相較于前者,該模型更加復雜,多加入了一層用來實現(xiàn)“情感聚類”。
CNN作為一種特殊的神經(jīng)網(wǎng)絡,在自然語言處理過程中,它的局部關聯(lián)特性能夠?qū)斎胛谋具M行大量的特征提取,從而可以對輸入對象進行精確的模擬;另外由于在卷積層中權重參數(shù)都是共享的,這就大大降低了模型的計算復雜度,與 N-Gram相比,運行速度更快??傮w而言,CNN在自然語言處理中的性能表現(xiàn)是不錯的。文章就是同時基于Yoon Kim的單層CNN結(jié)構和傳統(tǒng)經(jīng)典的CNN模型結(jié)構,試圖將兩者結(jié)合起來,對論文摘要建立學術規(guī)范評價模型。
圖3 Nal Kalchbrenner提出的CNN結(jié)構
根據(jù)國家有關論文摘要的撰寫規(guī)范,摘要通常應具有研究目的、研究方法、研究結(jié)果和結(jié)論的陳述。摘要撰寫是否規(guī)范,專家通過閱讀文本即能判斷。如果要大規(guī)模的檢測摘要撰寫的規(guī)范程度,利用專家來閱讀和判斷的話,那很費時費力。如果能通過機器自動檢測,則可以大大節(jié)省專家閱讀和判斷的時間和精力,且在某個方面可提高檢測精度。
為了對論文摘要數(shù)據(jù)進行數(shù)據(jù)挖掘,首先要建立數(shù)據(jù)集。文章以中國知網(wǎng)(CNKI)為數(shù)據(jù)源,選定圖書情報為檢索學科,檢索出了有結(jié)構化數(shù)據(jù)的摘要信息2 500余條(均為符合規(guī)范的完整摘要文本),經(jīng)過導出和數(shù)據(jù)預處理操作,得到9 767條數(shù)據(jù)(同時包含規(guī)范和非規(guī)范的人造摘要文本),利用這些數(shù)據(jù)建立相應的訓練數(shù)據(jù)集(Train set,7 867條)、校驗數(shù)據(jù)集(Validate set,1 500條)、測試數(shù)據(jù)集(Test set,400條)和詞匯表(Vocabulary set)。
以中國知網(wǎng)為檢索源,選取《圖書情報工作》和《情報科學》期刊為文獻來源,將檢索出來的摘要中有“目的/意義”“方法/過程”“結(jié)果/結(jié)論”標識的論文下載下來,經(jīng)過剔除一些會議通知等無關內(nèi)容之后,將論文的摘要單獨提取出來,共計2 500余條數(shù)據(jù)信息。
經(jīng)過以下數(shù)據(jù)預處理操作:
將每一條摘要中的“目的/意義”“方法/過程”“結(jié)果/結(jié)論”分別提取出來,分別用A、B、C標識。
構造訓練數(shù)據(jù)集、校驗數(shù)據(jù)集、測試數(shù)據(jù)集和詞匯表。其中數(shù)據(jù)集的結(jié)構主要包含三個部分:id、cotent和label,其中id為每條數(shù)據(jù)的唯一標識,content為文本內(nèi)容,label驗證結(jié)果(1為符合學術規(guī)范,2為缺少目的意義,3為缺少方法過程,4為缺少結(jié)果結(jié)論)。label的判定規(guī)則如下:如果content中同時包含A、B、C,則label為1;如果content中沒有包含A,則label為2;如果content中沒有包含B,則label為3;如果content中沒有包含C,則label為4。(這里主要以期刊發(fā)表為準則,即基于以下事實:如果論文在期刊中發(fā)表,則默認該論文的摘要部分符合學術規(guī)范;對于個別有明顯錯誤的摘要內(nèi)容,輔之于人工標注)
將每一條摘要中的A、B、C分別排列組合,構造相應的訓練數(shù)據(jù)(共計7 867條)。對訓練數(shù)據(jù)進行數(shù)據(jù)清洗操作,包括清除無效數(shù)據(jù)、對空數(shù)據(jù)進行補全等。通過編寫相應Python程序,構造好的數(shù)據(jù)集如下圖所示:
圖4 數(shù)據(jù)集圖
首先采用傳統(tǒng)的CNN模型(以下簡寫為模型1),完整結(jié)構如下圖所示,包含輸入層、3個卷積層、1個池化層、1個全連接層和輸出層:其中模型的輸入為詞向量(Word embedding),輸出為每一段文本對應的標簽(即1、2、3、4,各自代表相應的含義)。由于模型的參數(shù)對結(jié)果的準確性影響很大,利用網(wǎng)格搜索經(jīng)過反復調(diào)參,對模型作如下參數(shù)初始化:
模型詞向量(Word embedding)維度設定為64,卷積核個數(shù)為8,卷積核大小為64,全連接層中神經(jīng)元個數(shù)為64,初始權重矩陣隨機選取符合正態(tài)分布的數(shù)值。池化層中采用Max Polling方式,輸出層中激活函數(shù)采用修正線性單元(Rectified linear unit,ReLu)激活并采用SoftMax進行分類。準確率校驗過程采用交叉熵測度(Cross Entropy),權重優(yōu)化過程采用自適應矩估計優(yōu)化器(Adam Optimizer)。另外,由于模型的數(shù)據(jù)量較小,為避免模型訓練過程中發(fā)生過擬合,將Dropout比例設定為0.7,迭代次數(shù)為10。
類似的,利用Kim Y的單層CNN結(jié)構(見圖2),對該模型(以下簡寫為模型2)參數(shù)做如下初始化操作:
模型詞向量(Word embedding)維度設定為520,卷積核大小有三類,分別為3、4、5,每一類卷積核的個數(shù)均為128,初始權重矩陣隨機選取符合正態(tài)分布的數(shù)值;池化層中采用Max Polling方式,輸出層中激活函數(shù)采用修正線性單元(Rectified linear unit,ReLu)激活并采用SoftMax進行分類;準確率校驗過程采用交叉熵測度(Cross Entropy),權重優(yōu)化過程采用自適應矩估計優(yōu)化器(Adam Optimizer);Dropout比例為0.5,迭代次數(shù)為200;L2 規(guī)范化參數(shù)為0。
圖5 CNN結(jié)構圖
根據(jù)模型1和模型2的輸出結(jié)果可以判斷一段文本是否完整包含摘要結(jié)構的四要素,如果不包含的話,亦可指出文本具體缺少哪一個要素。
利用TensorFlow和Sklearn框架,通過編寫Python程序可以將上述兩個模型很方便的實現(xiàn)出來。運行程序發(fā)現(xiàn),模型1在測試集上的精確度為80.13%,模型2精確度為82.57%,基本達到了預期目標(大于80%)。
結(jié)合TensorFlow提供的TensorBoard分析工具,可以看到模型圖(Graph)結(jié)構分別如下所示:
圖6 模型1圖結(jié)構(Graph)
圖7 模型2圖結(jié)構(Graph)
其中模型訓練過程中的精度(accuracy)和損失率(loss)變化趨勢圖如下:
圖8 模型1精度趨勢圖
圖9 模型1損失率趨勢圖
圖10 模型2精度趨勢圖
圖11 模型2損失率趨勢圖
進一步觀察程序輸出結(jié)果中的模型評估指標:
圖12 模型1評估指標
圖13 模型2評估指標
可以看到模型1、2的查準率(Precision)和召回率(Recall)這兩個指標均達到80%以上,由于兩者是互斥的關系,80%的結(jié)果基本符合預期。
綜合利用上面兩個預測模型,對模型1、2的輸出結(jié)果求平均值,以該值作為我們最終模型的最終結(jié)果。觀察最終模型的評價指標如下:
圖14 最終模型的評估指標
可以看到最終模型的各項指標都要高于單個模型(模型1、2)。其中精確達到83.20%,查準率和召回率分別為84%和83%。
文章基于數(shù)據(jù)挖掘技術初步構建了一個以論文摘要為研究對象的學術規(guī)范檢測模型,準確率總體達到了83%+,雖然還沒有符合產(chǎn)品級的高精度(95%+)要求,但其證明通過利用機器學習的相關技術實現(xiàn)論文學術規(guī)范的智能化檢測是可行的。概括起來,該模型相較于傳統(tǒng)學術規(guī)范評審方式有以下幾方面優(yōu)勢:
評審效率高,節(jié)省大量人力成本。上述模型除了在訓練階段耗費較長時間(模型1為11分鐘,模型2為28分鐘),在應用階段對400條樣本的預測僅耗時5秒,效率得到大幅度提升;并且模型只需初始訓練一次即可,后續(xù)階段無需再次訓練。
結(jié)果更具有客觀性和統(tǒng)一性。傳統(tǒng)的人工評審方式主觀性較大,可能會出現(xiàn)錯誤, 甚至不同的專家之間也可能得出不同的結(jié)論。而利用機器學習的技術手段評審,就可以避免主觀性的誤判,提高評審的準確率。
有利于論文的學術規(guī)范標準化。由于論文是由計算機評審,省去人工評審繁瑣的工作,從而可以把精力主要放在論文內(nèi)容的學術規(guī)范的評定上。標準作為模型訓練階段的一個基石,標準統(tǒng)一了,評審結(jié)果也就更具有一致性。
為了進一步提高模型的準確率,對上述CNN模型的進一步優(yōu)化,后續(xù)工作可以考慮從以下幾方面展開:
數(shù)據(jù)集數(shù)量規(guī)模較小。模型訓練數(shù)據(jù)集總量共計7300余條,這對于構建一個高精度的神經(jīng)網(wǎng)絡而言,是遠遠不夠的,一般來說,數(shù)據(jù)集的量級最好在萬以上。CNN模型結(jié)構過于簡單。模型1目前僅包含三個卷積層和一個池化層,可以考慮引入多個卷積層和多個池化層以提高精度,比如采用LeNet模型等。詞向量的構建目前采用的Id標識(即每個字唯一對應于詞匯表中的相應Id),這樣不能從語義上對詞義相近的字進行區(qū)分,優(yōu)化過程中可以考慮采用Word2vec或Tf-Idf的方法。模型的初始權重矩陣目前為隨機矩陣,可以考慮采用Xavier初始化方法[12],防止梯度消減和梯度爆炸,從而提高模型的穩(wěn)定性。
(來稿時間:2018年10月)