亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        論文摘要學術規(guī)范自動檢測模型研究初探*

        2019-04-20 07:34:52葉繼元
        圖書館 2019年4期
        關鍵詞:卷積學術論文

        呂 遠 葉繼元

        (1.南京大學信息管理學院 南京 210023;2.南京工業(yè)大學圖書館 南京 211816)

        引言

        改革開放以來,隨著經(jīng)濟社會的高速發(fā)展,在科研學術方面我國也取得了令世人矚目的巨大成就。但與之而來的學術失范、不端現(xiàn)象也是越來越猖獗,論文學術不規(guī)范的問題即是其中一個重要表現(xiàn)形式,該問題在高校研究生群體中表現(xiàn)尤為突出。由于研究生群體初涉科研工作,每一篇學術論文的發(fā)表都需要經(jīng)過大量的學術規(guī)范方面的評審。目前對論文學術規(guī)范方面的評審主要是定性的主觀性評價,這需要耗費大量的時間和人力成本。如何對論文的學術規(guī)范水平做一個高效的科學合理的客觀評價,達到提升評審效率,降低評審成本的預期效果。這已經(jīng)成為當下亟待解決的一個課題。

        近幾年關于學術規(guī)范和評價研究,國內(nèi)外的研究成果較為豐富。劉大可從研究生學術規(guī)范意識培養(yǎng)的角度進行了研究,界定了學術規(guī)范的內(nèi)涵與作用,并分析了造成學術失范的主要原因,在此基礎上,從發(fā)揮師生關系作用的角度,提出高等院校及導師對研究生學術規(guī)范意識培養(yǎng)的管理機制[1]。王剛教授對社會科學學術研究規(guī)范做了詳細分析,他認為一個科學、全面的社會科學學術研究規(guī)范應該包括以下三個方面:哲學上的思辨、科學上的實證、人文上的關懷。哲學上的思辨為社會科學研究提供研究的源泉和動力,科學上的實證為其提供研究的論證工具,而人文上的關懷則為社會科學研究提供價值規(guī)范[2]。葉繼元教授對學術規(guī)范進行了科學定義,并提出了基本研究規(guī)范、研究程序規(guī)范、研究方法規(guī)范、論著寫作規(guī)范、引文規(guī)范、署名及著作方式規(guī)范、學術批評和評價規(guī)范等內(nèi)容體系。早在10多年前就出版了《學術規(guī)范通論》一書。一個學術作品是否規(guī)范,可以利用葉教授近些年提出的“全評價”理論框架來評價。所謂 “全評價”理論框架,他認為,簡單地說就是,“六個要素”(六位一體)和“三大維度”?!傲鶄€要素”是指評價主體、評價客體、評價目的、評價標準及指標、評價方法和評價制度,其中評價主體是核心,評價目的是龍頭,制約著其他要素?!叭缶S度”是指任一評價客體都可以從三個維度去考察:形式評價、內(nèi)容評價和價值、效用評價。形式評價主要是根據(jù)評價對象的表象來評價,往往可以定量評價,相對直觀、簡單。內(nèi)容評價主要深入評價對象的內(nèi)核,往往依靠同行專家來評價,費時費力。效用評價是指對評價對象的實際貢獻、社會和經(jīng)濟效益、應用結(jié)果、人們思想變化等的評價,它依賴于一段時間或較長時間的評價,是“進行時”或“未完成時”,可以用數(shù)字,也可以用文字來表述[3]。

        具體針對論文摘要的學術規(guī)范,全國文獻工作標準化技術委員會于1986年發(fā)布了GB6447—86文摘編寫規(guī)則[4],其中規(guī)定文摘是以提供文獻內(nèi)容梗概為目的,不加評論和補充解釋,簡明、確切地記述文獻重要內(nèi)容的短文;文摘包含四大要素,分別為目的、方法、結(jié)果、結(jié)論?;谶@一國家標準,很多學者對摘要的規(guī)范做了相應的研究。比較有代表性的有:高建群針對中文學術論文摘要的寫作規(guī)范[5],其將摘要分為研究報告型,綜述型,論證型,發(fā)現(xiàn)、發(fā)明型,計算型五大類,并分別探討了相應摘要的寫作格式,最終概括了摘要的寫作總要求“忠實于原文、簡潔明了、章法規(guī)范”;金丹通過分析《工程索引》(EI)對英文摘要的要求[6],從寫作要求、時態(tài)、人稱和語態(tài)、常用詞匯等方面,總結(jié)了英文摘要寫作的規(guī)范。她認為英文摘要的結(jié)構可以概括為IMARD(Introduction、Material and Methods、Result and Discussion),包括引言、材料與方法、結(jié)果和討論部分。而利用數(shù)據(jù)挖掘技術對摘要學術規(guī)范做自動化監(jiān)測的相關研究目前尚少。

        論文摘要也可以通過計算機自動生成,目前主要有兩種方式:一類是以TextRank算法為代表的抽取關鍵詞句的方式[7];另一類則是借助于深度神經(jīng)網(wǎng)絡讓計算機自動“造句”,最終生成摘要。由于后者在技術上還有一些關鍵性的難點有待突破,現(xiàn)在應用比較廣泛的是第一種方式。但由于抽取式摘要生成主要是基于詞頻,并沒有過多的語義信息,造成很多相關聯(lián)的詞匯都會被獨立對待,以至于無法建立文本段落中完整的語義信息,生成的摘要可閱讀性較差。因此借助于計算機自動生成符合學術規(guī)范的摘要信息目前還不成熟。

        綜上可以看出,目前學界關于學術規(guī)范及其評價研究的理論已經(jīng)很充實,相關的模型框架也比較完備。但是在定量化的評價研究方面還有待深入。文章根據(jù)“全評價”理論框架,主要就其中的形式評價維度,嘗試利用機器學習技術,結(jié)合卷積神經(jīng)網(wǎng)絡,以摘要的文本內(nèi)容為研究對象(涉及到內(nèi)容評價的一部分),初步構建了一個自動化智能檢測模型,相較于傳統(tǒng)論文評審方式,不但可以節(jié)省大量人力物力,結(jié)果亦更具準確性和客觀性。

        1 相關工作

        卷積神經(jīng)網(wǎng)絡(Convolution Neural Network,CNN)自20世紀60年代由Hubel和Wiesel首次提出以后[8],由于當時缺乏訓練數(shù)據(jù)和硬件設備性能不足的原因,一直沒有引起足夠的重視。2010年以后,像ImageNet這樣的大規(guī)模標記數(shù)據(jù)的出現(xiàn)和GPU計算性能的快速提升,使得關于CNN的研究重新得到井噴式的發(fā)展。

        CNN的應用早期主要在手寫字符分類、圖像分類領域,比較有代表性的CNN結(jié)構模型有Krizhevsky 2012年提出的AlexNet[9],該模型在ImageNet圖像分類競賽中以絕對優(yōu)勢奪冠。隨后不斷有新的CNN模型提出,比如牛津大學的VGG(Visual Geometry Group)、Google的 GoogleNet、微軟的ResNet等,這些研究都使得CNN的性能在圖像識別和分類的應用中不斷得到提升。

        圖1 CNN基本結(jié)構

        近幾年,CNN的應用正逐步向更深層次的人工智能發(fā)展,自然語言處理就是其中一個重要領域。較有代表性的,2014年Yoon Kim提出了一個經(jīng)典的用于文本分類的單層CNN 模型[10]。

        圖2 Yoon Kim提出的CNN結(jié)構

        該結(jié)構使用長度不同的過濾器對詞向量進行卷積,過濾器的寬度等于詞向量的長度,然后使用Max-polling池化層對每一個過濾器提取的向量進行操作,最后模型的預測都是基于這些拼接起來的過濾器。較經(jīng)典的多層CNN模型為Nal Kalchbrenner 2014提出的Dynamic Convolutional Neural Network[11]。相較于前者,該模型更加復雜,多加入了一層用來實現(xiàn)“情感聚類”。

        CNN作為一種特殊的神經(jīng)網(wǎng)絡,在自然語言處理過程中,它的局部關聯(lián)特性能夠?qū)斎胛谋具M行大量的特征提取,從而可以對輸入對象進行精確的模擬;另外由于在卷積層中權重參數(shù)都是共享的,這就大大降低了模型的計算復雜度,與 N-Gram相比,運行速度更快??傮w而言,CNN在自然語言處理中的性能表現(xiàn)是不錯的。文章就是同時基于Yoon Kim的單層CNN結(jié)構和傳統(tǒng)經(jīng)典的CNN模型結(jié)構,試圖將兩者結(jié)合起來,對論文摘要建立學術規(guī)范評價模型。

        圖3 Nal Kalchbrenner提出的CNN結(jié)構

        2 以摘要為對象的學術規(guī)范評價模型的構建

        根據(jù)國家有關論文摘要的撰寫規(guī)范,摘要通常應具有研究目的、研究方法、研究結(jié)果和結(jié)論的陳述。摘要撰寫是否規(guī)范,專家通過閱讀文本即能判斷。如果要大規(guī)模的檢測摘要撰寫的規(guī)范程度,利用專家來閱讀和判斷的話,那很費時費力。如果能通過機器自動檢測,則可以大大節(jié)省專家閱讀和判斷的時間和精力,且在某個方面可提高檢測精度。

        為了對論文摘要數(shù)據(jù)進行數(shù)據(jù)挖掘,首先要建立數(shù)據(jù)集。文章以中國知網(wǎng)(CNKI)為數(shù)據(jù)源,選定圖書情報為檢索學科,檢索出了有結(jié)構化數(shù)據(jù)的摘要信息2 500余條(均為符合規(guī)范的完整摘要文本),經(jīng)過導出和數(shù)據(jù)預處理操作,得到9 767條數(shù)據(jù)(同時包含規(guī)范和非規(guī)范的人造摘要文本),利用這些數(shù)據(jù)建立相應的訓練數(shù)據(jù)集(Train set,7 867條)、校驗數(shù)據(jù)集(Validate set,1 500條)、測試數(shù)據(jù)集(Test set,400條)和詞匯表(Vocabulary set)。

        2.1 源數(shù)據(jù)預處理

        以中國知網(wǎng)為檢索源,選取《圖書情報工作》和《情報科學》期刊為文獻來源,將檢索出來的摘要中有“目的/意義”“方法/過程”“結(jié)果/結(jié)論”標識的論文下載下來,經(jīng)過剔除一些會議通知等無關內(nèi)容之后,將論文的摘要單獨提取出來,共計2 500余條數(shù)據(jù)信息。

        經(jīng)過以下數(shù)據(jù)預處理操作:

        將每一條摘要中的“目的/意義”“方法/過程”“結(jié)果/結(jié)論”分別提取出來,分別用A、B、C標識。

        構造訓練數(shù)據(jù)集、校驗數(shù)據(jù)集、測試數(shù)據(jù)集和詞匯表。其中數(shù)據(jù)集的結(jié)構主要包含三個部分:id、cotent和label,其中id為每條數(shù)據(jù)的唯一標識,content為文本內(nèi)容,label驗證結(jié)果(1為符合學術規(guī)范,2為缺少目的意義,3為缺少方法過程,4為缺少結(jié)果結(jié)論)。label的判定規(guī)則如下:如果content中同時包含A、B、C,則label為1;如果content中沒有包含A,則label為2;如果content中沒有包含B,則label為3;如果content中沒有包含C,則label為4。(這里主要以期刊發(fā)表為準則,即基于以下事實:如果論文在期刊中發(fā)表,則默認該論文的摘要部分符合學術規(guī)范;對于個別有明顯錯誤的摘要內(nèi)容,輔之于人工標注)

        將每一條摘要中的A、B、C分別排列組合,構造相應的訓練數(shù)據(jù)(共計7 867條)。對訓練數(shù)據(jù)進行數(shù)據(jù)清洗操作,包括清除無效數(shù)據(jù)、對空數(shù)據(jù)進行補全等。通過編寫相應Python程序,構造好的數(shù)據(jù)集如下圖所示:

        圖4 數(shù)據(jù)集圖

        2.2 模型的構建

        首先采用傳統(tǒng)的CNN模型(以下簡寫為模型1),完整結(jié)構如下圖所示,包含輸入層、3個卷積層、1個池化層、1個全連接層和輸出層:其中模型的輸入為詞向量(Word embedding),輸出為每一段文本對應的標簽(即1、2、3、4,各自代表相應的含義)。由于模型的參數(shù)對結(jié)果的準確性影響很大,利用網(wǎng)格搜索經(jīng)過反復調(diào)參,對模型作如下參數(shù)初始化:

        模型詞向量(Word embedding)維度設定為64,卷積核個數(shù)為8,卷積核大小為64,全連接層中神經(jīng)元個數(shù)為64,初始權重矩陣隨機選取符合正態(tài)分布的數(shù)值。池化層中采用Max Polling方式,輸出層中激活函數(shù)采用修正線性單元(Rectified linear unit,ReLu)激活并采用SoftMax進行分類。準確率校驗過程采用交叉熵測度(Cross Entropy),權重優(yōu)化過程采用自適應矩估計優(yōu)化器(Adam Optimizer)。另外,由于模型的數(shù)據(jù)量較小,為避免模型訓練過程中發(fā)生過擬合,將Dropout比例設定為0.7,迭代次數(shù)為10。

        類似的,利用Kim Y的單層CNN結(jié)構(見圖2),對該模型(以下簡寫為模型2)參數(shù)做如下初始化操作:

        模型詞向量(Word embedding)維度設定為520,卷積核大小有三類,分別為3、4、5,每一類卷積核的個數(shù)均為128,初始權重矩陣隨機選取符合正態(tài)分布的數(shù)值;池化層中采用Max Polling方式,輸出層中激活函數(shù)采用修正線性單元(Rectified linear unit,ReLu)激活并采用SoftMax進行分類;準確率校驗過程采用交叉熵測度(Cross Entropy),權重優(yōu)化過程采用自適應矩估計優(yōu)化器(Adam Optimizer);Dropout比例為0.5,迭代次數(shù)為200;L2 規(guī)范化參數(shù)為0。

        圖5 CNN結(jié)構圖

        根據(jù)模型1和模型2的輸出結(jié)果可以判斷一段文本是否完整包含摘要結(jié)構的四要素,如果不包含的話,亦可指出文本具體缺少哪一個要素。

        2.3 模型的評估和預測

        利用TensorFlow和Sklearn框架,通過編寫Python程序可以將上述兩個模型很方便的實現(xiàn)出來。運行程序發(fā)現(xiàn),模型1在測試集上的精確度為80.13%,模型2精確度為82.57%,基本達到了預期目標(大于80%)。

        結(jié)合TensorFlow提供的TensorBoard分析工具,可以看到模型圖(Graph)結(jié)構分別如下所示:

        圖6 模型1圖結(jié)構(Graph)

        圖7 模型2圖結(jié)構(Graph)

        其中模型訓練過程中的精度(accuracy)和損失率(loss)變化趨勢圖如下:

        圖8 模型1精度趨勢圖

        圖9 模型1損失率趨勢圖

        圖10 模型2精度趨勢圖

        圖11 模型2損失率趨勢圖

        進一步觀察程序輸出結(jié)果中的模型評估指標:

        圖12 模型1評估指標

        圖13 模型2評估指標

        可以看到模型1、2的查準率(Precision)和召回率(Recall)這兩個指標均達到80%以上,由于兩者是互斥的關系,80%的結(jié)果基本符合預期。

        綜合利用上面兩個預測模型,對模型1、2的輸出結(jié)果求平均值,以該值作為我們最終模型的最終結(jié)果。觀察最終模型的評價指標如下:

        圖14 最終模型的評估指標

        可以看到最終模型的各項指標都要高于單個模型(模型1、2)。其中精確達到83.20%,查準率和召回率分別為84%和83%。

        3 總結(jié)和進一步優(yōu)化

        文章基于數(shù)據(jù)挖掘技術初步構建了一個以論文摘要為研究對象的學術規(guī)范檢測模型,準確率總體達到了83%+,雖然還沒有符合產(chǎn)品級的高精度(95%+)要求,但其證明通過利用機器學習的相關技術實現(xiàn)論文學術規(guī)范的智能化檢測是可行的。概括起來,該模型相較于傳統(tǒng)學術規(guī)范評審方式有以下幾方面優(yōu)勢:

        評審效率高,節(jié)省大量人力成本。上述模型除了在訓練階段耗費較長時間(模型1為11分鐘,模型2為28分鐘),在應用階段對400條樣本的預測僅耗時5秒,效率得到大幅度提升;并且模型只需初始訓練一次即可,后續(xù)階段無需再次訓練。

        結(jié)果更具有客觀性和統(tǒng)一性。傳統(tǒng)的人工評審方式主觀性較大,可能會出現(xiàn)錯誤, 甚至不同的專家之間也可能得出不同的結(jié)論。而利用機器學習的技術手段評審,就可以避免主觀性的誤判,提高評審的準確率。

        有利于論文的學術規(guī)范標準化。由于論文是由計算機評審,省去人工評審繁瑣的工作,從而可以把精力主要放在論文內(nèi)容的學術規(guī)范的評定上。標準作為模型訓練階段的一個基石,標準統(tǒng)一了,評審結(jié)果也就更具有一致性。

        為了進一步提高模型的準確率,對上述CNN模型的進一步優(yōu)化,后續(xù)工作可以考慮從以下幾方面展開:

        數(shù)據(jù)集數(shù)量規(guī)模較小。模型訓練數(shù)據(jù)集總量共計7300余條,這對于構建一個高精度的神經(jīng)網(wǎng)絡而言,是遠遠不夠的,一般來說,數(shù)據(jù)集的量級最好在萬以上。CNN模型結(jié)構過于簡單。模型1目前僅包含三個卷積層和一個池化層,可以考慮引入多個卷積層和多個池化層以提高精度,比如采用LeNet模型等。詞向量的構建目前采用的Id標識(即每個字唯一對應于詞匯表中的相應Id),這樣不能從語義上對詞義相近的字進行區(qū)分,優(yōu)化過程中可以考慮采用Word2vec或Tf-Idf的方法。模型的初始權重矩陣目前為隨機矩陣,可以考慮采用Xavier初始化方法[12],防止梯度消減和梯度爆炸,從而提高模型的穩(wěn)定性。

        (來稿時間:2018年10月)

        猜你喜歡
        卷積學術論文
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        如何理解“Curator”:一個由翻譯引發(fā)的學術思考
        中國博物館(2019年2期)2019-12-07 05:40:44
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        對學術造假重拳出擊
        商周刊(2019年2期)2019-02-20 01:14:22
        基于傅里葉域卷積表示的目標跟蹤算法
        下期論文摘要預登
        下期論文摘要預登
        下期論文摘要預登
        2013年5—12月最佳論文
        新聞前哨(2014年1期)2014-03-12 22:10:06
        一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
        電視技術(2014年19期)2014-03-11 15:38:20
        二区久久国产乱子伦免费精品 | 粗壮挺进人妻水蜜桃成熟漫画 | 任你躁欧美一级在线精品免费| jjzz日本护士| 精品国产高清一区二区广区| jk制服黑色丝袜喷水视频国产| 国产av专区一区二区三区| 国产美女裸身网站免费观看视频| 最新国产成人综合在线观看| 中文字幕有码在线视频| 开心激情站开心激情网六月婷婷| 国产一区,二区,三区免费视频| 国产丝袜高跟美腿一区在线| 亚洲国产线茬精品成av | 免费一区啪啪视频| 国产免费人成视频在线播放播| 国产精品三级自产拍av| 美女被搞在线观看一区二区三区 | 久久成人成狠狠爱综合网| 日本一道综合久久aⅴ免费| 波多野结衣爽到高潮大喷| 欧美精品videosex极品| 欧美午夜刺激影院| 97久久精品亚洲中文字幕无码 | 午夜一区二区在线视频| 玩弄极品少妇被弄到高潮| 精品人妻夜夜爽一区二区| 国产理论亚洲天堂av| 男女打扑克视频在线看| 好看的日韩精品视频在线| 极品美女一区二区三区免费| 色大全全免费网站久久| 精品国产品香蕉在线| 日韩日韩日韩日韩日韩日韩| 色偷偷偷久久伊人大杳蕉| 国产小受呻吟gv视频在线观看| 99热成人精品国产免国语的| 人妻无码∧V一区二区| 久久99免费精品国产 | 黑人玩弄漂亮少妇高潮大叫| av无码久久久久久不卡网站 |