亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡的文獻自動分類研究

2018-03-12 19:24:38郭利敏

圖書與情報 2017年6期

摘要：人工智能技術(shù)的蓬勃發(fā)展，驅(qū)動著文獻自動分類由基于規(guī)則的分類向基于機器學習的方向發(fā)展。文章在對深度學習概述的基礎(chǔ)上，將卷積神經(jīng)網(wǎng)絡引入到了文獻自動分類，構(gòu)建了基于題名、關(guān)鍵詞的多層次卷積神經(jīng)網(wǎng)絡模型，使之能夠根據(jù)文獻的題名和關(guān)鍵詞自動給出中圖分類號。通過在TensorFlow平臺上的深度學習模型，利用《全國報刊索引》約170萬條記錄進行模型訓練，并對7000多篇待加工的文獻做中圖法分類預測，其在生產(chǎn)情況下一級分類準確率為75.39%，四級準確率為57.61%。當置信度為0.9時，一級正確率為43.98%，錯誤率為1.96%，四級正確率為25.66%，四級錯誤率為5.11%。證明該模型有著較低的錯誤率，可為《全國報刊索引》分類流程的半自動化提供幫助，解決存在的編目人員緊缺、加工質(zhì)量和效率下降等問題。

關(guān)鍵詞：人工智能；智能圖書館；深度學習；卷積神經(jīng)網(wǎng)絡；TensorFlow；自動分類

中圖分類號TP18；G254.11 文獻標識碼：A DOI：10.11968/tsyqb.1003-6938.2017119

Abstract With the rapid development of artificial intelligence， the automatic classification of literature is changing from the rule-based to the machine learning. After an outline of deep learning， the paper introduced convolution neural network into the automatic classification， constructing a multi-level model based on the title and the key words and thus CLC is given automatically. Through the deep learning model in TensorFlow， about 1700000 records of National Newspaper Index were used to make model train. More than 7000literature were processed with the model and the result is： under the production condition， the accuracy of the first classification is 75.39%； the accuracy of the fourth classification is 57.61. When the confidence is 0.9， the correct rate of the first classification is 43.98%， error rate is 1.96%； correct rate of the fourth classification is 25.66%， the error rate is 5.11%.This shows that the model can be used to help realize the semi-automatic in the classification of National Newspaper Index and other problems.

Key words artificial intelligence； smart library； deep learning； convolution neural network； TensorFlow； automatic classification

1 引言：圖書館與文獻自動分類

文獻的標引編目加工是圖書館重要的業(yè)務工作之一，其工作量大，專業(yè)性強，又是需要多人協(xié)作的綜合性工作，有自己的特點和規(guī)律，主要采用手工分類的方式。在知識爆炸的時代，需要對數(shù)量龐大、內(nèi)容復雜、形式多樣的文獻進行準確的歸類、標引，對工作人員的要求很高；另一方面，由于編目外包和圖書館學專業(yè)教育的轉(zhuǎn)型，資深標引編目人員日趨減少，信息加工質(zhì)量和效率都呈下降趨勢。

20世紀50、60年代在H .P .Luhn、Maron等人的推動下，圖書館界一直在探索文獻自動分類的方法。國內(nèi)相關(guān)研究起始于上世紀80年代初[1]。近年來隨著人工智能技術(shù)的蓬勃發(fā)展，文獻自動分類由基于規(guī)則的分類轉(zhuǎn)向基于機器學習的分類，旨在提高文獻的分準率。

1.1 基于規(guī)則的分類方法

基于規(guī)則的分類方法主要包括基于詞典發(fā)的分類方法，即構(gòu)建主題詞與分類號的對照關(guān)系表，掃描并找出文章所包含的主題詞進而計算文獻的類歸屬性；基于專家系統(tǒng)的自動分類方法，即構(gòu)建專家系統(tǒng)結(jié)合推理機實現(xiàn)文獻分類[1]。此類方法的一方面構(gòu)建分類主題詞表，但由于在知識爆炸的當下，各學科發(fā)展迅猛文獻內(nèi)容、形式多樣使得詞表的編制滯后于科學的發(fā)展，使得其對于包含新詞的文獻無法分類；另一方面經(jīng)常需要人工依學科發(fā)展的情況不斷調(diào)整分類規(guī)則。

1.2 基于機器學習的分類方法

文獻分類過程實質(zhì)是編目人員依據(jù)文獻題名、關(guān)鍵詞和摘要結(jié)合其對中圖分類法的理解賦予一個中圖分類號的過程（少數(shù)情況下需要通讀全文）。換言之，即是編目人員通過培訓學習中圖分類法構(gòu)建相應的分類體系，利用培訓學習的成果對文獻進行加工，并在實踐中不斷完善自己的分類體系。把上述過程泛化，利用已編目的文獻構(gòu)建題名、關(guān)鍵詞和摘要的知識庫，提取相應的特征數(shù)據(jù)進行學習，這便是基于機器學習的分類方法。

基于機器學習的分類方法其基本過程主要包括：構(gòu)建語料庫、文本建模、特征選擇、特征擴展、選擇并實現(xiàn)分類算法五個環(huán)節(jié)。常用的方法有樸素貝葉斯法、KNN、決策樹法、中心向量法、支持向量機以及近兩年興起的人工神經(jīng)網(wǎng)絡的分類方法等?；谏窠?jīng)網(wǎng)絡的分類方法雖在小規(guī)訓練集上與其他傳統(tǒng)的機器學習分類方法不相上下，但隨著數(shù)據(jù)集和網(wǎng)絡規(guī)模的增大，其性能遠超于傳統(tǒng)的機器學習方法，能夠更好處理海量數(shù)據(jù)（見圖1）。endprint

本文嘗試將卷積神經(jīng)網(wǎng)絡引入到文獻自動分類研究中，構(gòu)建基于題名、關(guān)鍵詞的多層次卷積神經(jīng)網(wǎng)絡網(wǎng)絡模型，使之能夠根據(jù)文獻的題名和關(guān)鍵詞自動給出中圖分類號，以解決編目人員緊缺，加工質(zhì)量和效率下降的問題，并在實際生產(chǎn)環(huán)境下證明該模型的準確性和合理性。

2 深度學習與TensorFlow

隨著第三次人工智能浪潮的興起，機器學習作為一種數(shù)據(jù)挖掘的方法被廣泛應用于垃圾郵件檢測、定向客戶的產(chǎn)品推薦、商品預測等領(lǐng)域。近年來，受益于計算機在通用計算領(lǐng)域計算性能的持續(xù)提升和海量數(shù)據(jù)的便捷獲取，深度學習作為一種特殊的機器學習范式在圖像識別、語音識別、機器翻譯、文本分類等領(lǐng)域獲得巨大成功，憑借從輸入數(shù)據(jù)中判斷“哪些是特征值”，無需人工干預的能力，其在醫(yī)療診斷、藝術(shù)創(chuàng)作、醫(yī)療診斷、自動駕駛等更加復雜的領(lǐng)域也有突破性的進展，并已開始應用于實際工作中。

2.1 深度神經(jīng)網(wǎng)絡

深度學習神經(jīng)網(wǎng)絡是人工神經(jīng)網(wǎng)絡的擴展，人工神經(jīng)網(wǎng)絡是基于模擬大腦皮層的神經(jīng)網(wǎng)絡結(jié)構(gòu)和功能而提出的計算模型（見圖2），人工神經(jīng)元細胞可根據(jù)輸入信號pi的刺激觸發(fā)輸出a，大量的人工神經(jīng)元細胞依一定的規(guī)則（即權(quán)重wi）連接在一起形成一個大規(guī)模并行計算網(wǎng)絡，即人工神經(jīng)網(wǎng)絡。

相較于其他機器學習方法，深度學習在模擬人腦神經(jīng)元間的連接、對外界刺激的感知和傳導的同時，采用讓各層預先學習的方式，建立對觀察數(shù)據(jù)（或稱訓練數(shù)據(jù)、輸入）和標簽（或稱輸出）之間的聯(lián)合分布。學習從淺層順次開始，上一層學習得出的數(shù)據(jù)會作為下一層的輸入數(shù)據(jù)，由淺層的初級特征逐步學習到深層的高級特征。如在學習什么是狗時，第一層是一個輪廓、下一層是眼、鼻子的形狀，在下一層是臉上的其他細節(jié)。以此類推，是一個從全局到局部再到細節(jié)特征的學習過程，每一層都在分段學習，學習過程中的錯誤也可以在每一層得到相應處理，這使得其具有自我學習和解決問題的能力，該模型最早由多倫多大學的Hitton教授于2006年提出——一種名為深度置信網(wǎng)絡（Deep Belief Net，DBN）[9]，在2012年的ImageNet圖像識別大賽中以低于第二名10%的錯誤率而嶄露頭角[10]，之后LeCun、Mikolov等人則提出卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡，對深度學習進行優(yōu)化和擴展。

2.2 深度學習框架

為了更好、更方便高效使用機器學習算法，通常需要一定的軟件平臺支持，如Caffe、Theano、Torch、CNTK、Tensorflow等。

Tensorflow是谷歌于2015推出的一種供機器學習所使用的利用數(shù)據(jù)流圖進行計算的庫套件，遵循Apache2.0協(xié)議。相對于其他幾個神經(jīng)網(wǎng)計算框架而言，Tensorflow屬于其中的后起之秀，它支持多種機器學習常用的開發(fā)語言（如C++、Python、Cuda），支持幾乎所有類型的深度學習算法的開發(fā)（如 CNN、RNN、LSTM 等），能在多種硬件環(huán)境（CPU、GPU、TPU手機、云）下很好地利用各自的長處和特點運行，并能夠進行網(wǎng)絡分布式學習。由于其具有眾多優(yōu)點，如計算速度快、部署容易、靈活性強、可擴展等，有學者在github上發(fā)布了關(guān)于Caffe，Theano、Torch、CNTK、Tensorflow性能比較的文章，從網(wǎng)絡模型能力、接口、模型部署、性能，架構(gòu)和跨平臺方面對其進行比較分析并做相應評分（滿分為5分）[11]（見表1），比較可見，Tensorflow無論是單項還是綜合評分都比較高。

Google是TensorFlow 的最大用戶和推動者，在谷歌的強力推廣下，很多高校、科研機構(gòu)和第三公司已開始使用Tensorflow，例如谷歌利用該平臺對其自動翻譯服務進行了系統(tǒng)升級，翻譯質(zhì)量比過去有明顯提升；在谷歌郵件系統(tǒng)中，用sequence-to-sequence[12]模型來自動建立文本摘要，并對郵件語境預測可能的回復；對視網(wǎng)膜影像數(shù)據(jù)進行訓練，已能成功預測影像是否有糖尿病引起的視網(wǎng)膜病變[13]；在AutoDraw[14]中開發(fā)“預測”功能，可以根據(jù)標題和用戶畫出的部分元素推測并繼續(xù)完成一幅繪畫作品； Google Now則通過適當?shù)臄?shù)據(jù)反饋（RNN，反饋神經(jīng)網(wǎng)絡）來理解音頻信號，進而實現(xiàn)語音識別、語音搜索、語音情感分析等[15]。這些科研應用也給深度學習在其他行業(yè)中的應用提供了參照。

3 基于卷積神經(jīng)網(wǎng)絡的《全國報刊索引》文獻分類模型

《全國報刊索引》近4年歷史數(shù)據(jù)約為170萬條，包含題名、關(guān)鍵詞、分類號、摘要、作者、出版社、全文等文獻信息。一方面由于文獻題名與內(nèi)容有著較高的符合率[1] ，且題名是一個有限長度、結(jié)構(gòu)緊湊、能夠表達獨立意思的短句，這使得卷積神經(jīng)網(wǎng)絡可以用于文獻的分類；另一方面從摘要中提取正確關(guān)鍵詞存在一定困難，所以本文選取題名+關(guān)鍵詞作為網(wǎng)絡模型訓練的訓練集，文獻對應的中圖法分類號作為網(wǎng)絡模型的輸出。

3.1 文獻分類系統(tǒng)模型設(shè)計

基于深度學習的報刊索引文本分類基本思想是將已分好類的文獻題名和關(guān)鍵詞經(jīng)切詞后構(gòu)成二維詞向量作為神經(jīng)網(wǎng)絡的輸入，分類號作為輸出，通過多層神經(jīng)網(wǎng)絡訓練后，對新的文獻分類進行預測。本文所用數(shù)據(jù)中，中圖分類法一級類目38個、四級類目9668個，為了降低訓練成本，本文模型采用粗、細分類的分層分類結(jié)構(gòu)（見圖3），先大類分類，隨后在大類分類的基礎(chǔ)上將其進行四級分類；預測也是如此。

分類系統(tǒng)采用模型預訓練和模型預測組成。其中，預訓練是通過對現(xiàn)有文獻分類的結(jié)果搭建深層神經(jīng)網(wǎng)絡的深度學習模型并進行數(shù)據(jù)訓練，包括數(shù)據(jù)預處理和機器學習兩部分；模型預測則是對未知文獻進行分類結(jié)果預測（見圖4）。

3.2 數(shù)據(jù)預處理

由于神經(jīng)網(wǎng)絡的準確率對于受訓練數(shù)據(jù)影響較大，故數(shù)據(jù)預處理是整個系統(tǒng)的第一步也是最為關(guān)鍵的一步，包含分詞、詞向量轉(zhuǎn)換以及輸出標簽的獨立熱編碼（one-hot code）。endprint

3.2.1 分詞

分詞則是將自然語言轉(zhuǎn)換為一組詞語的表達，與英文依空格切詞不同，中文分詞分為句子切分，對輸入的中文文檔進行預處理，得到單個中文短句的集合；原子切分，對輸入的中文短句進行原子切分，并根據(jù)所得的原子系列建立初始的切分詞圖；堆砌詞語，基于原子系列，從不同視角分別進行中文詞語識別，并將各自的堆砌結(jié)果添加到切分圖；分詞優(yōu)選，基于上一階段的堆砌路徑和各路徑的概率，計算得出最可能的堆砌路徑，作為最后的分詞結(jié)果，并輸出最終結(jié)果，四個步驟。本文采取的做法如下：首先對所有文獻的關(guān)鍵詞做詞頻統(tǒng)計，并構(gòu)建分詞用主題詞表；基于前綴詞典實現(xiàn)高效的詞圖掃描，結(jié)合主題詞表生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖；其次運用動態(tài)規(guī)劃算法查找最大概率路徑，并找出基于詞頻的最大切分組合；對于未登錄詞，采用隱馬爾可夫模型（Hidden Markov Model，HMM）[24]模型做漢字成詞處理。

3.2.2 詞向量

正如前文所提到的，深度學習實質(zhì)是數(shù)值計算，所以需要詞向量轉(zhuǎn)換將自然語言轉(zhuǎn)換成可計算的數(shù)學表達，即將一個詞轉(zhuǎn)換成一定空間向量下的概率表達即p=（w（t）│（w（t-n+1），…，w（t-1）），其中w（t）為句子中第t個詞在文本中的向量表達。word vector則表示由該文獻題名和關(guān)鍵詞組成的詞向量組（見圖5）。

其中，label表示文獻所對應的分類號采用獨立熱編碼形式，將分類號映射為N維空間向量（N為總分類個數(shù)），當某一個維度上的值為1，其它位為0時表示該表示其所對應的分類號，即label=（（1 0 … 0 0））；詞向量wv=（wv11 wv12 … wv1j … wv1m）表示該文獻的中一個詞。

詞向量分為靜態(tài)（static）和非靜態(tài)（non-static）方式兩種，靜態(tài)方式采用預訓練的詞向量，訓練過程不更新詞向量，在數(shù)據(jù)量不大的情況下使用靜態(tài)方式可以得到不錯的效果；非靜態(tài)方式則是在訓練過程中更新詞向量，訓練過程中調(diào)整詞向量，能加速收斂。詞向量訓練模型有很多如skip-gram、CBOW[20-22]、C&W[23]模型等，本文采用靜態(tài)方式，使用skip-gram模型，結(jié)合文獻的題名、關(guān)鍵詞和摘要的分詞結(jié)果作為詞向量的訓練集，構(gòu)建靜態(tài)詞向量。

3.3 卷積神經(jīng)網(wǎng)絡分類模型的分析與設(shè)計

通過Yoon kim的研究表明，有限長度、結(jié)構(gòu)緊湊、能夠表達獨立意思的句子可以使用卷積神經(jīng)網(wǎng)絡進行分類[18，25，26]，在其研究的基礎(chǔ)上，本文提出將文獻的題名、關(guān)鍵詞作為訓練集，并搭建多層卷積神經(jīng)網(wǎng)絡用于文獻分類的訓練和預測。

卷積神經(jīng)網(wǎng)絡（convolutional neural network， CNN）[27]顧名思義，將卷積濾波與神經(jīng)網(wǎng)絡兩個思想結(jié)合起來與普通神經(jīng)網(wǎng)絡的區(qū)別在于，卷積神經(jīng)網(wǎng)絡包含了一個由卷積層和子采樣層構(gòu)成的特征抽取器。在卷積神經(jīng)網(wǎng)絡的卷積層中，一個神經(jīng)元只與部分鄰層神經(jīng)元連接。在CNN的一個卷積層中，通常包含若干個特征平面（feature maps），每個特征平面由一些矩形排列的的神經(jīng)元組成，同一特征平面的神經(jīng)元共享權(quán)值，這里共享的權(quán)值就是卷積核。卷積核一般以隨機小數(shù)矩陣的形式初始化，在網(wǎng)絡的訓練過程中卷積核將學習得到合理的權(quán)值。共享權(quán)值（卷積核）帶來的直接好處是減少網(wǎng)絡各層之間的連接，同時又降低了過擬合的風險。子采樣也叫做池化（pooling），通常有均值子采樣（average pooling）和最大值子采樣（max pooling）兩種形式。子采樣可以看作一種特殊的卷積過程。卷積和子采樣大大簡化了模型復雜度，減少了模型的參數(shù)。為此，我們可以得知卷積神經(jīng)網(wǎng)絡的基本結(jié)構(gòu)（見圖6），其由三部分構(gòu)成。第一部分是輸入層；第二部分由n個卷積層和池化層的組合組成；第三部分由一個全連結(jié)的多層感知分類器構(gòu)成。

在作者文獻自動分類的神經(jīng)網(wǎng)絡結(jié)構(gòu)中（見圖7），輸入層為20*20詞向量，隱含層由卷積核為2*20和3個2*1的卷基層堆疊而成，輸出層為全連接層，結(jié)合softmax激活函數(shù)將提取的文本特征輸出為各個分類上的概率分布。

3.4 實驗結(jié)果與分析

實驗所用數(shù)據(jù)為上海圖書館《全國報刊索引》2013-2016（或2014-2017年，作者確定年份）年170萬余條題錄將上述模型于TensorFlow平臺上進行訓練和調(diào)試，其中訓練集為153萬條，訓練用驗證集為17萬條。模型訓練集的準確率收斂于67%，訓練用驗證集的準確率收斂于69%左右（見圖8、9）。

在生產(chǎn)環(huán)境中，模型預測結(jié)果的正確與否是以人工分類結(jié)果為參照標準。對未知的7144條待加工數(shù)據(jù)做分級分類預測，并與人工分類結(jié)果做比較，測試后得知，一級準確率為75.39%，四級準確率為57.61%（見表2）。

正如前文所提到神經(jīng)網(wǎng)絡的結(jié)果輸出是為一個分類上的概率表達，當設(shè)輸出閾值（置信度）為0.9時，雖模型一級正確率為43.98%，一級錯誤率為1.96%，四級輸出正確率為25.66%，錯誤率為5.11%（見表3）。這表明對于測試集而言其預測結(jié)果在閾值為0.9時的輸出結(jié)果有著較低的錯誤率，即擁有較高的可信度。

3.4.1 訓練集對準確率的影響

受期刊收錄稿件偏好影響，本文所使用的數(shù)據(jù)存在很大的不均衡性（見表4），大量的數(shù)據(jù)集中在D、F、G、R四個大類上，最少的Z大類只有20個訓練樣本，由于神經(jīng)網(wǎng)絡的訓練集不均衡性[28-31]導致模型預測準確率在一定層度下會有所下降，通過訓練集均衡以獲得最佳結(jié)果；對于一些極度不均衡的數(shù)據(jù)，如T、Z大類，四年內(nèi)總計數(shù)據(jù)不足100條的類目，無法做樣本均衡，則可將其標統(tǒng)一注為“未知”類目，當預為“未知”類目時，直接交由人工處理。

3.4.2 分詞對準確率的影響

由于中文分詞的特殊性，使得分詞的分準率受詞表影響較大，如“上海圖書館”一詞，在沒有相應的主題詞表時會被切割為“上海/圖書館”，使得其在句中的意思是有所改變，影響訓練時的特征提取，進而影響預測的準確性。由于并無主題詞表，故對170萬分文獻中出現(xiàn)的關(guān)鍵詞做詞頻統(tǒng)計，為分詞提供主題詞表。經(jīng)不完全測試，在有無詞表的情況下，準確率相差約2%。endprint

3.4.3 驗證數(shù)據(jù)對結(jié)果的影響

由于驗證數(shù)據(jù)采用實際生產(chǎn)環(huán)境中的數(shù)據(jù)作為測試集，其數(shù)據(jù)集合并不覆蓋所有的分類項目，且存在數(shù)據(jù)不均衡問題，使得測試結(jié)果不具有統(tǒng)計學，但反映了其在實際生產(chǎn)環(huán)境下的使用情況，證明基于卷積神網(wǎng)絡的文獻自動分類在實際工作中的可行性。

4 展望

谷歌的最新研究成果表明，將計算機視覺和語言模型通過CNN與RNN網(wǎng)絡疊加進行合并訓練，所得到的系統(tǒng)可以自動生成一定長度的文字文本[19]等。這些研究成果非常適合應用于圖書館內(nèi)部業(yè)務的智能化上，如圖書館藏資源的自動分類、自動摘要、主題提取、文章聚類、圖片自動標引、圖像識別、業(yè)務預測和分析等。

本文在對深度學習的研究基礎(chǔ)上提出了基于深度學習的文獻自動分類模型，將文獻分類問題轉(zhuǎn)化為基于神經(jīng)網(wǎng)絡的自動學習和預測的問題。通過對《全國報刊索引》170萬條數(shù)據(jù)的模型訓練以及7000多篇待加工的文獻預測，證明此方法是可行的，且有較高的置信度，分詞、詞表、模型訓練完全依賴于歷史數(shù)據(jù)但本文僅細分至四級類目，隨著分類的逐步深入，題名與關(guān)鍵詞并不能很好的體現(xiàn)出文獻之間的差異。摘要是體現(xiàn)文獻細微差別的重要切入點，在接下來的研究中，將會研究如何從摘要中提文獻信息，以提升分類準確率和細分程度。

參考文獻：

[1] 成穎，史九林.自動分類研究現(xiàn)狀與展望[J].情報學報，1999，18（1）：20-26.

[2] 李湘東，阮濤，劉康.基于維基百科的多種類型文獻自動分類研究[J/OL].[2017-10-17].http：//kns.cnki.net/kcms/detail/11.2856.G2.20171017.1501.012.html.

[3] 張野，楊建林.基于KNN和SVM的中文文本自動分類研究[J].情報科學，2011，29（9）：1313-1317.

[4] Wei L，Wei B，Wang B，et al.Text Classification Using Support Vector Machine with Mixture of Kernel[J].Journal of Software Engineering and Applications，2012，5（12）：55-58.

[5] Hebb Donald.The Organization of Behavior a neuropsychological theory[M].New York：John Wiley，1949：100-136.

[6] Liu M Q.Discrete-time delayed standard neural.Network and its application[J].Sci China，2006，49（2）：137-154.

[7] 王昊，嚴明，蘇新寧.基于機器學習的中文書目自動分類研究[J].中國圖書館學報，2010，36（6）：28-39.

[8] 葉鵬.基于機器學習的中文期刊論文自動分類研究[D].南京：南京大學，2013.

[9] Hinton G E，Osindero S，Teh Y W.A fast learning algorithm for deep belief nets[J].Neural computation，2006，18（7）：1527-1554.

[10] Krizhevsky A，Sutskever I，Hinton G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc，2012：1097-1105.

[11] Evaluation of Deep Learning Toolkits[EB/OL].[2017-10-17].https：//github.com/zer0n/deepframeworks/blob/master/README.md.

[12] Ilya Sutskever，Oriol Vinyals，Quoc V.Le.Sequence to sequence learning with neural networks[C].Advances in Neural Information Processing Systems 2014：3104-3112.

[13] google developers blog[EB/OL].[2017-10-17].https：//developers.googleblog.com/2017/02/announcing-tensorflow-10.html.

[14] Auto Draw[EB/OL].[2017-10-17].https：//www.autodraw.com/.

[15] Alex Graves，Abdel-rahman Mohamed，Geoffrey Hinton. Speech recognition with deep recurrent neural networks[C].International Conference on Acoustics，Speech and Signal Processing，2013：6645-6649.

[16] Maron M E.On Relevance，Probabilistic Indexing and Information Retrieval[J].Journal of the Acm，1960，7（3）：216-244.endprint

[17] 劉佳賓，陳超，邵正榮，等.基于機器學習的科技文摘關(guān)鍵詞自動提取方法[J].計算機工程與應用，2007（14）：170-172.

[18] Yoon Kim.Convolutional Neural Networks for Sentence Classification[C].Empirical Methods in Natural Language Processing（EMNLP），2014：1746-1751.

[19] A Picture is Worth Thousand Coherent[EB/OL].[2017-10-17].https：//research.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html.

[20] Tomas Mikolov，Kai Chen，Greg Corrado，et al.Efficient Estimation of Word Representations in Vector Space[J].arXiv preprint，2013： arXiv：1301.3781.

[21] Tomas Mikolov，Ilya Sutskever，Kai Chen，et al.Distributed Representations of Words and Phrases and their Compositionality[C].Advances in Neural Information Processing Systems，2013：3111-3119.

[22] Yoav Goldberg，Omer Levy.word2vec Explained： deriving Mikolov et al.'s negative-sampling word-embedding method[J].arXiv preprint，2014：arXiv：1402.3722.

[23] Collobert R，Weston J.A unified architecture for natural language processing：deep neural networks with multitask learning[C].International Conference.DBLP，2008：160-167.

[24] Kevin P.Murphy，Mark A.Paskin.Linear Time Inference in Hierarchical HMMs[C].Proceedings of Neural Information Processing Systems，2001：833-840.

[25] Nal Kalchbrenner，Edward Grefenstette，Phil Blunsom.A convolutional neural network for modelling sentences[J].arXiv preprint.2014： arXiv：1404.2188.

[26] Ying Wen，Weinan Zhang，Rui Luo，et al.Learning text representation using recurrent convolutional neural network with highway layers[J].arXiv preprint，2016： arXiv：1606.06905.

[27] LeCun，Yann.LeNet-5，convolutional neural networks[EB/OL].[2017-10-17].http：//yann.lecun.com/exdb/lenet/.

[28] Paulina Hensman，David Masko.The impact of imbalanced training data for convolutional neural networks[EB/OL].[2017-10-17].https：//www.kth.se/social/files/588617ebf2765401cfcc478c/PHensmanDMasko_dkand15.pdf.

[29] Palodeto V，Terenzi H，Marques J L B.Training neural networks for protein secondary structure prediction： the effects of imbalanced data set[C].Intelligent Computing，International Conference on Emerging Intelligent Computing Technology and Applications.Springer-Verlag，2009：258-265.

[30] Chandonia J M，Karplus M.The importance of larger data sets for protein secondary structure prediction with neural networks.[J].Protein Science，2010，5（4）：768-774.

[31] Pulgar F J，Rivera A J，Charte F，et al.On the Impact of Imbalanced Data in？Convolutional Neural Networks Performance[C].International Conference on Hybrid Artificial Intelligence Systems.Springer，Cham，2017：220-232.

作者簡介：郭利敏，男，上海圖書館系統(tǒng)網(wǎng)絡部工程師。endprint