劉艷民 張旺強(qiáng) 祝忠明 陳宏?yáng)|
摘 ? 要:文章構(gòu)建了基于深度學(xué)習(xí)的主題資源監(jiān)測(cè)采集模型,并利用深度學(xué)習(xí)詞向量工具word2vec對(duì)收集的語(yǔ)料進(jìn)行深度訓(xùn)練,對(duì)采集資源與主題模型進(jìn)行相似度匹配,通過(guò)設(shè)定合適閾值來(lái)實(shí)現(xiàn)自動(dòng)化監(jiān)測(cè)主題資源。實(shí)踐證明:基于深度學(xué)習(xí)的定主題監(jiān)測(cè)方法在海洋戰(zhàn)略研究所信息監(jiān)測(cè)系統(tǒng)的應(yīng)用過(guò)程中,在主題資源自動(dòng)監(jiān)測(cè)的準(zhǔn)確性上效果優(yōu)于傳統(tǒng)基于向量空間模型的監(jiān)測(cè)算法,能為專(zhuān)題知識(shí)庫(kù)和領(lǐng)域情報(bào)信息監(jiān)測(cè)系統(tǒng)的構(gòu)建打下堅(jiān)實(shí)的基礎(chǔ)。
關(guān)鍵詞:深度學(xué)習(xí);主題資源監(jiān)測(cè);word2vec;相似度計(jì)算
中圖分類(lèi)號(hào):G202 ? 文獻(xiàn)標(biāo)識(shí)碼:A ? DOI:10.11968/tsyqb.1003-6938.2019035
Research on the Realization of Theme Resource Monitoring and Collection Function Based on Deep Learning
Abstract Theme open knowledge resource acquisition is usually realized by intelligence personnel through fixed-source and fixed-point data acquisition. But in the age of big data, the number of open access information resources has increased dramatically. In order to improve the accuracy and recall rate of automatic monitoring and collection of theme-related resources,to reduce intelligence personnel workload, the latest achievements of deep learning technology is introduced in the field of artificial intelligence. A theme resource monitoring and collection model based on deep learning is proposed. The word vector tool word2vec was used to train the collected corpus in depth. Similarity matching is conducted between theme crawler collection resources and theme model. The practice proves that the thematic monitoring method based on deep learning proposed in this paper is applied to the information monitoring system of the institute of ocean strategy. The accuracy of subject resource automatic monitoring is better than that of traditional detection algorithms.
Key words deep learning; thematic resource monitoring; word2vec; similarity calculation
1 ? 引言
大數(shù)據(jù)時(shí)代背景下,各個(gè)領(lǐng)域內(nèi)的可開(kāi)放獲取信息資源量以指數(shù)形式增長(zhǎng),科研人員在構(gòu)建專(zhuān)題知識(shí)庫(kù)、領(lǐng)域情報(bào)信息監(jiān)測(cè)、輿情監(jiān)測(cè)系統(tǒng)時(shí),需要從海量可開(kāi)放獲取的網(wǎng)絡(luò)資源中得到專(zhuān)題所涉的最新發(fā)展動(dòng)態(tài),如有關(guān)智庫(kù)的權(quán)威機(jī)構(gòu)、政府部門(mén),國(guó)內(nèi)外大學(xué)院系頒發(fā)的最新政策、科研數(shù)據(jù)、研究報(bào)告、決策資訊等多種類(lèi)型的資源。這些數(shù)據(jù)時(shí)效性強(qiáng),可信度高,已成為學(xué)者和研究人員重視和關(guān)注的資源。因此,情報(bào)人員及時(shí)發(fā)現(xiàn)和跟蹤、分析利用這些開(kāi)放信息資源,讓科研人員掌握最新的科技情報(bào)信息,對(duì)于科學(xué)研究的開(kāi)展具有重要意義。
本文在現(xiàn)有網(wǎng)絡(luò)開(kāi)放信息監(jiān)測(cè)方法研究的基礎(chǔ)上,設(shè)計(jì)開(kāi)發(fā)了基于深度學(xué)習(xí)的網(wǎng)絡(luò)主題開(kāi)放資源自動(dòng)監(jiān)測(cè)和采集功能,隨后將本文方法應(yīng)用在海洋戰(zhàn)略研究所信息監(jiān)測(cè)平臺(tái)中,實(shí)現(xiàn)了對(duì)監(jiān)測(cè)主題相關(guān)情報(bào)信息的智能識(shí)別、監(jiān)測(cè)和采集發(fā)布。結(jié)果證明,相比傳統(tǒng)自動(dòng)監(jiān)測(cè)方法,本文提出的方法優(yōu)勢(shì)是無(wú)需手動(dòng)配置領(lǐng)域監(jiān)測(cè)本體和特征實(shí)體指標(biāo)權(quán)重值,主題模型構(gòu)建和相似度匹配由機(jī)器深度學(xué)習(xí)來(lái)實(shí)現(xiàn),提高了主題資源監(jiān)測(cè)采集的準(zhǔn)確率和召回率。
2 ? 研究進(jìn)展
2.1 ? ?主題資源的監(jiān)測(cè)采集研究進(jìn)展
國(guó)外最早由美國(guó)國(guó)家情報(bào)總局和美國(guó)國(guó)防部首先提出開(kāi)源情報(bào)(Open-source intelligence,OSINT)[1]的理念,主要通過(guò)利用公開(kāi)可以獲取的信息資源來(lái)實(shí)現(xiàn)情報(bào)分析,而不是隱蔽和秘密的信息資源。2005年,美國(guó)中央情報(bào)局(Central Intelligence Agency,CIA)成立了美國(guó)國(guó)家情報(bào)公開(kāi)資源中心(Open Source Center,OSC)[2],該中心主要收集、開(kāi)發(fā)和利用網(wǎng)絡(luò)開(kāi)源情報(bào)信息資源。在監(jiān)測(cè)技術(shù)和方法方面,Krishna BV等[3]提出基于主題模型的輿情監(jiān)測(cè)和情感分析方法,該方法能夠自動(dòng)從文本中挖掘態(tài)度、觀(guān)點(diǎn)和隱藏的情感;Liu MR等[4]從在線(xiàn)新聞中基于實(shí)體和新聞文檔的加權(quán)無(wú)向圖提取關(guān)鍵實(shí)體和重要事件,從而對(duì)新聞文本進(jìn)行聚類(lèi),產(chǎn)生每日重大事件。計(jì)算機(jī)科學(xué)領(lǐng)域的文本挖掘、主題追蹤等技術(shù)的發(fā)展為網(wǎng)絡(luò)信息自動(dòng)監(jiān)測(cè)提供了重要的參考價(jià)值。
國(guó)內(nèi)目前關(guān)于互聯(lián)網(wǎng)主題資源跟蹤和采集主要通過(guò)主題爬蟲(chóng)和文本挖掘、自然語(yǔ)言處理技術(shù)來(lái)實(shí)現(xiàn),中國(guó)醫(yī)學(xué)科學(xué)院錢(qián)慶[5]開(kāi)發(fā)了醫(yī)藥衛(wèi)生體制改革輿情監(jiān)測(cè)系統(tǒng),該系統(tǒng)的主題追蹤主要借助主題詞表來(lái)描述網(wǎng)絡(luò)動(dòng)態(tài)信息中的各種知識(shí)單元,通過(guò)對(duì)相關(guān)知識(shí)單元進(jìn)行自動(dòng)抽取和發(fā)布,采用向量空間模型的TF-IDF算法強(qiáng)調(diào)不同位置特征詞的權(quán)重,主題模型構(gòu)建過(guò)程從共現(xiàn)的角度改進(jìn)了KNN方法,形成了醫(yī)療衛(wèi)生體制改革的主題模型,實(shí)現(xiàn)了主題信息自動(dòng)獲取、自動(dòng)分類(lèi)的效果;中科院蘭州文獻(xiàn)情報(bào)中心的劉巍[6]通過(guò)將自然語(yǔ)言處理技術(shù)應(yīng)用到自動(dòng)監(jiān)測(cè)功能過(guò)程中,可實(shí)現(xiàn)對(duì)監(jiān)測(cè)資源的重要概念和實(shí)體的自動(dòng)抽取,且與用戶(hù)配置的語(yǔ)料庫(kù)進(jìn)行相似度匹配,實(shí)現(xiàn)自動(dòng)化檢測(cè)的目標(biāo)。張智雄[7-8]組織的團(tuán)隊(duì)一直致力于研究科技戰(zhàn)略情報(bào)監(jiān)測(cè)技術(shù)和系統(tǒng)工具開(kāi)發(fā),目前已搭建了自動(dòng)監(jiān)測(cè)平臺(tái),且提出了基于對(duì)象計(jì)算的戰(zhàn)略情報(bào)監(jiān)測(cè)分析方法,從五個(gè)維度來(lái)進(jìn)行情報(bào)價(jià)值的計(jì)算,這個(gè)過(guò)程需要對(duì)監(jiān)測(cè)本體和指標(biāo)權(quán)重體系進(jìn)行配置[9]。上述方法在一定程度上實(shí)現(xiàn)了定題監(jiān)測(cè)和采集功能,但在關(guān)鍵概念和實(shí)體抽取過(guò)程中,只支持部分機(jī)器學(xué)習(xí)功能,在相似度匹配部分,需要對(duì)領(lǐng)域本體語(yǔ)料和指標(biāo)權(quán)值進(jìn)行人工配置,降低了自動(dòng)監(jiān)測(cè)效率,沒(méi)用到目前人工智能領(lǐng)域最新成果深度學(xué)習(xí)技術(shù)來(lái)提高監(jiān)測(cè)采集的智能化,從而提高檢測(cè)效率和降低人工成本。
2.2 ? ?深度學(xué)習(xí)理論及應(yīng)用研究進(jìn)展
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的新領(lǐng)域,是一種無(wú)監(jiān)督特征學(xué)習(xí)和特征層次結(jié)構(gòu)的學(xué)習(xí)方法,實(shí)際上是一種多隱層的神經(jīng)網(wǎng)絡(luò)算法,其核心思想是模擬人腦進(jìn)行分析學(xué)習(xí)、決策機(jī)制來(lái)解決問(wèn)題。2006年,加拿大多倫多大學(xué)教授Geoffery Hinton[10]在《Science》上發(fā)表論文,首次提出深度學(xué)習(xí)的觀(guān)點(diǎn),其本質(zhì)思想是通過(guò)構(gòu)建多隱層的模型和海量的訓(xùn)練數(shù)據(jù),來(lái)學(xué)習(xí)更有用的特征,從而提升最終預(yù)測(cè)的準(zhǔn)確性。深度學(xué)習(xí)從大類(lèi)上可以歸入神經(jīng)網(wǎng)絡(luò),核心是通過(guò)分層網(wǎng)絡(luò)獲取分層次的特征信息,解決需人工設(shè)計(jì)特征的重要難題,它包含有多個(gè)重要算法,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、深信度網(wǎng)絡(luò)(Deep Belief Networks,DBN),多層反饋循環(huán)神經(jīng)網(wǎng)絡(luò)Recurrent neural Network,RNN)等。與傳統(tǒng)的機(jī)器學(xué)習(xí)算法不同,深度學(xué)習(xí)可以自動(dòng)進(jìn)行特征提取,而無(wú)需人工干預(yù),且可以提取為標(biāo)記、非結(jié)構(gòu)化數(shù)據(jù)中的潛在特征,如音視頻、圖像、文本等多媒體數(shù)據(jù)[11]。在具體的特征學(xué)習(xí)和訓(xùn)練上,深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)模型存在差異,深度學(xué)習(xí)采用自上而下的無(wú)監(jiān)督學(xué)習(xí),逐層構(gòu)建單層神經(jīng)元,采用wake-sleep算法進(jìn)行逐層調(diào)整優(yōu)化,收斂至局部誤差最小,自頂層往下誤差矯正信號(hào)越來(lái)越小[12]。
隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的自特征抽取的詞向量表示方法受到廣大研究者的關(guān)注。Mikolov等[15]通過(guò)借鑒Bengio等[13]提出的NNLM(Neural Network Language Model)模型以及Hinton[14]的Log Linear模型,提出了word2vec語(yǔ)言模型,Google公司在2013年開(kāi)放了word2vec這一款用于訓(xùn)練詞向量的開(kāi)源軟件工具,標(biāo)志著深度學(xué)習(xí)從理論走向了實(shí)踐。word2vec模型可以根據(jù)給定的語(yǔ)料庫(kù),通過(guò)優(yōu)化后的訓(xùn)練模型快速有效的將一個(gè)詞語(yǔ)表達(dá)成實(shí)數(shù)值的向量形式[16]。word2vec包含了兩種訓(xùn)練模型,分別是CBOW(Continuous Bag-Of-Words)模型和Skip-Gram模型(見(jiàn)圖1)。
從模型圖可以看出,CBOW和Skip-gram模型均包含輸入層、投影層和輸出層。其中,CBOW模型通過(guò)上下文來(lái)預(yù)測(cè)當(dāng)前詞的詞向量,即將當(dāng)前詞上下文對(duì)應(yīng)的連續(xù)詞語(yǔ)表示成詞袋的形式,將訓(xùn)練的目標(biāo)向量選為上下文詞向量的求和。而Skip-gram模型生成詞向量的方式恰好與CBOW模型相反,它僅通過(guò)當(dāng)前詞來(lái)預(yù)測(cè)其上下文。word2vec模型在給定的語(yǔ)料庫(kù)上訓(xùn)練CBOW和Skip-gram兩種模型,然后輸出得到所有出現(xiàn)在語(yǔ)料庫(kù)上的單詞的詞向量表示?;诘玫降膯卧~的詞向量,可以計(jì)算詞與詞之間的關(guān)系,如詞語(yǔ)相似性,語(yǔ)義關(guān)聯(lián)性等。目前word2vec模型已應(yīng)用于情報(bào)學(xué)領(lǐng)域,如輿情演化分析[17]、恐怖組織挖掘[11]、期刊選題相似性計(jì)算[12]等。針對(duì)word2vec在文本挖掘領(lǐng)域的良好應(yīng)用效果,本文提出基于深度學(xué)習(xí)的主題資源監(jiān)測(cè)采集模型。
3 ? 基于深度學(xué)習(xí)的主題資源監(jiān)測(cè)采集模型構(gòu)建
本文構(gòu)建的基于深度學(xué)習(xí)的主題資源監(jiān)測(cè)采集模型主要包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理(分詞、去停用詞、詞性標(biāo)注)、特征提取、深度學(xué)習(xí)(相似度匹配)、采集發(fā)布等步驟(見(jiàn)圖2)。傳統(tǒng)監(jiān)測(cè)采集模型相似度匹配使用抽取出的關(guān)鍵概念和實(shí)體對(duì)象與用戶(hù)參數(shù)配置設(shè)定的關(guān)鍵詞進(jìn)行匹配,需要非常專(zhuān)業(yè)的詞表及實(shí)體規(guī)范庫(kù)來(lái)對(duì)主題進(jìn)行統(tǒng)一表述,降低監(jiān)測(cè)采集的智能化,人工成本較高。向量空間模型要求關(guān)鍵詞必須精確匹配,對(duì)語(yǔ)義相近的關(guān)鍵詞,效果較差。本研究基于word2vec的文本相關(guān)度比較模型對(duì)語(yǔ)料進(jìn)行訓(xùn)練,關(guān)鍵詞之間進(jìn)行相關(guān)度比較,即使兩個(gè)關(guān)鍵詞集合完全沒(méi)有交集,也可以給出合理的比較結(jié)果。主題資源監(jiān)測(cè)采集模型遵循數(shù)據(jù)生命周期管理理論,通過(guò)構(gòu)建合理的數(shù)據(jù)管理組織架構(gòu)體系,確保采集數(shù)據(jù)準(zhǔn)確性及質(zhì)量,提高數(shù)據(jù)有效性、一致性和規(guī)范性,實(shí)現(xiàn)數(shù)據(jù)從產(chǎn)生到銷(xiāo)毀的全過(guò)程規(guī)范化管理,充分發(fā)揮采集數(shù)據(jù)價(jià)值,提升采集過(guò)程的自動(dòng)化程度,促進(jìn)各應(yīng)用系統(tǒng)信息高度共享,為科研決策提供科學(xué)依據(jù)。
3.1 ? ?數(shù)據(jù)采集
數(shù)據(jù)采集的基礎(chǔ)信息來(lái)源是專(zhuān)業(yè)人員根據(jù)經(jīng)驗(yàn)制定的情報(bào)機(jī)構(gòu),包括智庫(kù)、權(quán)威機(jī)構(gòu)組織、國(guó)外大學(xué)院系、政府部門(mén)等網(wǎng)站內(nèi)容。本研究截取了海洋戰(zhàn)略研究所指定采集的起始網(wǎng)站列表(見(jiàn)表1)。由表可知,主題爬蟲(chóng)采用的網(wǎng)頁(yè)搜索策略為基于內(nèi)容評(píng)價(jià)的搜索策略,利用文本相關(guān)度比較算法進(jìn)行比較,分析網(wǎng)頁(yè)內(nèi)容和主題的相關(guān)度來(lái)進(jìn)行爬取。爬取到與主題相關(guān)網(wǎng)頁(yè)提取情報(bào)來(lái)源的名稱(chēng)、網(wǎng)址、正文等基礎(chǔ)信息,作為主題監(jiān)測(cè)的語(yǔ)料集。
3.2 ? ?數(shù)據(jù)預(yù)處理
采集信息后對(duì)語(yǔ)料進(jìn)行預(yù)處理過(guò)程主要包括網(wǎng)頁(yè)凈化、去停用詞、中文分詞、詞性標(biāo)注等操作。本研究選擇自然語(yǔ)言處理工具對(duì)采集文本進(jìn)行預(yù)處理。由于中英文文本差異,預(yù)處理步驟有所不同,英文文本挖掘預(yù)處理不需做分詞,中文文本需進(jìn)行中文分詞。通過(guò)定義的中文和英文停用詞表進(jìn)行匹配來(lái)對(duì)正文信息進(jìn)行過(guò)濾停用詞的預(yù)處理。從正文中抽取反映文本主題的實(shí)詞,需對(duì)文本進(jìn)行詞性標(biāo)注。英文文本預(yù)處理需做拼寫(xiě)檢查更正及大寫(xiě)轉(zhuǎn)換小寫(xiě)操作,其預(yù)處理獨(dú)有的步驟是詞干提取和詞形還原。
3.3 ? ?特征提取
經(jīng)過(guò)預(yù)處理后的實(shí)體概念集合,需要將信息中的重要特征提取出來(lái),文檔的內(nèi)容特征利用基本語(yǔ)言單位如字、詞或短語(yǔ)來(lái)表示,這些基本語(yǔ)言單位被稱(chēng)為文檔的特征項(xiàng),特征項(xiàng)的權(quán)值反映的是一個(gè)特征項(xiàng)在文檔集合中的貢獻(xiàn)程度。本文利用經(jīng)典的TF-IDF方法來(lái)提取特征項(xiàng),并在計(jì)算特征項(xiàng)的權(quán)重時(shí)將特征項(xiàng)的位置信息考慮進(jìn)來(lái),不同位置的特征項(xiàng)對(duì)主題的貢獻(xiàn)有差異,對(duì)出現(xiàn)在文本標(biāo)題、首句、段首、段尾和正文五個(gè)不同位置的特征項(xiàng)賦予不同的權(quán)重。綜合利用詞頻以及位置權(quán)重計(jì)算出每個(gè)概念在文本中的重要度。根據(jù)閾值去除滿(mǎn)足條件的概念既為文本的特征項(xiàng),也既關(guān)鍵概念集合,同時(shí)根據(jù)關(guān)鍵特征項(xiàng)集合中的重要度進(jìn)行排序,可實(shí)現(xiàn)抽取指定數(shù)量的關(guān)鍵概念。抽取出的特征項(xiàng)集合將會(huì)用于與主題模型進(jìn)行相似度匹配,從而判斷是否是用戶(hù)關(guān)注的主題,如果相似,則將抽取的信息加入語(yǔ)料庫(kù),且將采集的數(shù)據(jù)進(jìn)行發(fā)布顯示。
3.4 ? ?主題建模
主題模型(Topic model)是針對(duì)文本隱含主題的建模方法,其中主題是指一個(gè)概念或一個(gè)方面,在文檔集中表現(xiàn)為一系列相關(guān)的詞語(yǔ)。如果用數(shù)學(xué)語(yǔ)言來(lái)描述的話(huà),主題就是詞匯表上詞語(yǔ)的條件概率分布,與主題關(guān)系越密切的詞語(yǔ),它的條件概率越大,反之則越小,文檔集中的每篇文檔可以包含多個(gè)主題,文檔中每一個(gè)詞都由其中的一個(gè)主題生成。LDA主題模型是由Blei等[18]提出的一個(gè)“文本-主題-詞”的三層貝葉斯概率模型,該模型也是一種非監(jiān)督的機(jī)器學(xué)習(xí)算法,可以用來(lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中潛在的主題,它采用了詞袋模型方法[19]。主題資源監(jiān)測(cè)的核心內(nèi)容是采集情報(bào)信息與主題進(jìn)行相似度計(jì)算(計(jì)算流程見(jiàn)圖3)。根據(jù)海洋戰(zhàn)略研究?jī)?nèi)容,主題設(shè)置為五個(gè)方面,分別為海洋戰(zhàn)略與規(guī)劃、海洋經(jīng)濟(jì)與科技、海洋環(huán)境與資源、海洋政策與管理、海洋法律與權(quán)益。每個(gè)主題分別選擇一定數(shù)量的語(yǔ)料進(jìn)行訓(xùn)練,形成主題模型。在采集新聞過(guò)程中,將每篇新聞文本與生成的主題模型進(jìn)行相似度判斷,從而確定每篇新聞文檔的主題類(lèi)別。通過(guò)主題建模和深度學(xué)習(xí),計(jì)算采集文本與主題語(yǔ)義相似度,在一定閾值范圍內(nèi)進(jìn)行主題資源采集及分類(lèi)。
采集文本與主題相似度計(jì)算[20]流程包括:
Step1:每個(gè)主題收集一定數(shù)量語(yǔ)料首先進(jìn)行預(yù)處理,包括去停用詞、分詞、詞性標(biāo)注等操作。利用TF-IDF方法提取文本特征項(xiàng)。
Step2:經(jīng)過(guò)Step1預(yù)處理后的主題文檔集合建立文檔-詞項(xiàng)矩陣,基于LDA主題模型,訓(xùn)練主題語(yǔ)料,確定每個(gè)主題中前N個(gè)主題詞及概率分布。
Step3:采集新聞進(jìn)行預(yù)處理、文本特征項(xiàng)提取。
Step4:主題語(yǔ)料與采集新聞利用word2vec進(jìn)行訓(xùn)練和深度學(xué)習(xí)。
Step5:將主題映射到word2vec空間中,選取主題ti的前h個(gè)詞作為主題詞,對(duì)主題詞做歸一化處理,即計(jì)算每個(gè)詞w占主題的權(quán)重ωi ,在公式(1)中: θi為詞w在主題ti中的表示。在主題ti映射到word2vec空間上的向量v(ti)計(jì)算公式(2)中,即詞w在word2vec空間的坐標(biāo)*w占主題ti的權(quán)重。
ωi= ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
v(ti)=[∑][h][n=1]ωinv(win) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)
Step6:將Step3得到的新聞文本映射到word2vec空間。計(jì)算方式為每個(gè)詞在word2vec空間下的坐標(biāo)相加,再除以總詞數(shù)。文檔向量v(di)計(jì)算公式(3)中,c代表的是文檔的總詞數(shù)。
v(di)= ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)
Step7:采集新聞文檔與主題的相似度計(jì)算采用歐式距離來(lái)度量:
dis tan ce(v(di),v(ti))=|v(di)-v(ti)| ? ? ? ? ? ? (4)
Step8:通過(guò)計(jì)算測(cè)試文本與主題文本向量的歐式距離,設(shè)置合適閾值來(lái)確定文本是否為主題相關(guān)資源。
3.5 ? ?采集發(fā)布
采集文本與主題進(jìn)行相似度計(jì)算后,跟主題相關(guān)資源的網(wǎng)址信息進(jìn)行本地?cái)?shù)據(jù)庫(kù)存儲(chǔ),正文提取算法有最大文本塊和文本密度算法,可以抽取網(wǎng)頁(yè)中的文本標(biāo)題、作者、發(fā)布時(shí)間、封面圖片、及文章正文等內(nèi)容,發(fā)布內(nèi)容按照?qǐng)D片、論文、資訊內(nèi)容分欄目展示,發(fā)布后的網(wǎng)絡(luò)資源用戶(hù)可進(jìn)行評(píng)價(jià)。
4 ? 實(shí)驗(yàn)測(cè)試結(jié)果
本文在基于深度學(xué)習(xí)的基礎(chǔ)上,搭建了基于深度學(xué)習(xí)的海洋發(fā)展戰(zhàn)略研究所信息監(jiān)測(cè)系統(tǒng)(見(jiàn)圖4)。并對(duì)其監(jiān)測(cè)系統(tǒng)的框架進(jìn)行設(shè)計(jì)(見(jiàn)圖5),在這一框架中采集專(zhuān)題管理功能為每個(gè)第三方系統(tǒng)創(chuàng)建對(duì)應(yīng)的專(zhuān)題,支持設(shè)置第三方系統(tǒng)網(wǎng)站名稱(chēng)、可訪(fǎng)問(wèn)IP、專(zhuān)題管理員等。采集任務(wù)管理功能支持從外部系統(tǒng)監(jiān)測(cè)源以API的方式讀取采集源列表,且支持同第三方系統(tǒng)自動(dòng)同步資源列表。分布式采集子系統(tǒng)功能已實(shí)現(xiàn)集成Crawler4J爬蟲(chóng)系統(tǒng),可實(shí)現(xiàn)分布式多任務(wù)自動(dòng)調(diào)度。主題建模與相關(guān)度計(jì)算模塊主要使用LDA構(gòu)建主題模型,主題模型構(gòu)建過(guò)程中對(duì)主題語(yǔ)料庫(kù)擴(kuò)展期刊論文、會(huì)議論文關(guān)鍵詞、摘要等內(nèi)容,來(lái)提高主題模型精確度。通過(guò)word2vec對(duì)樣本網(wǎng)頁(yè)數(shù)據(jù)建模生成詞向量模型,結(jié)合LDA構(gòu)建的主題模型進(jìn)行相似度計(jì)算。Web管理系統(tǒng)功能主要實(shí)現(xiàn)對(duì)采集到的資訊、圖片、論文進(jìn)行管理、發(fā)布。
本試驗(yàn)LDA主題模型使用的Gibbs抽樣,設(shè)置迭代次數(shù)為1000次,超參數(shù)取固定的經(jīng)驗(yàn)值。用word2vec訓(xùn)練文檔集時(shí),各參數(shù)設(shè)置情況為size=100, window=5,min-count=1,cbow=1。其中size代表詞向量的維數(shù),window代表上下文窗口大小,min-count代表詞語(yǔ)出現(xiàn)的最小閾值,cbow代表是否使用模型CBOW,0為使用,1為不使用。本實(shí)驗(yàn)使用Skip-gram模型。LDA和word2vec都是用Gensim實(shí)現(xiàn)的,Gensim是用于構(gòu)建主題模型的免費(fèi)Python包。對(duì)五個(gè)主題收集英文語(yǔ)料進(jìn)行LDA主題建模,得到五個(gè)主題的top10特征詞及占主題權(quán)重(見(jiàn)表2)。
可以看出,對(duì)主題爬蟲(chóng)收集的英文主題語(yǔ)料經(jīng)過(guò)LDA主題模型訓(xùn)練后,得到的top10主題特征詞能夠較好描述主題特征,海洋戰(zhàn)略與規(guī)劃得到的特征詞組合后可形成“marine planning(海洋規(guī)劃)”“marine spatial planning”“sea power(海權(quán))”或者“marine power”等關(guān)鍵詞。海洋法律與權(quán)益得到的特征詞可組合為“marine biodiversity(海洋生物多樣性)”“marine diversity(海洋多樣性)”“marine security(海洋安全)”,而其他特征詞“dispute(沖突)”“right(權(quán)利)”等與海洋立法及涉海案件息息相關(guān)。海洋經(jīng)濟(jì)與科技主題得到的特征詞主要有“marine industry(海洋工業(yè))”“marine economy(海洋經(jīng)濟(jì))”,代表了主題的主要研究方向,尤其是印度、日本、菲律賓及印度尼西亞的海洋科學(xué)技術(shù)。海洋政策與管理主題在英文語(yǔ)料提取的特征詞主要為“ocean policy”“marine policy(海洋政策)”及跟海洋管理有關(guān)的“ocean management”“marine management”以及 “coastal zone(沿海地帶)”的管理政策。海洋環(huán)境與資源提取的特征詞跟“marine protected area(海洋保護(hù)區(qū))”匹配、其他關(guān)鍵詞“ecosystem(生態(tài)系統(tǒng))”“conservation(保護(hù))”“environmental(環(huán)境)”“climate(氣候)”都跟環(huán)境相關(guān)。這充分表明LDA主題模型在主題建模方面的優(yōu)勢(shì),主題爬蟲(chóng)語(yǔ)料經(jīng)LDA訓(xùn)練可很好描述主題信息,為后面相似度匹配及文本分類(lèi)做鋪墊。
為驗(yàn)證基于深度學(xué)習(xí)的主題相關(guān)資源采集策略在信息監(jiān)測(cè)系統(tǒng)中的應(yīng)用效果。本文選擇2017年12月至2018年10月監(jiān)測(cè)系統(tǒng)通過(guò)主題爬蟲(chóng)從各開(kāi)放知識(shí)資源獲取網(wǎng)站采集的約3萬(wàn)條數(shù)據(jù),篩選出4865條與海洋研究相關(guān)的新聞,對(duì)4865條數(shù)據(jù)進(jìn)行人工標(biāo)識(shí)之后,將訓(xùn)練集和測(cè)試集比例按照8:2進(jìn)行劃分,80%用于訓(xùn)練集,20%用于測(cè)試集。為準(zhǔn)確評(píng)價(jià)主題相似度匹配的效果,本文選取的評(píng)價(jià)指標(biāo)為準(zhǔn)確率P、召回率R及F1-measure,F(xiàn)1-measure值為準(zhǔn)確率和召回率的調(diào)和平均值。將機(jī)器檢測(cè)結(jié)果與人工標(biāo)記結(jié)果進(jìn)行比對(duì)。傳統(tǒng)計(jì)算文本相似度方法為基于向量空間模型的TF-IDF算法,該方法以詞在文檔中出現(xiàn)頻率以及在文檔集中出現(xiàn)該詞的概率來(lái)表征詞的權(quán)重。本文通過(guò)基于向量空間模型的TF-IDF算法與LDA和word2vec結(jié)合的算法進(jìn)行了對(duì)比試驗(yàn),對(duì)比實(shí)驗(yàn)用同樣的文檔集作為語(yǔ)料庫(kù),首先對(duì)語(yǔ)料庫(kù)進(jìn)行預(yù)處理,再利用TF-IDF算法把主題文檔和測(cè)試文檔表示成關(guān)于詞項(xiàng)的向量,然后計(jì)算測(cè)試文檔與主題文檔的余弦相似度,根據(jù)相似度結(jié)果值設(shè)定合適閾值來(lái)作為監(jiān)測(cè)結(jié)果,TF-IDF算法測(cè)試結(jié)果給出F1- measure值(監(jiān)測(cè)結(jié)果見(jiàn)表3)。
由檢測(cè)結(jié)果可看出,當(dāng)測(cè)試總樣本數(shù)為973,引入深度學(xué)習(xí)技術(shù)后運(yùn)用LDA進(jìn)行主題建模,利用word2vec進(jìn)行文本主題相似度計(jì)算,實(shí)驗(yàn)結(jié)果表明,五個(gè)主題監(jiān)測(cè)文本的準(zhǔn)確率都達(dá)到85%以上,文本平均識(shí)別率達(dá)到91.07%。而基于向量空間模型的TF-IDF算法監(jiān)測(cè)結(jié)果的F1值明顯低于本文提出的算法,這說(shuō)明TF-IDF算法的缺點(diǎn)是僅通過(guò)TF(詞頻)和IDF(逆文檔頻率)來(lái)計(jì)算,不能有效判斷文檔中詞項(xiàng)本身的語(yǔ)義信息,具有一定局限性。
5 ? 結(jié)語(yǔ)
本文提出的基于深度學(xué)習(xí)的主題資源監(jiān)測(cè)采集策略,通過(guò)應(yīng)用在海洋戰(zhàn)略研究所信息監(jiān)測(cè)系統(tǒng)中,可以實(shí)現(xiàn)對(duì)大量多源異構(gòu)情報(bào)信息進(jìn)行自動(dòng)化監(jiān)測(cè)和采集,且通過(guò)LDA主題模型對(duì)主題進(jìn)行建模,能夠很好描述主題信息,結(jié)合深度學(xué)習(xí)的相似度匹配算法能夠進(jìn)行智能主題分類(lèi),有效降低情報(bào)人員的工作量,提高了主題資源監(jiān)測(cè)的準(zhǔn)確率與召回率,其監(jiān)測(cè)效果優(yōu)于傳統(tǒng)基于向量空間模型的監(jiān)測(cè)算法。
本研究也存在問(wèn)題和不足,如訓(xùn)練樣本需要花費(fèi)大量時(shí)間,通過(guò)樣本數(shù)據(jù)建立的主題模型詞向量有限。為了讓主題模型的準(zhǔn)確度不斷提高,需要從來(lái)源數(shù)據(jù)中不斷提取新的詞向量對(duì)主題模型進(jìn)行優(yōu)化、完善,實(shí)現(xiàn)主題模型語(yǔ)義關(guān)系的自動(dòng)擴(kuò)充,從而進(jìn)一步提高主題信息監(jiān)測(cè)系統(tǒng)自動(dòng)獲取、自動(dòng)分類(lèi)效率,以便為科研人員提供更優(yōu)服務(wù)。
參考文獻(xiàn):
[1] ?Open-source intelligence[EB/OL].[2019-03-12].https://en.wikipedia.org/wiki/Open-source_intelligence.
[2] ?Open Source Center[EB/OL].[2019-03-12].https://en.wikipedia.org/wiki/Open_Source_Center.
[3] ?Krishna BV,Pandey AK,Kumar APS.Topic Model Based Opinion Mining and Sentiment Analysis[C].8th International Conference on Computer Communication and Informatics,Coimbatore,2018.
[4] ?Liu M,Liu Y,Xiang L,et al.Extracting key entities and significant events from online daily news[C].Intelligent Data Engineering and Automated Learning-IDEAL 2008,2008(5326):201-209.
[5] ?錢(qián)慶,安新穎,代濤.主題追蹤在醫(yī)藥衛(wèi)生體制改革輿情監(jiān)測(cè)系統(tǒng)中的應(yīng)用[J].圖書(shū)情報(bào)工作,2011,55(16):46-49.
[6] ?劉巍,王思麗,祝忠明,等.基于自然語(yǔ)言處理技術(shù)的定題監(jiān)測(cè)功能實(shí)現(xiàn)研究[J].圖書(shū)與情報(bào),2018(3):135-140.
[7] ?張智雄,張曉林,劉建華,等.網(wǎng)絡(luò)科技信息結(jié)構(gòu)化監(jiān)測(cè)的思路和技術(shù)方法實(shí)現(xiàn)[J].中國(guó)圖書(shū)館學(xué)報(bào),2014,40(4):4-15.
[8] ?張智雄,劉建華,謝靖,等.科技戰(zhàn)略情報(bào)監(jiān)測(cè)服務(wù)云平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2014(6):51-61.
[9] ?鄒益民,張智雄,劉建華.基于對(duì)象行為的情報(bào)關(guān)注模型研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2013,39(5):50-59.
[10] ?Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[11] ?郭璇,吳文輝,肖治庭,等.基于深度學(xué)習(xí)和公開(kāi)來(lái)源信息的反恐情報(bào)挖掘[J].情報(bào)理論與實(shí)踐,2017,40(9):135-139.
[12] ?逯萬(wàn)輝.基于深度學(xué)習(xí)的學(xué)術(shù)期刊選題同質(zhì)化測(cè)度方法研究[J].情報(bào)資料工作,2017(5):105-112.
[13] ?BENGIO Y,SCHWENK H,SEHECAO J S,et al.A neural probabilistic language model[J].Journal of Machine Learning Research,2003,3(6):1137-1155.
[14] ?Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.
[15] ?Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013(26):3111-3119.
[16] ?Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].Computer Science,2013(2):1-12.
[17] ?安璐,吳林.融合主題與情感特征的突發(fā)事件微博輿情演化分析[J].圖書(shū)情報(bào)工作,2017,61(15):120-129.
[18] ?Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation[J].Machine Learning Research Archive,2003(3):993-1022.
[19] ?Ling W,Luís T,Marujo L,et al.Finding function in form:Compositional character models for open vocabulary word representation[C].Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.Lisbon,Portugal,2015,1520-1530.
[20] ?Wang ZB,Ma L,Zhang YQ.A Hybrid Document Feature Extraction Method Using Latent Dirichlet Allocation and Word2vec[C].First International Conference on Data Science in Cyberspace(DSC),Changsha,China,2016:98-103.