高國連
[摘 要] 本文主要研究基于自然語言處理技術(shù)和數(shù)據(jù)挖掘技術(shù),面向出版行業(yè),對海量、異構(gòu)的數(shù)字出版文本內(nèi)容進(jìn)行智能分析與挖掘,研究與實現(xiàn)命名實體識別與語義關(guān)系抽取、自動摘要提取、自動關(guān)鍵詞提取、自動分類、自動過濾、自動消重、話題檢測與追蹤、情感分析等關(guān)鍵技術(shù),為資源的編輯、加工、整理提供幫助,為知識標(biāo)引和素材推薦等提供技術(shù)支撐。
[關(guān)鍵詞] 出版;文本挖掘;異構(gòu)數(shù)據(jù)
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 21. 070
[中圖分類號] TP311.13 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1673 - 0194(2017)21- 0164- 02
1 背 景
數(shù)字出版已經(jīng)成為出版行業(yè)的一種趨勢,將逐漸取代傳統(tǒng)出版方式。數(shù)字出版所產(chǎn)生的大量數(shù)字內(nèi)容需要進(jìn)行智能管理和自動加工,而其中文本數(shù)字內(nèi)容數(shù)量最多,包括報紙、期刊、圖書等出版類型,對文本數(shù)字內(nèi)容的智能加工與挖掘技術(shù)是數(shù)字出版領(lǐng)域的關(guān)鍵基礎(chǔ)技術(shù),對數(shù)字出版多個子系統(tǒng)起到平臺支撐作用。例如,文本分類技術(shù)可以將數(shù)字內(nèi)容按照行業(yè)分類體系自動歸類,文檔自動摘要技術(shù)可以將數(shù)字內(nèi)容進(jìn)行提煉和標(biāo)引。這些技術(shù)能幫助出版行業(yè)單位對數(shù)字資源進(jìn)行明晰化、系統(tǒng)化、智能化的管理,自動發(fā)掘潛在的知識規(guī)律,替代人工勞動,提高了生產(chǎn)效率。
目前,文本挖掘技術(shù)已經(jīng)被廣泛應(yīng)用于互聯(lián)網(wǎng)搜索與服務(wù)行業(yè)。主要采用的技術(shù)包括網(wǎng)頁信息抽取技術(shù)、網(wǎng)頁聚類技術(shù)、日志挖掘技術(shù)等,其目的是通過對互聯(lián)網(wǎng)網(wǎng)頁、用戶日志等數(shù)據(jù)進(jìn)行分析,改善搜索效果和提高用戶體驗。然而,與互聯(lián)網(wǎng)搜索領(lǐng)域不同,數(shù)字出版領(lǐng)域的數(shù)字出版物形式多樣,包括期刊、報紙、書籍等等,不同類型的出版物具有不同的篇幅與結(jié)構(gòu)。傳統(tǒng)的文本挖掘技術(shù)已不能滿足對數(shù)字出版領(lǐng)域數(shù)字內(nèi)容的智能化處理與分析需求,因此亟需研發(fā)面向數(shù)字出版領(lǐng)域的文本挖掘技術(shù)。
2 大數(shù)據(jù)文本挖掘技術(shù)研究現(xiàn)狀
基于自然語言處理技術(shù)和數(shù)據(jù)挖掘技術(shù),面向數(shù)字出版領(lǐng)域的文本挖掘技術(shù),對異構(gòu)出版內(nèi)容資源內(nèi)包含的知識體系進(jìn)行抽取和挖掘,為資源的編輯、加工、整理提供幫助,為知識標(biāo)引和素材推薦等提供技術(shù)支撐。一方面,對已有文本挖掘技術(shù)(例如基于條件隨機(jī)場的序列標(biāo)注技術(shù)、基于支持向量機(jī)的分類技術(shù)等)進(jìn)行升級改造,以滿足數(shù)字出版行業(yè)的技術(shù)要求;另一方面,針對新的技術(shù)需求,研發(fā)文本挖掘創(chuàng)新技術(shù)(例如開放式實體關(guān)系抽取技術(shù)、基于圖學(xué)習(xí)模型的摘要和關(guān)鍵詞統(tǒng)一抽取技術(shù)、非規(guī)范文本的情感分析技術(shù)等)。
文本挖掘成果的處理對象主要針對新聞文本類型,無法處理數(shù)字出版行業(yè)所產(chǎn)生的異構(gòu)數(shù)字內(nèi)容,例如對科技文獻(xiàn)和書籍進(jìn)行自動摘要的難度要遠(yuǎn)大于對新聞文檔的自動摘要,因此這些已有的文本挖掘技術(shù)已經(jīng)打下了一個堅實的基礎(chǔ)。
3 異構(gòu)數(shù)據(jù)文本挖掘技術(shù)目標(biāo)
基于自然語言處理技術(shù)和數(shù)據(jù)挖掘技術(shù),面向出版行業(yè),對海量、異構(gòu)的數(shù)字出版文本內(nèi)容進(jìn)行智能分析與挖掘,研究與實現(xiàn)命名實體識別與語義關(guān)系抽取、自動摘要提取、自動關(guān)鍵詞提取、自動分類、自動過濾、自動消重、話題檢測與追蹤、情感分析等關(guān)鍵技術(shù),為資源的編輯、加工、整理提供幫助,為知識標(biāo)引和素材推薦等提供技術(shù)支撐。本課題研發(fā)的技術(shù)將作為數(shù)字出版行業(yè)的關(guān)鍵支撐技術(shù),為多個相關(guān)子系統(tǒng)提供服務(wù)。
面向新聞的命名實體識別技術(shù)、傳統(tǒng)的文檔摘要與關(guān)鍵詞抽取技術(shù)、面向簡單分類體系的文本分類技術(shù)、基于高維索引的文本相似搜索技術(shù)、基于規(guī)則的文本過濾技術(shù)、基于聚類的主題檢測技術(shù)、基于查詢的主題追蹤技術(shù)、新聞規(guī)范文本的情感分類技術(shù)。
4 異構(gòu)數(shù)據(jù)文本挖掘技術(shù)路線
異構(gòu)數(shù)據(jù)文本內(nèi)容文本挖掘技術(shù)劃分為三個層次:引擎層、服務(wù)層以及應(yīng)用與管理層。
4.1 引擎層
引擎層包括各項文本挖掘的基礎(chǔ)功能,實現(xiàn)文本挖掘的核心算法。
(1)命名實體識別,識別出文本中出現(xiàn)的專有名稱和有意義的數(shù)量短語并加以歸類。
(2)實體關(guān)系抽取,識別一個文檔集內(nèi)存在聯(lián)系的實體,并抽取適當(dāng)?shù)亩陶Z描述它們之間的關(guān)系。
(3)自動關(guān)鍵詞與摘要提取,為給定的一篇或多篇文檔自動提取若干反映文檔主要內(nèi)容的關(guān)鍵詞;在符合長度要求的限制下,抽取若干反映文檔主要內(nèi)容的若干句子組成摘要;以及針對用戶特定查詢的相關(guān)文檔集,生成描述這些文檔與用戶查詢相關(guān)的摘要。
(4)自動分類,依據(jù)文檔內(nèi)容,按照預(yù)先指定和訓(xùn)練的分類體系進(jìn)行自動分類。
(5)文本過濾,根據(jù)用戶設(shè)置的敏感規(guī)則對文檔進(jìn)行過濾,并特別針對互聯(lián)網(wǎng)中出現(xiàn)的各種隱藏的敏感內(nèi)容的手段加以識別。
(6)文本消重,提供海量文檔的快速相似判斷功能,為版權(quán)保護(hù)、學(xué)術(shù)不端行為檢測等系統(tǒng)提供支撐。
(7)話題檢測與追蹤,在沒有話題的先驗知識的情況下從信息流中實時自動檢測出各個話題及其相關(guān)的文檔;以及通過若干篇相關(guān)報道學(xué)習(xí)話題內(nèi)容并在信息流中跟蹤其后續(xù)相關(guān)報道。
(8)情感分析,以自然語言處理技術(shù)和文本挖掘技術(shù)為基礎(chǔ),重點研究對用戶評論文本的情感語義計算核心技術(shù),提供文本情感傾向分析、情感要素抽取功能。
4.2 服務(wù)層
服務(wù)層包括功能接口和數(shù)據(jù)接口及并發(fā)控制模塊。功能接口對引擎層提供的各項文本挖掘功能進(jìn)行封裝,與出版企業(yè)服務(wù)總線相連,為工程其他系統(tǒng)提供服務(wù),同時還開放配置接口以便管理工具和其他系統(tǒng)能夠根據(jù)需要調(diào)節(jié)文本挖掘系統(tǒng)參數(shù)。數(shù)據(jù)接口封裝數(shù)據(jù)庫、本地文件、網(wǎng)絡(luò)數(shù)據(jù)流相關(guān)輸入輸出操作,為文本挖掘模塊提供統(tǒng)一的數(shù)據(jù)處理接口。數(shù)據(jù)監(jiān)視器根據(jù)定時計劃任務(wù)掃描數(shù)據(jù)源,發(fā)現(xiàn)變化的數(shù)據(jù),主動將數(shù)據(jù)推送給相應(yīng)的文本挖掘模塊進(jìn)行處理。并發(fā)控制模塊在采用集群部署時負(fù)責(zé)分配挖掘任務(wù)并匯聚挖掘結(jié)果。
4.3 應(yīng)用與管理層
應(yīng)用系統(tǒng)根據(jù)應(yīng)用需求,通過出版系統(tǒng)總線服務(wù)調(diào)用文本挖掘系統(tǒng)的一個或幾個功能。例如,選題優(yōu)化系統(tǒng)可以調(diào)用主題檢測功能獲得熱點話題信息;出版輿情分析系統(tǒng)可以調(diào)用情感分析功能獲得出版輿論的情感傾向,調(diào)用文本過濾功能檢查有無針對敏感內(nèi)容的用戶評論等。
5 結(jié) 語
異構(gòu)數(shù)據(jù)文本挖掘技術(shù)利用基于規(guī)則的敏感信息識別技術(shù)和基于樣例文檔的話題追蹤技術(shù)分析文本信息流的話題,并利用話題檢測技術(shù)分析挖掘當(dāng)前的熱點話題,為出版選題、效果評估等決策提供科學(xué)的依據(jù),應(yīng)用前景非常廣闊。
主要參考文獻(xiàn)
[1]楊建武,陳曉鷗.XML文檔集的聚類研究[C]//全國數(shù)據(jù)庫學(xué)術(shù)會議,2001.
[2]李尚昊,朝樂門.文本挖掘在中文信息分析中的應(yīng)用研究述評[J].情報科學(xué),2016,34 (8):153-159.
[3]謝秋華.Web文本挖掘的相關(guān)技術(shù)問題探討[J].長春理工大學(xué)學(xué)報:自然科學(xué)版,2010(7):55-56.
[4]許高建.文本挖掘關(guān)鍵技術(shù)研究及實現(xiàn)[D].合肥:合肥工業(yè)大學(xué), 2007.endprint