李艾丹,薛中玉,李春梅
(1.北京理工大學(xué),北京 100081;2.北京中機(jī)科??萍及l(fā)展有限公司,北京 100048)
異構(gòu)信息知識(shí)挖掘與可視化分析系統(tǒng)架構(gòu)模型解析
李艾丹1,薛中玉2,李春梅2
(1.北京理工大學(xué),北京 100081;2.北京中機(jī)科??萍及l(fā)展有限公司,北京 100048)
本文介紹了異構(gòu)信息知識(shí)挖掘與可視化分析系統(tǒng)背景,異構(gòu)信息、異構(gòu)信息知識(shí)挖掘、信息可視化的基本概念,構(gòu)建了異構(gòu)信息知識(shí)挖掘與可視化系統(tǒng)架構(gòu)模型,描述了系統(tǒng)的總體思路和體系架構(gòu)的主要模塊,為相關(guān)研究奠定基礎(chǔ),提供有價(jià)值的參考。
異構(gòu)信息;知識(shí)挖掘;可視化;系統(tǒng)架構(gòu)
Abstract:This essay introduces the background of heterogeneous information knowledge mining and visualization system,introduces basic concepts of the heterogeneous information,information knowledge mining and information visualization,then the essay describes with emphasis the general idea and system architecture model.The essay also lays a foundation and provides valuable reference for the relevant research.
Key words:Heterogeneous information;Knowledge mining;Visualization;System architecture
隨著計(jì)算機(jī)與信息技術(shù)的高速發(fā)展,人們?cè)诠ぷ?、學(xué)習(xí)、生活等諸多方面越來越依賴于互聯(lián)網(wǎng)。當(dāng)人們需要查詢信息的時(shí)候,大多選擇通過Google、百度等搜索引擎鍵入關(guān)鍵詞的方式在互聯(lián)網(wǎng)中進(jìn)行搜索,從而改變了以往通過書籍、報(bào)刊、雜志等書面查閱資料的方式。但這些檢索結(jié)果往往是海量的與關(guān)鍵詞相匹配的信息,用戶通常很難從中精確找出自己需要的信息。本文介紹了一種可以智能通過鍵入關(guān)鍵詞進(jìn)行擴(kuò)展檢索的方法,以有效地提高獲取信息精確性的問題。
異構(gòu)信息知識(shí)挖掘與可視化分析系統(tǒng)融合專家系統(tǒng)和搜索引擎的檢索方法,基于關(guān)鍵詞所在的專業(yè)領(lǐng)域,以互聯(lián)網(wǎng)作為專家系統(tǒng)的知識(shí)源,屏蔽成千上萬個(gè)專業(yè)領(lǐng)域網(wǎng)站的異構(gòu)問題,挖掘網(wǎng)站的深層知識(shí),建立智能語義索引。在此基礎(chǔ)上,接收用戶提出的問題尋找可能的答案,并對(duì)相關(guān)問題進(jìn)行自動(dòng)分類,同時(shí)列出各相關(guān)問題的解決方法,最后以更直觀的二維視圖、三維圖像,顯示關(guān)系更明了、層次更清晰、內(nèi)容更相關(guān)的信息,便于用戶快速、準(zhǔn)確、直觀地獲取所需知識(shí)。
(1)異構(gòu)信息。
異構(gòu)信息通常指數(shù)據(jù)庫的異構(gòu),主要體現(xiàn)在:①計(jì)算機(jī)體系結(jié)構(gòu)的異構(gòu):各個(gè)參與的數(shù)據(jù)庫可以分別運(yùn)行在大型機(jī)、小型機(jī)、工作站、PC或嵌入式系統(tǒng)中。②基礎(chǔ)操作系統(tǒng)的異構(gòu):各個(gè)數(shù)據(jù)庫系統(tǒng)的基礎(chǔ)操作系統(tǒng)不同,如:Unix、Windows、Linux等。③DBMS本身的異構(gòu):可以是同為關(guān)系型數(shù)據(jù)庫系統(tǒng)的Oracle、SQL Server等,也可以是不同數(shù)據(jù)模型的數(shù)據(jù)庫,如關(guān)系、模式、面向?qū)ο?,函?shù)型數(shù)據(jù)庫共同組成一個(gè)異構(gòu)數(shù)據(jù)庫系統(tǒng)。[1]
(2)異構(gòu)信息知識(shí)挖掘。
知識(shí)挖掘始于20世紀(jì)80年代,當(dāng)時(shí)出現(xiàn)了數(shù)據(jù)挖掘概念,源自人工智能的機(jī)器學(xué)習(xí),是在已知狀態(tài)數(shù)據(jù)集上,通過設(shè)定一定的學(xué)習(xí)算法,從數(shù)據(jù)中獲取所需的知識(shí)。數(shù)據(jù)挖掘廣泛應(yīng)用于數(shù)據(jù)倉庫和分布式數(shù)據(jù)庫,根據(jù)數(shù)據(jù)間相互關(guān)系進(jìn)行數(shù)據(jù)分析,提取潛在有用的信息和知識(shí),經(jīng)挖掘后被發(fā)現(xiàn)的知識(shí)可用于信息管理、決策支持、過程控制等。[2]
異構(gòu)信息知識(shí)挖掘是指利用數(shù)據(jù)挖掘技術(shù),自動(dòng)地從由異構(gòu)數(shù)據(jù)組成的網(wǎng)絡(luò)信息中發(fā)現(xiàn)和抽取知識(shí),通過對(duì)概念及相關(guān)因素的延伸和比較,找出用戶需要的深層次知識(shí)的過程。
圖1 異構(gòu)信息知識(shí)挖掘與可視化研究技術(shù)路線
(3)信息可視化。
信息可視化是將數(shù)據(jù)信息資源轉(zhuǎn)化為一種視覺形式,結(jié)合了科學(xué)可視化、人機(jī)交互、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、圖像技術(shù)、圖形學(xué)和認(rèn)知科學(xué)等諸多學(xué)科的理論和方法,將人腦和計(jì)算機(jī)強(qiáng)大的信息處理系統(tǒng)聯(lián)系在一起,有效的可視化界面使得人們能夠觀察、研究、探索、過濾、發(fā)現(xiàn)和理解大規(guī)模信息,并與之進(jìn)行方便的交互,從而可以極其有效地發(fā)現(xiàn)隱藏在信息內(nèi)部的特征和規(guī)律。
信息可視化技術(shù)可以歸為兩個(gè)大類:展示信息特征和數(shù)據(jù)值的可視化技術(shù),展示信息集合和關(guān)系的技術(shù)。包括信息的屬性、信息單元間的結(jié)構(gòu)和隱藏在信息之間的關(guān)系。異構(gòu)信息可視化以語義智能分析處理為支撐,將數(shù)據(jù)信息間存在的語義關(guān)系轉(zhuǎn)化為一種視覺形式,利用了人們對(duì)可視模式快速識(shí)別的自然能力,對(duì)實(shí)現(xiàn)數(shù)據(jù)資源的高效利用有重大意義。
(1)研究技術(shù)路線。
異構(gòu)信息知識(shí)挖掘與可視化分析主要研究語義網(wǎng)格、基礎(chǔ)資料、異構(gòu)信息獲取與組織、信息可視化等四個(gè)方面,研究技術(shù)路線見圖1。語義網(wǎng)格和信息可視化分析工具方面研究較少,沒有太多技術(shù)和成果可以借鑒,在實(shí)施過程中充分重視測(cè)試的重要性,在本體自動(dòng)構(gòu)建和信息可視化分析兩個(gè)關(guān)鍵環(huán)節(jié)邀請(qǐng)專家對(duì)研究結(jié)果進(jìn)行評(píng)估,根據(jù)評(píng)估結(jié)果進(jìn)行調(diào)整和修正,得到更好的結(jié)果。
(2)系統(tǒng)分析處理流程。
異構(gòu)信息知識(shí)挖掘與可視化分析系統(tǒng)融合專家系統(tǒng)和搜索引擎的優(yōu)點(diǎn),基于特定專業(yè)領(lǐng)域,以互聯(lián)網(wǎng)和本地資源庫作為專家系統(tǒng)的知識(shí)源,挖掘深層知識(shí),建立智能語義索引;在此基礎(chǔ)上,接收用戶提出的問題尋找可能的答案,并對(duì)相關(guān)問題進(jìn)行自動(dòng)分類,同時(shí)列出各相關(guān)問題的解決方法,最后以直觀的圖形圖像,顯示相關(guān)的信息。系統(tǒng)分析處理流程如圖2所示。
圖2 系統(tǒng)分析處理流程圖
圖3 異構(gòu)信息知識(shí)挖掘與可視化分析系統(tǒng)架構(gòu)
異構(gòu)信息知識(shí)挖掘與可視化分析系統(tǒng)架構(gòu)如圖3所示。該系統(tǒng)主要分為系統(tǒng)用戶層、系統(tǒng)工具層和數(shù)據(jù)資源層等。
(1)系統(tǒng)用戶層。
系統(tǒng)用戶層包括信息檢索和知識(shí)動(dòng)態(tài)展示兩個(gè)單元。
信息檢索包括目錄導(dǎo)航、語義查詢、相關(guān)概念和系統(tǒng)問答等模塊。用于顯示系統(tǒng)自動(dòng)聚類的某領(lǐng)域?qū)哟谓Y(jié)構(gòu)信息;支持關(guān)鍵詞、關(guān)鍵詞組和查詢語句等多種方式查詢;提供同義詞、上位詞、下位詞和相關(guān)詞匯列表;針對(duì)用戶最終查看的網(wǎng)頁特點(diǎn),進(jìn)行聚類,推薦相同類別的網(wǎng)頁資源;針對(duì)用戶問題提供系統(tǒng)化解決方案材料。[3]
知識(shí)動(dòng)態(tài)展示包括本體知識(shí)圖、資源分布圖、Web知識(shí)圖、文檔知識(shí)圖等模塊。用于顯示領(lǐng)域本體的概念、概念間關(guān)系、屬性、實(shí)例等知識(shí)體系;顯示目錄導(dǎo)航每個(gè)節(jié)點(diǎn)的網(wǎng)頁資源個(gè)數(shù),與用戶檢索內(nèi)容相關(guān)資源的分布情況;顯示檢索結(jié)果中各網(wǎng)頁的知識(shí)結(jié)構(gòu)圖,查看相關(guān)網(wǎng)頁所在網(wǎng)站的整體知識(shí)網(wǎng)絡(luò)圖;顯示用戶上傳文檔中核心概念以及概念之間關(guān)系;對(duì)顯示信息進(jìn)行統(tǒng)計(jì)分析和評(píng)價(jià)。
(2)系統(tǒng)工具層。
系統(tǒng)工具層包括語料預(yù)處理、知識(shí)挖掘和可視化分析等三個(gè)子系統(tǒng)。
語料預(yù)處理子系統(tǒng)包括語料管理、網(wǎng)絡(luò)爬蟲、信息抽取和信息去噪等模塊。用于管理用戶上傳和網(wǎng)絡(luò)抓取的各類資源;設(shè)置和監(jiān)控網(wǎng)絡(luò)爬蟲工具,抓取和更新網(wǎng)絡(luò)資源;提取網(wǎng)絡(luò)爬蟲抓取的文檔文件內(nèi)容;去除文檔中空格、頁眉、頁腳、亂碼和無用信息。[4]
知識(shí)挖掘子系統(tǒng)包括核心概念識(shí)別、概念間關(guān)系抽取、摘要關(guān)鍵詞提取和信息分類聚類等模塊。用于統(tǒng)計(jì)語料中的單詞概念和組合概念的權(quán)重和領(lǐng)域相關(guān)性,識(shí)別和確定領(lǐng)域的核心概念;用于抽取核心語句中有用的、領(lǐng)域相關(guān)的上下位、同義、屬性等概念間關(guān)系;基于領(lǐng)域概念識(shí)別結(jié)果,提取2至4個(gè)最能體現(xiàn)文檔主題的詞語作為關(guān)鍵詞;基于分詞結(jié)果和領(lǐng)域概念識(shí)別結(jié)果,以句為單位計(jì)算每句中領(lǐng)域概念出現(xiàn)次數(shù),選擇2至4句出現(xiàn)領(lǐng)域概念最多的句子作為文檔摘要;將文檔的關(guān)鍵詞映射到導(dǎo)航目錄體系中,實(shí)現(xiàn)文檔分類。
可視化分析子系統(tǒng)包括層次信息、網(wǎng)狀信息、多維信息和統(tǒng)計(jì)信息等多種類信息顯示模塊。支持將目錄導(dǎo)航、本體繼承關(guān)系和網(wǎng)頁概念關(guān)系信息轉(zhuǎn)化為層次結(jié)構(gòu)圖,并以線條的粗細(xì)以及顏色的深淺表示概念在資源中出現(xiàn)的次數(shù);使用餅狀圖、柱狀圖、折線圖展示系統(tǒng)中相關(guān)統(tǒng)計(jì)信息。
(3)數(shù)據(jù)資源層。
數(shù)據(jù)資源層包括領(lǐng)域詞典、領(lǐng)域本體、全景語料庫、抓取語料庫、知識(shí)提取庫和語義索引庫。
領(lǐng)域詞典,作為系統(tǒng)分詞、句法分析的自定義詞典,用于記錄并通過系統(tǒng)分析挖掘不斷更新的領(lǐng)域相關(guān)概念集,提高系統(tǒng)分析的準(zhǔn)確率。
領(lǐng)域本體,存儲(chǔ)該領(lǐng)域普遍認(rèn)可的概念、概念間關(guān)系、屬性、規(guī)則和實(shí)例等知識(shí)。[5]
全景語料庫,存儲(chǔ)有代表性的、涵蓋國(guó)民經(jīng)濟(jì)所有領(lǐng)域的各類語料。相關(guān)語料來源于近年來較為規(guī)范的、全國(guó)各類期刊的摘要信息。
抓取語料庫,存儲(chǔ)網(wǎng)絡(luò)抓取的各類語料信息資源,包括通過用戶設(shè)定的領(lǐng)域門戶網(wǎng)站抓取的網(wǎng)頁信息,以及文本預(yù)處理的結(jié)果信息。
知識(shí)提取庫,存儲(chǔ)系統(tǒng)知識(shí)挖掘分析結(jié)果信息。
語義索引庫,基于知識(shí)提取庫建立語義索引,提高信息檢索速度。
目前,基于異構(gòu)信息知識(shí)挖掘與可視化模型已經(jīng)成功地構(gòu)建了原型系統(tǒng),并已應(yīng)用在國(guó)家科技基礎(chǔ)條件平臺(tái)項(xiàng)目“先進(jìn)制造與自動(dòng)化科學(xué)數(shù)據(jù)共享網(wǎng)”中,通過合理組織“共享網(wǎng)”各技術(shù)領(lǐng)域數(shù)據(jù)資源,對(duì)異構(gòu)信息進(jìn)行知識(shí)挖掘,可視化顯示檢索結(jié)果,極大地提高了數(shù)據(jù)資源管理的效率,更好地為用戶提供了資源共享服務(wù),解決了定位不準(zhǔn)確、檢索效率低下等問題,如:設(shè)計(jì)一個(gè)機(jī)械零件,需要考慮基礎(chǔ)選材、設(shè)計(jì)方法和加工工藝等多方面知識(shí),僅單獨(dú)從材料數(shù)據(jù)庫、設(shè)計(jì)方法數(shù)據(jù)庫和加工工藝數(shù)據(jù)庫中查詢到的信息,很難直接利用,本系統(tǒng)能夠?qū)⒉牧蠑?shù)據(jù)庫、設(shè)計(jì)方法數(shù)據(jù)庫和加工工藝數(shù)據(jù)庫中數(shù)據(jù)資源的相關(guān)信息和相關(guān)數(shù)據(jù)資源挖掘出來,直接給用戶一個(gè)全面、系統(tǒng)化的解決方案。異構(gòu)信息知識(shí)挖掘與可視化分析系統(tǒng)為信息資源的科學(xué)智能管理和高效共享服務(wù)提供了技術(shù)支撐,在相關(guān)領(lǐng)域均具有廣泛的應(yīng)用空間。
本文通過對(duì)異構(gòu)信息知識(shí)挖掘與可視化分析系統(tǒng)建設(shè)背景和需求進(jìn)行介紹,構(gòu)建了系統(tǒng)架構(gòu)模型,詳細(xì)介紹了體系架構(gòu)的主要模塊和模塊之間關(guān)系,為專業(yè)技術(shù)領(lǐng)域信息資源的科學(xué)管理和共享服務(wù)提供借鑒,對(duì)其他領(lǐng)域相關(guān)系統(tǒng)和系統(tǒng)模型的建立提供有價(jià)值的參考。
[1]陳玉,張曉高.談網(wǎng)絡(luò)知識(shí)挖掘在數(shù)字參考咨詢中的實(shí)現(xiàn)[J].無線互聯(lián)科技,2010,(1):58-60.
[2]趙志榮.21 世紀(jì) WEB 數(shù)據(jù)庫的發(fā)展[J].互聯(lián)網(wǎng)世界,2001,(3):62 -63.
[3]李麗亞,宋揚(yáng),薛中玉,李春梅.基于ontology的科學(xué)數(shù)據(jù)共享檢索體系解析[J].情報(bào)理論與實(shí)踐,2009,(5):81-85.
[4]Ratnasamy S.,F(xiàn)rancis P..A Scalable Content Addressable Network[C].ACMSI GCOMM,2001:161 -172.
[5]薛中玉,李春梅,黃道雄.基于文本挖掘的本體自動(dòng)構(gòu)建系統(tǒng)架構(gòu)解析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,(1):100-103.
(責(zé)任編輯 胡瓊靜)
Explanation of the Heterogeneous Information Knowledge Mining and Visualization System Architecture Model
Li Aidan1,Xue Zhongyu2,Li Chunmei2
(1.Beijing Institute of Technology,Beijing 100081,China;2.Beijing ZhongJiKeHai Technology Development Ltd.,Beijing 100048,China)
TP31
A
國(guó)家國(guó)際科技合作計(jì)劃項(xiàng)目“異構(gòu)信息知識(shí)挖掘與可視化關(guān)鍵技術(shù)研究”(2010DFA14390)。
2012-03-29
李艾丹 (1984-),女,北京市人,管理學(xué)博士研究生;研究方向:信息管理與知識(shí)管理。