亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向非相關文獻的知識關聯(lián)檢索系統(tǒng)的設計與實現(xiàn)

2019-08-23 05:38:50劉愛琴安婷

現(xiàn)代情報 2019年8期

劉愛琴安婷

關鍵詞：非相關文獻;知識關聯(lián);中國分類主題詞表;計量分析技術;知識發(fā)現(xiàn)

Swanson首次提出的非相關文獻知識發(fā)現(xiàn)的基本發(fā)現(xiàn)模式，證明了非相關文獻之間存在著潛在關聯(lián)，為科學研究尋找新的線索提供了一種便捷、有效的輔助手段?，F(xiàn)有的研究大多數(shù)是基于此模式進行的，黃水清等將此方法應用于漢語社會科學文獻，驗證了該方法對中文文獻同樣適用;李勇等在此基礎上提出了基于非相關文獻的三階知識發(fā)現(xiàn)方法，通過對3個文獻集分析發(fā)現(xiàn)潛藏的關聯(lián)，挖掘不同主題之間的關系;樓雯通過利用計量分析技術確定概念之間的關系強度，在本體的基礎上挖掘出概念間的關聯(lián)關系：邱均平等指出計量分析的館藏資源語義化方法在語義關系深度、計算機自動處理程度、可重復性和實用性方面比基于元數(shù)據(jù)和領域本體的館藏資源語義化方法更好：通過對論文的題目或者關鍵詞進行關聯(lián)發(fā)現(xiàn)的語義化知識發(fā)現(xiàn)方法不足以更清晰、準確地反映文章的主旨，而從摘要中提取主題詞則更具有代表性。

因此，本系統(tǒng)利用《中國分類主題詞表》作為主題詞受控詞表，對文獻摘要進行中文分詞處理并提取主題詞進行標引.提取出文檔特征矩陣并利用計量分析技術和聚類技術分析文獻間特征的相似、相異水平，對非相關文獻之間的關系從更細的粒度層面進行挖掘，揭示非相關文獻的知識關聯(lián)?；诖?，設計了面向非相關文獻的知識關聯(lián)發(fā)現(xiàn)系統(tǒng).并基于該系統(tǒng)為用戶精確匹配相關的知識庫，采用TOP-K算法反饋用戶相關的文獻集，為用戶提供滿意度更高的知識發(fā)現(xiàn)及相關擴展服務。

1研究脈絡

首先，將中國分類主題詞作為受控詞表，利用主題詞標引與用戶個性化推薦中的標簽系統(tǒng)相類似的特征，對文獻進行標引。其次，文獻用主題詞作為標簽，由主題詞的層次結構以及主題詞間的語義關聯(lián)程度或相似程度，構建文獻的隸屬、相關結構，此層次結構具有文獻、文獻主題詞列表、文獻主題詞的重要程度標注。最后，借助知識相關算法，挖掘文獻之間的知識相關的關聯(lián)程度，并實現(xiàn)知識關聯(lián)地有效揭示。

1.1理論依據(jù)

《中國分類主題詞表》是我國第一部對照索引式的綜合性分類主題一體化檢索語言，是國內(nèi)圖書館用來標引文獻的主要工具。它結合了分類法和主題法的優(yōu)點，更加規(guī)范、科學，是一種具有較為豐富層次、嚴謹?shù)燃壗Y構的檢索語言，也是一種檢索工具，其創(chuàng)建的知識體系圖譜，既描述了知識的等級體系，主題的語義關聯(lián)，還描述了這兩者的對應聯(lián)系，在一定程度上創(chuàng)造了知識。將《中國分類主題詞表》中的詞語作為檢索語言，重新編碼、組織，可以形成一定結構的主題詞數(shù)據(jù)庫。通過輸入的主題詞，結合電子化的詞表，瀏覽分類的詞等級樹不僅可以檢索到與其匹配的文獻信息，而且能夠查詢到特定類別和子類的文獻。

1.2研究方法

計量分析的主要方法有共詞分析、耦合分析和共引分析等，王日芬等指出共被引矩陣和耦合矩陣是基于引用關系的共現(xiàn)矩陣，這兩種分析方法是基于文獻間的引用情況、利用期刊引文網(wǎng)絡探討學科研究的交叉關系，或者是利用關聯(lián)規(guī)則挖掘、文本挖掘等現(xiàn)代數(shù)據(jù)挖掘技術探討學科間的相關性和交叉知識，來分析文獻之間的關系，無法實現(xiàn)對文獻內(nèi)部隱含關聯(lián)的有效揭示。本系統(tǒng)首先采用共詞分析方法計算兩個主題詞共同出現(xiàn)的次數(shù)，以此為依據(jù)來確定兩者的關系強度。隨后，基于文獻提取出來的主題詞.獲取高頻主題詞的共詞矩陣，從更細的粒度層面利用Kmeans聚類的方法對文獻之間的關聯(lián)關系和關聯(lián)強度進行深入挖掘。

2面向非相關文獻的知識關聯(lián)檢索系統(tǒng)的設計與實現(xiàn)

2.1系統(tǒng)設計

依據(jù)非相關文獻的知識關聯(lián)特征，本系統(tǒng)設計的知識關聯(lián)系統(tǒng)從非相關文獻的關聯(lián)、用戶檢索詞與主題詞的關聯(lián)和知識的匹配與反饋3方面展開。非相關文獻的關聯(lián)是通過提取的主題詞表進行相關的關聯(lián)，用戶的檢索詞與語義子系統(tǒng)里的主題詞庫的解析，以及在知識庫中匹配相關的文獻庫并通過TOP-K算法反饋給用戶相關的文獻集，詳見如圖1所示。

首先，將資源進行知識描述并提取其特征.建立特征標引并存儲于知識庫中以待檢索訪問。其次.利用語義子系統(tǒng)對用戶的檢索詞進行語義分析與提取。最后，知識庫與語義子系統(tǒng)提取的主題詞進行關聯(lián)匹配并返回結果。該體系包括3個層次：

1）知識集成層

先將語料按照計算機可識別的結構整理存儲入知識庫：系統(tǒng)接收到文獻語料后.首先提取文獻的摘要進行中文分詞處理.將文獻的摘要切分成逐個的詞語，并將切分好的詞輸入到語義子系統(tǒng)中，然后通過語義系統(tǒng)的解析并使用經(jīng)過人工規(guī)范化處理的中國分類主題詞表作為主題詞受控詞表，將解析后經(jīng)過規(guī)范的主題詞表返回系統(tǒng)，并且將這些主題詞擴展到語義子系統(tǒng)的主題詞庫。最后收集整理子系統(tǒng)獲得規(guī)范化的主題詞表提取核心主題詞.并提取文獻特征利用計量分析技術以及聚類技術分析文獻間特征的相似、相異水平，揭示出文獻之間的潛在關聯(lián)并傳輸?shù)酱鎯ψ酉到y(tǒng)。存儲子系統(tǒng)接收到數(shù)據(jù)后進行索引組織和存儲操作，將數(shù)據(jù)整理匯總存儲到知識庫中。完成文檔、語義以及知識的索引工作。

2）用戶檢索層

用戶登錄用戶界面上的檢索欄借助關鍵詞檢索、模糊檢索、相關機構檢索等檢索方式輸入目標信息，進行查詢檢索。該檢索是建立在語義關聯(lián)技術之上的語義檢索，獲取用戶需求概念后借助語義子系統(tǒng)的推理機依次進行特征描述、特征提取、概念擴展等處理，進而調(diào)用語義庫解析出用戶需求所對應的相關語義主題詞。

3）知識發(fā)現(xiàn)層

語義子系統(tǒng)解析出的用戶需求所匹配的語義子系統(tǒng)與知識庫的知識進行匹配，反饋回數(shù)據(jù)檢索子系統(tǒng)以相關的知識庫，再利用TOP-K算法，將關聯(lián)度最大的前K條記錄組成一個文檔集返回給用戶.最終借助文件打包器對聚合的文檔進行匯總打包.實現(xiàn)智能可視化知識獲取，將目標資源的全文信息以PDF文檔格式條理化、可視化地呈獻給用戶。用戶可繼續(xù)進行瀏覽、檢索或其他操作等。并且.根據(jù)2/8原則，檢索系統(tǒng)要對熱點檢索結果進行緩存操作，為之后的檢索提高效率，提高系統(tǒng)的檢索性能和可用性。取代先前簡單的檢索目錄，用戶即可獲得與其查詢內(nèi)容相匹配的文獻數(shù)字資源的全文信息PDF匯編文檔，以期給用戶帶來更加智能化、便利化、柔性化的文獻資源發(fā)現(xiàn)服務。

2.2系統(tǒng)實現(xiàn)

2.2.1數(shù)據(jù)收集

本文從Web of Science的“中國科學引文數(shù)據(jù)庫SM'導出關鍵詞為“數(shù)據(jù)挖掘”和“管理”的相關文獻數(shù)據(jù)。其中收集關鍵字為“數(shù)據(jù)挖掘”的數(shù)據(jù)5000條和關鍵字為“管理”的數(shù)據(jù)5000條。提取這10000條文獻數(shù)據(jù)的摘要，對這些摘要進行中文分詞處理。

2.2.2中文分詞

中文文本挖掘技術，都是建立在“詞”的基礎上，但漢語文字中沒有類似英文文本中獨特的切分標志——空格。在漢語中，每個詞的長短不一，人在理解語義過程中，會下意識將詞從句子中突顯出來，分別進行理解，詞的組合構成句子，最終理解一句話的語義。對于計算機來說，理解語義的能力還不夠完善，需要一種其他的方式，對中文進行分詞處理。本系統(tǒng)采用Jieba中文分詞工具進行中文分詞，該分詞工具的中文分詞技術將機械匹配、詞頻統(tǒng)計、人工智能的中文分詞算法進行糅合，精確地將連續(xù)的字，切分成符合人理解的詞語，對詞進行切分的同時，對其打上詞性標簽。

1）機械匹配的中文分詞算法

機械匹配分詞技術采用人工創(chuàng)建詞典，該詞典中包含盡量多的詞語以達到最大匹配。本系統(tǒng)對一系列字符串使用預先設計好的規(guī)則，通過最大匹配原則匹配字典中的詞，機械地將字符串分割成子串，獲得最終的詞語序列。最大匹配原則使用簡單，切詞速度快，但由于詞語二義性問題，切詞的效果相對較差。

2）詞頻統(tǒng)計的中文分詞算法

機器學習的方法讓海量電子資源在沒有詞典的情況下也可以進行分詞。詞頻統(tǒng)計的中文分詞算法是以詞為基礎，詞是較穩(wěn)定的文字組合。如果漢字之間的共現(xiàn)頻率較高，頻繁地將它們組合在一起使用，便可將其整體作為一個語義單元進行處理。本系統(tǒng)依據(jù)詞頻統(tǒng)計結果作為是否最終將這些漢字劃分到一個詞語中（即作為分詞）的依據(jù)。

詞頻統(tǒng)計的中文分詞算法基于某一個詞的出現(xiàn)概率只由當前詞語所在的上下文語義或者其他特征決定，而與其它因素都無關的原理。N-gram是一種統(tǒng)計模型的分詞手段，以詞共現(xiàn)的概率為依據(jù)，計算出整個句子合理出現(xiàn)的分數(shù)值，確定一個滿意分數(shù)值作為分界值，進行最終分詞。如此進行的分詞由于基于統(tǒng)計的方式.分詞統(tǒng)計模型需要大量文本才可以獲得較高準確率，這需要更大的語料庫和更長的切詞計算時間。

3）人工智能技術的中文分詞應用

神經(jīng)網(wǎng)絡分詞算法是擴展到文本分析領域的特殊應用。本系統(tǒng)使用神經(jīng)網(wǎng)絡算法將漢字組成復雜的神經(jīng)網(wǎng)絡，由句子的輸入構建動態(tài)的鏈接表，經(jīng)過計算獲得最終有效的分詞結果輸出。該方法要求大數(shù)據(jù)集和較高的計算密集度。由于單機處理時間消耗多，一般作為分布式服務進行實施，且技術要求非常高。

2.2.3自動標引

自動賦詞標引方法.可以自動地對切分好的文本標注主題詞及詞性，本系統(tǒng)采用比較常見的自動賦詞標引方是tf-idf。tf指的是特定詞在一篇文獻中出現(xiàn)的頻率，idf指的是該詞在其他文獻中出現(xiàn)的頻率。如果某個詞在全體文檔語料集中出現(xiàn)的概率比較低而在當前文檔中呈現(xiàn)的概率比較高，即tf越高、idf越低則說明此詞在當前個別文檔中比較重要，即可作為當前文檔的主題詞。使用該方法.可以很簡便地獲得一個文章或一段話的主題詞。

為了協(xié)調(diào)知識檢索“高召回率、高檢全率”地目標，本系統(tǒng)要求語料切詞粒度盡可能的細，達到詞語全部切分;為了更貼近檢索意圖，本系統(tǒng)將多種方法融合并借助詞典，獲得折中的切詞效果。

2.2.4特征提取與知識關聯(lián)提取

本系統(tǒng)將經(jīng)過中文分詞后切分到的詞語，使用語義系統(tǒng)進行標準化操作，篩選出系統(tǒng)可識別并具有代表l生的詞語，作為最終特征，即進行自動賦詞標引。而其他一些在中分詞表中沒有出現(xiàn)的詞也同樣可以作為主題詞，這就涉及到自動增詞標引，在標引詞語的同時通過擴展重要詞擴展字典，賦予系統(tǒng)相對成長性。由于詞語間都會有有語義的相似性.一些詞可以使用另一些詞替換，來表示相同的含義。而主題詞一般比較規(guī)范，本系統(tǒng)通過將一部分語義相同的詞語轉(zhuǎn)化成主題詞，既縮減了文檔向量空間的大小，降低計算復雜性.同時使得知識關聯(lián)系統(tǒng)更加精煉，提高知識利用的效率。

本系統(tǒng)使用語義模型，提取出文檔特征矩陣，使用特征矩陣進行知識關聯(lián)隸屬度從屬關系挖掘，獲得知識關聯(lián)模型，詳見圖2。首先，使用KMeans對數(shù)據(jù)進行簡單的聚類，將數(shù)據(jù)分成3類，可以將語義相似度較高的文檔聚類到一起，從感性上理解各文檔之間的區(qū)分度和關聯(lián)程度。為了便于多維度數(shù)據(jù)的可視化，將高緯度數(shù)據(jù)經(jīng)過PCA算法進行降維處理，獲得二維數(shù)據(jù)，并進行可視化。

圖2顯示數(shù)據(jù)集之間沒有十分明顯的界限，驗證了之前的假設，各學科相互融合的觀點。通過KMeans聚類，將數(shù)據(jù)分成3類，同時在使用時候，可以劃分為更多的類，縮小所尋找知識的范圍。使用LDA主題分析，得到圖3所示結果。

圖中主題1，可以通過算法、數(shù)據(jù)挖掘、優(yōu)化、等詞語進行解釋，解釋結果詳見圖3。圖3清楚地顯示了被分到同一個主題的不同詞語的比重，利用該結果.可以將同一主題的相關知識進行整合，并通過主題詞共現(xiàn)方式提取知識關聯(lián)。圖3左側(cè)圓表示各主題，圓的大小表示主題重要程度，右側(cè)為解釋某一主題對應的詞，用一些詞解釋某一個主題。

本系統(tǒng)采用Doc2Vec模型，將語義蘊含在特征創(chuàng)建過程中，挖掘特征矩陣，獲得特征矩陣，并可以通過不同方法驗證各文檔、各主題之間的關系。通過語義挖掘，挖掘出各主題知識之間關聯(lián)，從而形象化的描繪主體間的關聯(lián)，詳見圖4所示。圖中展示的是各文檔之間的關聯(lián).通過連線的粗細，可以將文檔之間的關聯(lián)通過線條鏈接起來，形成一個文檔關聯(lián)。

2.2.5語義檢索

對于一般用戶的檢索過程來說，直接輸入自然語言作為檢索詞被認為是自然而然的事情，但是這些非規(guī)范的檢索詞在檢索系統(tǒng)中無法匹配到其所需要的信息資源。為了提高檢索質(zhì)量并為用戶提供靈活的檢索服務本系統(tǒng)采用語義檢索的方式為用戶提供服務.在語義檢索過程中，使用向量空間模型（Vector Space Model）來判斷檢索詞，即利用一個連續(xù)的稠密向量來刻畫一個詞的特征，該方法不但可以直接的刻畫出詞與詞之間的相似度，而且可以建立一個從向量到概率的平滑函數(shù)模型，使得相似的詞向量可以映射到相近的概率空間上。比如，在判斷“一只貓在床上走來走去”這句話時，在系統(tǒng)庫的語料中常出現(xiàn)“一只狗在床上走來走去”、“一只貓在床上跑來跑去”這樣的句子，那么，即使沒有見過這句話也可以從“貓”與“狗”（“走來走去”與“跑來跑去”）之間的相似性來判斷這句話出現(xiàn)的概率。

借助語義挖掘模型.進行各文檔之間通過相似度計算，可以獲得相似矩陣，借助文檔語義相似矩陣，構建語義挖掘系統(tǒng)。將主題詞：“算法”、“醫(yī)療”、“規(guī)則”、“數(shù)據(jù)挖掘”、“效率”、“評價”、“模型”、“知識”、“仿真”、“異常”、“安全”、“預測”、“組合”、“評估”、“治療”、“基因”、“融合”、“推薦”、“空間”導人模型，輸出一個Term-document矩陣A，如圖5上半部分所示。矩陣中的每一行A;，代表著詞典里的一個詞。矩陣的每一列A j，代表著語料里的一篇文獻。Aji表示詞wi在文獻Di中的重要程度（類似于因子分析）。則可以提取行向量作該詞的語義向量，列向量為文檔向量。本文所統(tǒng)計的w;詞頻是收集的語料文獻D;的摘要中統(tǒng)計的。

將主題詞和文獻都轉(zhuǎn)換成Embedding的詞向量與文檔向量，通過計算余弦相似度，如圖5下半部分所示，最后5行數(shù)字由兩部分組成，“：”右半部分表示分檔編號，左半部分表示相似度。每一行表示所輸入的主題詞與某一編號的文檔所具有的相似度.根據(jù)相似度進行檢索匹配保證了檢索結果質(zhì)量。

在實際的檢索過程中，會得到數(shù)量極多的符合條件的記錄，在一般的知識檢索系統(tǒng)中，會反饋給用戶關聯(lián)度最強的前n條記錄，例如知網(wǎng)，每次檢索可以返回10、20、50條記錄等，為了精準高效地完成此任務.本系統(tǒng)采用Top-K算法，根據(jù)關聯(lián)度快速排序并獲得前K條記錄，即圖5所示的相似度極大的前K條數(shù)據(jù)。收集用戶瀏覽結果，記錄瀏覽次數(shù)，從中挖掘出更深度的知識關聯(lián)，用于用戶檢索過程中提高知識檢索的準確度和效率。

通過知識關聯(lián)揭示，使用計量分析、Kmeans聚類等方法，將知識中的顯l生知識、以及難以發(fā)現(xiàn)的隱性知識一并挖掘、提煉出來后，通過有效的組織方式存儲起來。在用戶提出知識需求時，本系統(tǒng)從預先建立好的知識庫中提取有效解決辦法，再借助語義子系統(tǒng)的分析，獲得切實可行的解決方案，并在方案實施過程中系統(tǒng)及時跟蹤評價實施效果，最終高效解決用戶的問題。

3結論

本文使用《中國分類主題詞表》作為主題詞受控詞表，對文獻摘要進行分詞處理，選取文獻的主題詞并進行標引，提取文獻核心主題詞及文獻特征，利用語義挖掘模型的分析技術對文獻進行語義分析，并利用計量分析技術和聚類技術分析文獻間特征的相似、相異水平，從更細的粒度層面對非相關文獻之間的關系進行挖掘.揭示非相關文獻的知識關聯(lián)。將語義關聯(lián)的文獻進行組織，并存儲。最后集成知識庫為知識關聯(lián)系統(tǒng)提供知識支持，為系統(tǒng)便捷高效的進行知識服務提供保障，通過語義子系統(tǒng)對用戶檢索詞的分析與規(guī)范，經(jīng)過規(guī)范化的檢索詞與知識庫的知識特征進行匹配，采用TOP-K算法反饋用戶精確、關聯(lián)度高的前K條記錄，實現(xiàn)知識服務的高質(zhì)量化。

在下一步研究中可以考慮通過對用戶信息的收集、分析提取出用戶的特征，然后將用戶的特征與文獻資源特征進行相關匹配，實現(xiàn)知識的精準推送。

現(xiàn)代情報2019年8期

現(xiàn)代情報的其它文章: 基于商品類型的在線負面評論有用性影響因素比較研究; 高校學生網(wǎng)絡輿情的動態(tài)監(jiān)測路徑與防控機制研究; 農(nóng)業(yè)創(chuàng)新活動中的知識產(chǎn)權分析評議框架構建與實證分析; 基于SGS新產(chǎn)品開發(fā)流程的企業(yè)競爭情報業(yè)務流構建與應用; 區(qū)塊聯(lián)盟鏈視角下產(chǎn)學研信息平臺框架構建研究; 基于技術關鍵詞的學科領域協(xié)同演化分析實證研究