●張 巖,丁海德,周曉梅(青島科技大學(xué) 圖書館,山東 青島 266061)
圖書館數(shù)字化的迅猛發(fā)展給我們帶來(lái)了海量的讀者相關(guān)信息。[1]在數(shù)字化學(xué)術(shù)圖書館中,對(duì)海量非結(jié)構(gòu)化讀者相關(guān)知識(shí)的管理問題已經(jīng)成為學(xué)者感興趣的研究領(lǐng)域。
研究人員設(shè)計(jì)開發(fā)了許多挖掘算法和知識(shí)管理系統(tǒng),其中,文本挖掘是一種基于自然語(yǔ)言處理、信息檢索、信息抽取和數(shù)據(jù)挖掘等技術(shù),在海量非結(jié)構(gòu)化文本中半自動(dòng)的發(fā)現(xiàn)模式和趨勢(shì)的挖掘技術(shù)。[2-4]通常文本挖掘被視為面向功能的方法,它專注于數(shù)據(jù)挖掘任務(wù)的需求和目標(biāo)。這種目標(biāo)驅(qū)動(dòng)的方法將文本挖掘研究和現(xiàn)實(shí)的應(yīng)用緊密地結(jié)合起來(lái)。然而,由于數(shù)據(jù)類型的多樣化和知識(shí)存在的不同形式,文本挖掘不得不面對(duì)各種難題。對(duì)于不同目的的不同功能需要考慮使用不同的文本挖掘系統(tǒng)。
文本挖掘是基于先進(jìn)的信息技術(shù),對(duì)“隱藏”于海量非結(jié)構(gòu)化文本中的沒有檢測(cè)到的新穎的非結(jié)構(gòu)化知識(shí)進(jìn)行提取的過程。[5]它使得知識(shí)工作者得以揭示文本集中的關(guān)系并從中發(fā)現(xiàn)新的知識(shí)。因此,文本挖掘和數(shù)據(jù)挖掘是相似的,二者都要處理海量數(shù)據(jù)并獲得知識(shí)。但數(shù)據(jù)挖掘是從結(jié)構(gòu)化的數(shù)據(jù)集中獲取,如數(shù)據(jù)庫(kù)等其他結(jié)構(gòu)化形式。而文本挖掘所面對(duì)的是各種類型的不斷增加的文本數(shù)據(jù)流。
文本挖掘系統(tǒng)由三部分組成:最基本的部分包括機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)和自然語(yǔ)言處理;在此基礎(chǔ)之上五種基本技術(shù)構(gòu)成了第二部分,分別為文本數(shù)據(jù)提取、文本分類、文本聚類、文本數(shù)據(jù)壓縮和文本數(shù)據(jù)處理;第三部分是在前者基礎(chǔ)之上的應(yīng)用、信息獲?。ㄈ缧畔z索、信息過濾等) 和知識(shí)發(fā)現(xiàn)(如數(shù)據(jù)分析和數(shù)據(jù)預(yù)測(cè)等)。
其中,文本數(shù)據(jù)提取可以自動(dòng)發(fā)現(xiàn)和索引文本中的重要詞句,如標(biāo)題、作者、關(guān)鍵詞等,同時(shí)還可以檢測(cè)存檔中出現(xiàn)的重復(fù)文件。
文本分類用以將文本文件歸為預(yù)先定義好的類別。例如,將不同的新聞分別歸類為“體育”、“政治”和“文藝”等。不論采用何種方法,文本分類過程總是由一個(gè)事先分類 l∈L的訓(xùn)練集D=(d1,…,dn)開始。然后確定一個(gè)分類模型
用以將域內(nèi)新文件d歸入正確的類別。這是一種可被用于很多應(yīng)用中的監(jiān)督學(xué)習(xí)。
文本聚類通過基于數(shù)據(jù)的屬性來(lái)計(jì)算聚類和比較相似度,將具有相似內(nèi)容的文本分別聚集為不同的群組。最為常用的聚類方法有K均值算法、模型估計(jì)、混合模型估計(jì)、層次聚類和其他方法。[6]
Alexandre等人提出的文本挖掘方法利用信息的提取、檢索和文本挖掘,通過估計(jì)協(xié)作網(wǎng)絡(luò)或知識(shí)地圖揭示實(shí)體中不同級(jí)別的連通性。這種網(wǎng)絡(luò)能夠有效洞察學(xué)術(shù)圖書館中諸如讀者知識(shí)(包括來(lái)自讀者的知識(shí)、關(guān)于讀者的知識(shí)和能為讀者提供的知識(shí)) 和讀者之間的關(guān)系,使具有相同研究興趣的讀者可以自動(dòng)獲取各自所需的信息。
本文提出方案的具體流程:① 將讀者和學(xué)術(shù)圖書館提供的各種資源如論文、書籍、博客以及關(guān)于讀者的相關(guān)知識(shí)整理為待處理文本;② 文本經(jīng)信息提取得到實(shí)體和索引數(shù)據(jù)庫(kù);③ 對(duì)所得實(shí)體進(jìn)行相關(guān)性計(jì)算得到實(shí)體的相關(guān)數(shù)據(jù);④ 經(jīng)數(shù)據(jù)挖掘、模式的形成及信息檢索完成對(duì)文檔的文本挖掘處理。隨后為可視化工具和評(píng)價(jià)工具以及讀者知識(shí)管理的知識(shí)管理系統(tǒng)。經(jīng)以上兩個(gè)模塊的處理,讀者即可獲得完備、有序的與研究領(lǐng)域相關(guān)的讀者知識(shí)。
實(shí)體提取階段被稱為命名實(shí)體 (Named Entity,NE) 識(shí)別,用于發(fā)現(xiàn)正確的名稱和它們的變化及所屬的類別。[7]這里NE是指能夠表達(dá)現(xiàn)實(shí)世界或抽象世界中的對(duì)象的文本元素。例如,一個(gè)實(shí)體可被定義為一個(gè)矢量,該矢量由描述、類別和附加信息構(gòu)成E={description, class,<additional information>} 。 附加信息可以用來(lái)說明諸如模式在文本中的位置等信息。
實(shí)體提取過程由兩部分組成:有關(guān)字的結(jié)構(gòu)和模式。其中,有關(guān)字的結(jié)構(gòu)對(duì)于實(shí)體提取過程和知識(shí)庫(kù)的表達(dá)至關(guān)重要。[8]每一個(gè)納入考慮的類都和一個(gè)相關(guān)字表相對(duì)應(yīng),每一個(gè)相關(guān)字表都存儲(chǔ)了一組可自辨識(shí)的詞。模式在書面語(yǔ)言中得到廣泛應(yīng)用,它們表達(dá)了可被分類的一系列的詞。
相關(guān)性方法是用以區(qū)分搭配的最常用方法,可用于其他文本元素的相近詞辨別和相關(guān)程度的度量。LRD(Latent Relation Discovery) 方法通過對(duì)三種因素的考慮來(lái)確定實(shí)體間的關(guān)系。① 共現(xiàn)性。如果兩個(gè)實(shí)體出現(xiàn)在同一文本中即為共現(xiàn)。② 距離。計(jì)算在同一文本中所有具有共現(xiàn)性之間的距離。③ 相關(guān)程度。給定實(shí)體E1,則實(shí)體E1和E2之間的相關(guān)程度可由式(2) 給出。均值距離越大說明二者的相關(guān)程度越低。一般而言,E1和E2之間的相關(guān)程度是不對(duì)稱的,其值取決與E1還是E2是目標(biāo)實(shí)體。
式 中 f( Freqi( E1) ) =tfidfi( E1) ,( Freqi( E2) )=tfidfi(E2) , 且Freqi(E1) 和Freqi(E2) 存在于第i個(gè)文本之中。tfidfi即詞頻—逆文檔頻率法,是利用統(tǒng)計(jì)的方式計(jì)算出字詞與文件中的關(guān)聯(lián)性,進(jìn)而推導(dǎo)出此次檢索該文件在整個(gè)資料庫(kù)中的重要程度。定義為:
在構(gòu)造向量過程中,我們利用式(2) 計(jì)算每對(duì)實(shí)體之間的相關(guān)程度。
為進(jìn)行實(shí)體提取和相關(guān)過程,需要建立相關(guān)實(shí)體的數(shù)據(jù)庫(kù)。用LRD方法計(jì)算由源實(shí)體(Source Entity,SE) 和目標(biāo)實(shí)體 (Target Entity,TE) 構(gòu)成的實(shí)體對(duì),從而將每一組給定實(shí)體對(duì)〈SE,TE〉其相關(guān)程度存儲(chǔ)在數(shù)據(jù)庫(kù)中。如表1所示,從三個(gè)文本中提取出七個(gè)實(shí)體,計(jì)算出了其相關(guān)程度。
因此,對(duì)于任意給定SE,可以依據(jù)相關(guān)程度檢索出所有相關(guān)的TE。例如,表1中的E3和E1之間的相關(guān)程度可由下式得出。
R(E1,E3) =2/3*(0.4938+0.5850) =0.7192 (4)
表1 三個(gè)文本中七個(gè)實(shí)體文本間相關(guān)權(quán)值清單
為了可以查詢分級(jí)文本,計(jì)算每一文本的擴(kuò)展向量和基于詞的查詢向量的余弦系數(shù)。其精度由檢索文本過程中余弦系數(shù)的閾值來(lái)控制。本方案采用聚類算法生成模式,以進(jìn)一步分析文本和實(shí)體是如何相互關(guān)聯(lián)的,采用半徑參數(shù)方法來(lái)控制聚類形成。[9]
首先,選擇一個(gè)矢量形成第一個(gè)聚類。重復(fù)這個(gè)過程,選擇下一個(gè)矢量并通過如式 (5) 所示余弦方法和第一個(gè)聚類比較。
式中ti和tk是矢量t中第i個(gè)和第j個(gè)實(shí)體的歸一化的頻率,qi和qj是矢量q中第i個(gè)和第j個(gè)實(shí)體的歸一化的頻率。如果一個(gè)矢量和一個(gè)聚類質(zhì)心被1減的差大于參數(shù)r則該矢量形成一個(gè)性聚類。否則,該矢量被分配如某一聚類且計(jì)算該聚類的質(zhì)心值。
當(dāng)聚類過程達(dá)到會(huì)聚,過程停止,這取決于與當(dāng)前和前一個(gè)過程的平均差之和。聚類過程結(jié)束后我們得到包含矢量和聚類平均質(zhì)心的聚類。
在實(shí)驗(yàn)中,以來(lái)自讀者在圖像壓縮和傳熱學(xué)領(lǐng)域的3000篇研究論文為實(shí)驗(yàn)對(duì)象,對(duì)每一篇論文進(jìn)行實(shí)體識(shí)別處理并將結(jié)果以矢量的形式存儲(chǔ)。由此,矢量中的元素表達(dá)了由描述、類別和在文檔中的位置信息組成的實(shí)體。實(shí)驗(yàn)共提取出了2101個(gè)實(shí)體,其中包含342個(gè)組織名稱,1283個(gè)個(gè)人和476個(gè)研究領(lǐng)域。通過實(shí)體分析工具對(duì)其進(jìn)行分析以獲得它們之間的相互關(guān)系,并應(yīng)用于知識(shí)管理系統(tǒng)。例如,對(duì)于給定的SE,我們可以得到最為相關(guān)的TE;對(duì)于每個(gè)類,分析最為相關(guān)的關(guān)系,從而提供一種簡(jiǎn)單的方法來(lái)檢查性能,甚至用以檢索某一研究領(lǐng)域的專家。實(shí)體相互關(guān)系表達(dá)了不同的目標(biāo),從而對(duì)某一研究感興趣的成員就自然地形成了一個(gè)群組,由此而形成的社會(huì)網(wǎng)絡(luò)將使各個(gè)研究群組的成員受益。
在本研究中,我們致力于通過文本挖掘和知識(shí)管理技術(shù)的應(yīng)用,在學(xué)術(shù)圖書館中構(gòu)建一種各個(gè)研究領(lǐng)域都可以分享和學(xué)習(xí)的研究群體。通過基于共現(xiàn)性的文本挖掘方法來(lái)獲得文本元素間的相關(guān)程度,從而揭示隱藏的知識(shí)為知識(shí)管理中的決策提供支持。實(shí)驗(yàn)結(jié)果表明,本文提出的方案可有效地用于處理海量文本,并且對(duì)于新增文本并不需要額外的操作。因此,本文方法能夠處理隱匿于學(xué)術(shù)圖書館或其他組織的海量文檔中的知識(shí),并對(duì)其進(jìn)行管理。
[ 1] DaneshgarF, BosanquetL.Organizingcustomerknowledge in academic libraries[ J].Electronic Journal of KnowledgeManagement, 2010, 8 ( 1) : 21-32.
[ 2] M Hearst.UntanglingTextDataMining[ C]//The37th Annual Meeting of the Association for Computer Linguistics( ACL’99).Stroudsburg, PA, USA: AssociationforComputationalLinguistica, 1999: 3-10.
[ 3] Gene Ontology Consortium [ EB/OL].[ 2010-06-22].http://www.geneontology.org.
[ 4] R Agrawal, R Srikant.Fast Algorithms for Mining Association Rules in Large Database[ C]//Proceedings of the 20th International Conference on Very Large Databases(VLDB).SantiagodeChile, Chile: MorganKaufmamm, 1994: 487-499.
[ 5] Antonis Spinakis.Text Mining: A Powerful Tool for KnowledgeManagement[ EB/OL].[ 2010-07-29].http://www.quantos-stat.com/articles/Text_Mining.pdf.
[ 6] Xu L, et al.Maximum margin clustering[ J].Advances in Neural Information Processing Systems,2005(17) : 1537-1544.
[ 7] CunninghamHGate.Ageneralarchitecturefortextengineering [ J].Computers and the Humanities,2002, 36 (2) : 223-254.
[ 8] GuthrieL, etal.Theroleoflexiconsinnaturelanguage processing[J].Communications of the ACM, 1996,39(1) : 63-72.
[9] Alexandre G, et al.LRD: Latent Relation Discovery for Vector Space Expansion and Information Retrieval[ C]//Proceedings of the 7th International Conference on Web-Age Information Management.Hong Kong:Know ledge Media Institute, 2006: 122-133.