亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘技術(shù)的讀者知識管理在學(xué)術(shù)圖書館中的應(yīng)用

        2013-07-14 08:26:30丁海德周曉梅青島科技大學(xué)圖書館山東青島266061
        圖書館理論與實踐 2013年2期
        關(guān)鍵詞:數(shù)據(jù)挖掘圖書館文本

        ●張 巖,丁海德,周曉梅(青島科技大學(xué) 圖書館,山東 青島 266061)

        1 引言

        圖書館數(shù)字化的迅猛發(fā)展給我們帶來了海量的讀者相關(guān)信息。[1]在數(shù)字化學(xué)術(shù)圖書館中,對海量非結(jié)構(gòu)化讀者相關(guān)知識的管理問題已經(jīng)成為學(xué)者感興趣的研究領(lǐng)域。

        研究人員設(shè)計開發(fā)了許多挖掘算法和知識管理系統(tǒng),其中,文本挖掘是一種基于自然語言處理、信息檢索、信息抽取和數(shù)據(jù)挖掘等技術(shù),在海量非結(jié)構(gòu)化文本中半自動的發(fā)現(xiàn)模式和趨勢的挖掘技術(shù)。[2-4]通常文本挖掘被視為面向功能的方法,它專注于數(shù)據(jù)挖掘任務(wù)的需求和目標(biāo)。這種目標(biāo)驅(qū)動的方法將文本挖掘研究和現(xiàn)實的應(yīng)用緊密地結(jié)合起來。然而,由于數(shù)據(jù)類型的多樣化和知識存在的不同形式,文本挖掘不得不面對各種難題。對于不同目的的不同功能需要考慮使用不同的文本挖掘系統(tǒng)。

        2 文本挖掘技術(shù)

        文本挖掘是基于先進(jìn)的信息技術(shù),對“隱藏”于海量非結(jié)構(gòu)化文本中的沒有檢測到的新穎的非結(jié)構(gòu)化知識進(jìn)行提取的過程。[5]它使得知識工作者得以揭示文本集中的關(guān)系并從中發(fā)現(xiàn)新的知識。因此,文本挖掘和數(shù)據(jù)挖掘是相似的,二者都要處理海量數(shù)據(jù)并獲得知識。但數(shù)據(jù)挖掘是從結(jié)構(gòu)化的數(shù)據(jù)集中獲取,如數(shù)據(jù)庫等其他結(jié)構(gòu)化形式。而文本挖掘所面對的是各種類型的不斷增加的文本數(shù)據(jù)流。

        文本挖掘系統(tǒng)由三部分組成:最基本的部分包括機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計和自然語言處理;在此基礎(chǔ)之上五種基本技術(shù)構(gòu)成了第二部分,分別為文本數(shù)據(jù)提取、文本分類、文本聚類、文本數(shù)據(jù)壓縮和文本數(shù)據(jù)處理;第三部分是在前者基礎(chǔ)之上的應(yīng)用、信息獲?。ㄈ缧畔z索、信息過濾等) 和知識發(fā)現(xiàn)(如數(shù)據(jù)分析和數(shù)據(jù)預(yù)測等)。

        其中,文本數(shù)據(jù)提取可以自動發(fā)現(xiàn)和索引文本中的重要詞句,如標(biāo)題、作者、關(guān)鍵詞等,同時還可以檢測存檔中出現(xiàn)的重復(fù)文件。

        文本分類用以將文本文件歸為預(yù)先定義好的類別。例如,將不同的新聞分別歸類為“體育”、“政治”和“文藝”等。不論采用何種方法,文本分類過程總是由一個事先分類 l∈L的訓(xùn)練集D=(d1,…,dn)開始。然后確定一個分類模型

        用以將域內(nèi)新文件d歸入正確的類別。這是一種可被用于很多應(yīng)用中的監(jiān)督學(xué)習(xí)。

        文本聚類通過基于數(shù)據(jù)的屬性來計算聚類和比較相似度,將具有相似內(nèi)容的文本分別聚集為不同的群組。最為常用的聚類方法有K均值算法、模型估計、混合模型估計、層次聚類和其他方法。[6]

        3 基于文本挖掘技術(shù)的讀者知識管理

        Alexandre等人提出的文本挖掘方法利用信息的提取、檢索和文本挖掘,通過估計協(xié)作網(wǎng)絡(luò)或知識地圖揭示實體中不同級別的連通性。這種網(wǎng)絡(luò)能夠有效洞察學(xué)術(shù)圖書館中諸如讀者知識(包括來自讀者的知識、關(guān)于讀者的知識和能為讀者提供的知識) 和讀者之間的關(guān)系,使具有相同研究興趣的讀者可以自動獲取各自所需的信息。

        本文提出方案的具體流程:① 將讀者和學(xué)術(shù)圖書館提供的各種資源如論文、書籍、博客以及關(guān)于讀者的相關(guān)知識整理為待處理文本;② 文本經(jīng)信息提取得到實體和索引數(shù)據(jù)庫;③ 對所得實體進(jìn)行相關(guān)性計算得到實體的相關(guān)數(shù)據(jù);④ 經(jīng)數(shù)據(jù)挖掘、模式的形成及信息檢索完成對文檔的文本挖掘處理。隨后為可視化工具和評價工具以及讀者知識管理的知識管理系統(tǒng)。經(jīng)以上兩個模塊的處理,讀者即可獲得完備、有序的與研究領(lǐng)域相關(guān)的讀者知識。

        3.1 實體提取

        實體提取階段被稱為命名實體 (Named Entity,NE) 識別,用于發(fā)現(xiàn)正確的名稱和它們的變化及所屬的類別。[7]這里NE是指能夠表達(dá)現(xiàn)實世界或抽象世界中的對象的文本元素。例如,一個實體可被定義為一個矢量,該矢量由描述、類別和附加信息構(gòu)成E={description, class,<additional information>} 。 附加信息可以用來說明諸如模式在文本中的位置等信息。

        實體提取過程由兩部分組成:有關(guān)字的結(jié)構(gòu)和模式。其中,有關(guān)字的結(jié)構(gòu)對于實體提取過程和知識庫的表達(dá)至關(guān)重要。[8]每一個納入考慮的類都和一個相關(guān)字表相對應(yīng),每一個相關(guān)字表都存儲了一組可自辨識的詞。模式在書面語言中得到廣泛應(yīng)用,它們表達(dá)了可被分類的一系列的詞。

        3.2 實體的相關(guān)

        相關(guān)性方法是用以區(qū)分搭配的最常用方法,可用于其他文本元素的相近詞辨別和相關(guān)程度的度量。LRD(Latent Relation Discovery) 方法通過對三種因素的考慮來確定實體間的關(guān)系。① 共現(xiàn)性。如果兩個實體出現(xiàn)在同一文本中即為共現(xiàn)。② 距離。計算在同一文本中所有具有共現(xiàn)性之間的距離。③ 相關(guān)程度。給定實體E1,則實體E1和E2之間的相關(guān)程度可由式(2) 給出。均值距離越大說明二者的相關(guān)程度越低。一般而言,E1和E2之間的相關(guān)程度是不對稱的,其值取決與E1還是E2是目標(biāo)實體。

        式 中 f( Freqi( E1) ) =tfidfi( E1) ,( Freqi( E2) )=tfidfi(E2) , 且Freqi(E1) 和Freqi(E2) 存在于第i個文本之中。tfidfi即詞頻—逆文檔頻率法,是利用統(tǒng)計的方式計算出字詞與文件中的關(guān)聯(lián)性,進(jìn)而推導(dǎo)出此次檢索該文件在整個資料庫中的重要程度。定義為:

        在構(gòu)造向量過程中,我們利用式(2) 計算每對實體之間的相關(guān)程度。

        3.3 構(gòu)造實體數(shù)據(jù)庫

        為進(jìn)行實體提取和相關(guān)過程,需要建立相關(guān)實體的數(shù)據(jù)庫。用LRD方法計算由源實體(Source Entity,SE) 和目標(biāo)實體 (Target Entity,TE) 構(gòu)成的實體對,從而將每一組給定實體對〈SE,TE〉其相關(guān)程度存儲在數(shù)據(jù)庫中。如表1所示,從三個文本中提取出七個實體,計算出了其相關(guān)程度。

        因此,對于任意給定SE,可以依據(jù)相關(guān)程度檢索出所有相關(guān)的TE。例如,表1中的E3和E1之間的相關(guān)程度可由下式得出。

        R(E1,E3) =2/3*(0.4938+0.5850) =0.7192 (4)

        表1 三個文本中七個實體文本間相關(guān)權(quán)值清單

        3.4 信息檢索與模式生成

        為了可以查詢分級文本,計算每一文本的擴(kuò)展向量和基于詞的查詢向量的余弦系數(shù)。其精度由檢索文本過程中余弦系數(shù)的閾值來控制。本方案采用聚類算法生成模式,以進(jìn)一步分析文本和實體是如何相互關(guān)聯(lián)的,采用半徑參數(shù)方法來控制聚類形成。[9]

        首先,選擇一個矢量形成第一個聚類。重復(fù)這個過程,選擇下一個矢量并通過如式 (5) 所示余弦方法和第一個聚類比較。

        式中ti和tk是矢量t中第i個和第j個實體的歸一化的頻率,qi和qj是矢量q中第i個和第j個實體的歸一化的頻率。如果一個矢量和一個聚類質(zhì)心被1減的差大于參數(shù)r則該矢量形成一個性聚類。否則,該矢量被分配如某一聚類且計算該聚類的質(zhì)心值。

        當(dāng)聚類過程達(dá)到會聚,過程停止,這取決于與當(dāng)前和前一個過程的平均差之和。聚類過程結(jié)束后我們得到包含矢量和聚類平均質(zhì)心的聚類。

        3.5 實驗結(jié)果

        在實驗中,以來自讀者在圖像壓縮和傳熱學(xué)領(lǐng)域的3000篇研究論文為實驗對象,對每一篇論文進(jìn)行實體識別處理并將結(jié)果以矢量的形式存儲。由此,矢量中的元素表達(dá)了由描述、類別和在文檔中的位置信息組成的實體。實驗共提取出了2101個實體,其中包含342個組織名稱,1283個個人和476個研究領(lǐng)域。通過實體分析工具對其進(jìn)行分析以獲得它們之間的相互關(guān)系,并應(yīng)用于知識管理系統(tǒng)。例如,對于給定的SE,我們可以得到最為相關(guān)的TE;對于每個類,分析最為相關(guān)的關(guān)系,從而提供一種簡單的方法來檢查性能,甚至用以檢索某一研究領(lǐng)域的專家。實體相互關(guān)系表達(dá)了不同的目標(biāo),從而對某一研究感興趣的成員就自然地形成了一個群組,由此而形成的社會網(wǎng)絡(luò)將使各個研究群組的成員受益。

        4 結(jié)論與展望

        在本研究中,我們致力于通過文本挖掘和知識管理技術(shù)的應(yīng)用,在學(xué)術(shù)圖書館中構(gòu)建一種各個研究領(lǐng)域都可以分享和學(xué)習(xí)的研究群體。通過基于共現(xiàn)性的文本挖掘方法來獲得文本元素間的相關(guān)程度,從而揭示隱藏的知識為知識管理中的決策提供支持。實驗結(jié)果表明,本文提出的方案可有效地用于處理海量文本,并且對于新增文本并不需要額外的操作。因此,本文方法能夠處理隱匿于學(xué)術(shù)圖書館或其他組織的海量文檔中的知識,并對其進(jìn)行管理。

        [ 1] DaneshgarF, BosanquetL.Organizingcustomerknowledge in academic libraries[ J].Electronic Journal of KnowledgeManagement, 2010, 8 ( 1) : 21-32.

        [ 2] M Hearst.UntanglingTextDataMining[ C]//The37th Annual Meeting of the Association for Computer Linguistics( ACL’99).Stroudsburg, PA, USA: AssociationforComputationalLinguistica, 1999: 3-10.

        [ 3] Gene Ontology Consortium [ EB/OL].[ 2010-06-22].http://www.geneontology.org.

        [ 4] R Agrawal, R Srikant.Fast Algorithms for Mining Association Rules in Large Database[ C]//Proceedings of the 20th International Conference on Very Large Databases(VLDB).SantiagodeChile, Chile: MorganKaufmamm, 1994: 487-499.

        [ 5] Antonis Spinakis.Text Mining: A Powerful Tool for KnowledgeManagement[ EB/OL].[ 2010-07-29].http://www.quantos-stat.com/articles/Text_Mining.pdf.

        [ 6] Xu L, et al.Maximum margin clustering[ J].Advances in Neural Information Processing Systems,2005(17) : 1537-1544.

        [ 7] CunninghamHGate.Ageneralarchitecturefortextengineering [ J].Computers and the Humanities,2002, 36 (2) : 223-254.

        [ 8] GuthrieL, etal.Theroleoflexiconsinnaturelanguage processing[J].Communications of the ACM, 1996,39(1) : 63-72.

        [9] Alexandre G, et al.LRD: Latent Relation Discovery for Vector Space Expansion and Information Retrieval[ C]//Proceedings of the 7th International Conference on Web-Age Information Management.Hong Kong:Know ledge Media Institute, 2006: 122-133.

        猜你喜歡
        數(shù)據(jù)挖掘圖書館文本
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        圖書館
        小太陽畫報(2018年1期)2018-05-14 17:19:25
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        飛躍圖書館
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        去圖書館
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        久久尤物AV天堂日日综合| 伊人久久大香线蕉午夜av| 国产精品爽爽久久久久久竹菊| 国产精品天天在线午夜更新| 99久久综合九九亚洲| 国产无套粉嫩白浆内精| 久久红精品一区二区三区| 99热爱久久99热爱九九热爱| 色爱区综合激情五月综合小说| 亚洲欧美v国产蜜芽tv| 亚洲精品中文字幕乱码| 小妖精又紧又湿高潮h视频69 | 亚洲免费福利视频网站| 大尺度无遮挡激烈床震网站 | 91麻豆国产香蕉久久精品| 成人av天堂一区二区| 国产jk在线观看| av在线网站手机播放| 麻豆视频在线播放观看| 亚洲第一页综合图片自拍| 91福利国产在线观看一区二区| 久久国产劲爆内射日本| 国产日产韩国av在线| 国产午夜精品一区二区三区嫩草 | 女同av一区二区三区| 狠狠的干性视频| 久久精品久久精品中文字幕| 在线观看免费人成视频国产| 亚洲综合精品亚洲国产成人| 亚洲国产精品第一区二区| 亚洲a级片在线观看| 久久久精品国产老熟女| 国产精品极品美女自在线观看免费| 亚洲国产美女精品久久久久| 中文字幕日本人妻一区| 2020国产在视频线自在拍| 日本丰满熟妇hd| 亚洲精品日本| 青青草激情视频在线播放| 一本色道久久88综合日韩精品 | 成年人视频在线播放麻豆|