亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本挖掘的方法及應(yīng)用研究

        2011-08-08 12:48:26張曉艷華英
        電腦與電信 2011年12期
        關(guān)鍵詞:關(guān)聯(lián)分析

        張曉艷 華英

        (蘇州市職業(yè)大學(xué)計(jì)算機(jī)工程系,江蘇 蘇州 215104)

        1.引 言

        傳統(tǒng)的數(shù)據(jù)挖掘主要針對(duì)結(jié)構(gòu)化的數(shù)據(jù),如關(guān)系的、事務(wù)的和數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)。但隨著互聯(lián)網(wǎng)應(yīng)用的興起和普及,涌現(xiàn)出巨量的電子信息,如電子文檔、電子出版物、萬(wàn)維網(wǎng)等,其中以文本形式的信息占比最大。這些文本信息存儲(chǔ)在文本數(shù)據(jù)庫(kù)中,屬于半結(jié)構(gòu)化數(shù)據(jù)。文檔挖掘技術(shù)可幫助用戶(hù)比較非結(jié)構(gòu)化的文本信息,確定文檔的重要性和相關(guān)度,找出多個(gè)文檔的共通模式或趨勢(shì),成為數(shù)據(jù)挖掘中的一個(gè)重要研究方向。

        2.文本挖掘的處理過(guò)程

        文本挖掘從數(shù)據(jù)挖掘發(fā)展而來(lái),但面向的是半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本數(shù)據(jù),無(wú)確定形式并且缺乏機(jī)器可理解的語(yǔ)義;因此除采用數(shù)據(jù)挖掘的一些常見(jiàn)方法之外,還涉及到文本分析、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)等技術(shù)的運(yùn)用。

        文本挖掘的處理過(guò)程主要包括對(duì)含有大量文檔集合的內(nèi)容進(jìn)行文本預(yù)處理、特征提取、結(jié)構(gòu)分析、文本摘要、文本分類(lèi)、文本聚類(lèi)、關(guān)聯(lián)分析、質(zhì)量評(píng)估、模式生成、結(jié)果輸出等,如圖1所示。

        圖1 文本挖掘的處理過(guò)程

        文本預(yù)處理的目的是選取任務(wù)相關(guān)的文本并將其轉(zhuǎn)化成文本挖掘工具可以處理的中間形式。特征提取一般會(huì)構(gòu)造一個(gè)評(píng)價(jià)函數(shù),對(duì)每個(gè)特征進(jìn)行評(píng)估,按分值高低排列,預(yù)定數(shù)目分?jǐn)?shù)最高的特征被選取。接著將進(jìn)行一系列分析挖掘步驟,利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘以及模式識(shí)別等方法提取面向特定應(yīng)用目標(biāo)的知識(shí)或模式。在最后挖掘結(jié)果輸出前,需根據(jù)已經(jīng)定義好的評(píng)估指標(biāo)對(duì)獲取的知識(shí)或模式進(jìn)行質(zhì)量評(píng)估。如果不符合要求,則要返回到前面的環(huán)節(jié)重新調(diào)整和改進(jìn)。

        3.文本挖掘主要方法分析

        從圖1可以看出,整個(gè)文本挖掘處理過(guò)程中,重點(diǎn)集中在一系列分析挖掘步驟上,這些步驟的操作對(duì)象是提取出來(lái)的關(guān)鍵詞、標(biāo)記或語(yǔ)義信息,其中最主要使用的方法有:關(guān)聯(lián)分析、文本分類(lèi)和文本聚類(lèi)。

        3.1 關(guān)聯(lián)分析

        關(guān)聯(lián)分析首先要對(duì)文本數(shù)據(jù)進(jìn)行分析、詞根處理、去除停用詞等預(yù)處理,再調(diào)用關(guān)聯(lián)挖掘算法,如Apriori算法。關(guān)聯(lián)挖掘算法多使用支持度—置信度框架,最小支持度和置信度閾值可排除大量無(wú)益的規(guī)則。在文本數(shù)據(jù)庫(kù)中,視每個(gè)文檔為一個(gè)事務(wù),文檔中關(guān)鍵詞的集合視作是事務(wù)中的項(xiàng)集。所以文本數(shù)據(jù)庫(kù)中關(guān)鍵詞關(guān)聯(lián)挖掘的問(wèn)題就映射為事務(wù)數(shù)據(jù)庫(kù)中項(xiàng)的關(guān)聯(lián)挖掘。關(guān)聯(lián)挖掘過(guò)程有助于找出復(fù)合關(guān)聯(lián),即領(lǐng)域相關(guān)的術(shù)語(yǔ)或短語(yǔ),如[西紅柿,蔬菜],也可找出非復(fù)合關(guān)聯(lián),如[基金,銀行,證券,投資]。這樣的關(guān)聯(lián)挖掘也被稱(chēng)為“術(shù)語(yǔ)級(jí)關(guān)聯(lián)挖掘”,便于找出術(shù)語(yǔ)和關(guān)鍵詞間的關(guān)聯(lián)。具有無(wú)需人工標(biāo)記文本、極大減少算法的執(zhí)行時(shí)間和無(wú)意義結(jié)果的優(yōu)點(diǎn)。

        3.2 文本分類(lèi)

        由于存在大量的文本,自動(dòng)對(duì)這些文本分類(lèi)組織以便于檢索和分析,是文本挖掘至關(guān)重要的任務(wù)。文本分類(lèi)是一種“有教師”的機(jī)器學(xué)習(xí)方法。首先要取一組預(yù)處理的文本特征向量集作為訓(xùn)練集,每個(gè)訓(xùn)練集有個(gè)類(lèi)別編號(hào);然后選擇分類(lèi)方法分析訓(xùn)練集并導(dǎo)出分類(lèi)模式;再檢驗(yàn)這個(gè)分類(lèi)模式以求精;最后用訓(xùn)練好的分類(lèi)模型對(duì)其它待分類(lèi)文本進(jìn)行分類(lèi)。常用的文本分類(lèi)方法有:

        (1)最鄰近分類(lèi)法。將全部訓(xùn)練文本進(jìn)行簡(jiǎn)單索引,每個(gè)文本都關(guān)聯(lián)到對(duì)應(yīng)的類(lèi)別編號(hào)。當(dāng)提交一個(gè)檢驗(yàn)文本時(shí),把它當(dāng)作查詢(xún)提交,并從訓(xùn)練集中檢索出與查詢(xún)最相似的n個(gè)文檔。檢驗(yàn)文檔的類(lèi)別編號(hào)由它的n個(gè)最鄰近的類(lèi)別編號(hào)的分布決定。這種方法需要相對(duì)其它分類(lèi)方法會(huì)占用更多的存儲(chǔ)訓(xùn)練信息的空間和查找倒排索引所消耗的時(shí)間。

        (2)特征選擇分類(lèi)法。向量空間模型可能會(huì)將大權(quán)重賦予某些稀有詞,而不管它的類(lèi)分類(lèi)特征如何,這些稀有詞的存在可能會(huì)導(dǎo)致無(wú)效的分類(lèi)。此時(shí)可以使用特征選擇分類(lèi)法刪除訓(xùn)練文本中與類(lèi)別編號(hào)不相關(guān)或冗余的詞,其目的是找出最小特征集,使得數(shù)據(jù)類(lèi)的概率分布盡可能接近使用所有特征得到的原分布。使用特征選擇刪除非特征詞后,產(chǎn)生的訓(xùn)練文本分類(lèi)結(jié)果更有效。

        (3)貝葉斯分類(lèi)法。這是一種統(tǒng)計(jì)學(xué)分類(lèi)方法,因?yàn)槲谋痉诸?lèi)可以看作是計(jì)算文本在特定類(lèi)中的統(tǒng)計(jì)分布。貝葉斯分類(lèi)器首先通過(guò)對(duì)每個(gè)類(lèi)x計(jì)算文本y的生成的文本分布P(x|y)來(lái)訓(xùn)練模型,然后測(cè)試哪個(gè)類(lèi)最可能產(chǎn)生檢驗(yàn)文本。貝葉斯分類(lèi)可以預(yù)測(cè)類(lèi)成員關(guān)系的可能性,適用于處理高維的數(shù)據(jù)集,準(zhǔn)確率和速度均較高。

        3.3 文本聚類(lèi)

        文本聚類(lèi)是一種“無(wú)教師”的機(jī)器學(xué)習(xí)方法。依據(jù)著名的聚類(lèi)假設(shè):同類(lèi)的文本相似度較大,不同類(lèi)的文本相似度較小。它從給定的文本本身出發(fā),根據(jù)文檔特征詞向量,將相關(guān)者聚為一類(lèi)。與分類(lèi)不同,聚類(lèi)由于不需要訓(xùn)練過(guò)程,也不需要預(yù)先對(duì)文本標(biāo)注類(lèi)別,聚類(lèi)要?jiǎng)澐值念?lèi)是未知的,因此靈活性和自動(dòng)化處理能力更強(qiáng)一些。常用的文本聚類(lèi)方法有:

        1.光譜聚類(lèi)法。先將原始數(shù)據(jù)運(yùn)行維度歸約(光譜嵌入),然后對(duì)維度歸約后的文本空間運(yùn)用k均值或k中心聚類(lèi)算法。光譜聚類(lèi)法因與微分幾何學(xué)聯(lián)系密切,便于發(fā)現(xiàn)文本空間中的流行結(jié)構(gòu),而具有處理高度非線(xiàn)性數(shù)據(jù)的能力。這種方法也有缺點(diǎn),對(duì)嵌入的學(xué)習(xí)要使用到所有的數(shù)據(jù)點(diǎn),如果數(shù)據(jù)集很大,那會(huì)消耗大量的時(shí)間,因此并不太適用于大型數(shù)據(jù)集。

        2.混合模型聚類(lèi)方法。分為兩個(gè)步驟:①基于文本數(shù)據(jù)和附加的先驗(yàn)知識(shí)估計(jì)模型參數(shù);②基于估計(jì)的模型參數(shù)推斷聚類(lèi)。這種方法通常涉及多項(xiàng)式支模型,能同時(shí)聚類(lèi)詞和文本。概率潛在語(yǔ)義分析和潛在狄利克雷分配是經(jīng)常使用到的模型?;旌夏P途垲?lèi)方法的優(yōu)勢(shì)是,可以對(duì)簇進(jìn)行設(shè)計(jì),更有利于文本的比較分析。

        4.文本挖掘的常見(jiàn)應(yīng)用

        (1)信息檢索。信息檢索關(guān)注的是基于大量文本的文檔信息的組織和檢索。信息檢索包括聯(lián)機(jī)圖書(shū)館目錄系統(tǒng)、聯(lián)機(jī)文檔管理系統(tǒng)和Web搜索引擎等。信息檢索的典型問(wèn)題是根據(jù)用戶(hù)查詢(xún),在文本集合時(shí)定位相關(guān)文檔。信息檢索系統(tǒng)的一般流程為:對(duì)文本集合建立倒排索引、分析用戶(hù)查詢(xún)請(qǐng)求、匹配文檔與查詢(xún)請(qǐng)求、對(duì)查詢(xún)結(jié)果進(jìn)行排序以及用戶(hù)相關(guān)度回饋。

        (2)自定義組織聯(lián)機(jī)文檔。對(duì)于聯(lián)機(jī)文檔,可以自行制定組織方案,利用文本分類(lèi)對(duì)這些文檔進(jìn)行自動(dòng)編目。方便用戶(hù)不僅能夠?yàn)g覽文檔,并且還可以通過(guò)限制搜索范圍提高查找效率。

        (3)改進(jìn)搜索引擎的檢索結(jié)果。利用文本聚類(lèi)方法,把搜索引擎的檢索結(jié)果分為若干簇,加以標(biāo)注,改善用戶(hù)查看檢索結(jié)果的方式,幫助用戶(hù)從無(wú)關(guān)聯(lián)的線(xiàn)性文檔列表轉(zhuǎn)為查看有規(guī)律的分類(lèi)結(jié)果。

        (4)提升商務(wù)電子化的管理效率。實(shí)施電子商務(wù)的企業(yè)可通過(guò)對(duì)客戶(hù)訪問(wèn)信息、商品訪問(wèn)情況和銷(xiāo)售記錄情況等的文本挖掘,了解客戶(hù)的興趣與需求,跟蹤產(chǎn)品的市場(chǎng)反映,收集客戶(hù)的信譽(yù)度,幫助企業(yè)提升管理效率。

        5.結(jié)束語(yǔ)

        文本挖掘作為數(shù)據(jù)挖掘的研究分支,在對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)提取有效規(guī)律和規(guī)則方面有著明顯的優(yōu)勢(shì)。在處理不同數(shù)據(jù)集時(shí),應(yīng)根據(jù)數(shù)據(jù)集的維度和組織情況選擇最適用的挖掘分類(lèi)方法。隨著文本挖掘研究的深入,其應(yīng)用領(lǐng)域還將不斷拓展。

        [1]阮忠,鄧春燕.Web文本挖掘的方法及其應(yīng)用研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息.2008,(9):27-29.

        [2]程顯毅,朱倩著.文本挖掘原理[M].北京:科學(xué)出版社,2010.

        [3]Bing Liu著,俞勇,薛貴榮,韓定一譯.Web數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2009.

        [4]白翎雁,才書(shū)訓(xùn).Web文本挖掘及相關(guān)技術(shù)研究[J].沈陽(yáng)工程學(xué)院學(xué)報(bào)(自然科學(xué)版).2008,4(3):260-261.

        [5]謝冬,劉宏申.文本挖掘中若干關(guān)鍵問(wèn)題的研究[J].電腦知識(shí)與技術(shù).2009,5(18):4773-4774.

        猜你喜歡
        關(guān)聯(lián)分析
        “鷹眼”大數(shù)據(jù)安全管控平臺(tái)的技術(shù)實(shí)現(xiàn)解析
        斑點(diǎn)叉尾MSTN基因4個(gè)SNP位點(diǎn)及其與生長(zhǎng)性狀的相關(guān)性
        1996年~2016年檔案學(xué)國(guó)家社科基金項(xiàng)目的文獻(xiàn)計(jì)量分析
        檔案管理(2017年2期)2017-02-25 20:41:58
        玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
        玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
        基于隨機(jī)函數(shù)Petri網(wǎng)的系統(tǒng)動(dòng)力學(xué)關(guān)聯(lián)分析模型
        關(guān)聯(lián)分析技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用
        基于關(guān)聯(lián)分析的學(xué)生活動(dòng)參與度與高校社團(tuán)管理實(shí)證研究
        科技視界(2016年15期)2016-06-30 12:43:00
        精準(zhǔn)扶貧背景下廣東省有戶(hù)籍人口海島灰色聚類(lèi)分析研究
        不同的數(shù)據(jù)挖掘方法分類(lèi)對(duì)比研究
        特黄熟妇丰满人妻无码| 亚洲一区二区丝袜美腿| 国产精品一区二区久久蜜桃| 久久亚洲中文字幕精品一区| 亚洲精品无码久久久久牙蜜区 | 午夜福利电影| 精品无码一区二区三区小说| 亚洲av无一区二区三区综合| 国产精品久久国产精品99 gif| 国产成人免费一区二区三区| 99精品国产兔费观看久久| 亚洲中文高清乱码av中文| 全免费a级毛片免费看无码| 日本丰满熟妇bbxbbxhd| 一本大道久久东京热无码av| 国产在线视频一区二区三| 综合亚洲伊人午夜网| 国产av电影区二区三区曰曰骚网| 香蕉国产人午夜视频在线观看| 少妇人妻精品一区二区三区视| 无遮掩无码h成人av动漫| 国产内射在线激情一区| A阿V天堂免费无码专区| 午夜视频一区二区三区四区| 亚洲无线码一区二区三区| 日日摸夜夜添夜夜添无码免费视频 | 亚洲视频不卡免费在线| 国产av精品一区二区三区久久| 精品乱码久久久久久久| 无码精品一区二区三区超碰 | 丰满少妇高潮惨叫久久久一| 午夜探花在线观看| 亚洲视频一区二区三区免费 | 久久精品亚洲成在人线av| 亚洲av色欲色欲www| 少妇饥渴xxhd麻豆xxhd骆驼| 亚洲国产字幕| 日韩人妻精品视频一区二区三区| 黑人上司粗大拔不出来电影| 久久国产亚洲高清观看5388| 国产在线视频一区二区三|