亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種文本聚類(lèi)的增強(qiáng)數(shù)據(jù)挖掘方法

        2018-05-09 02:58:44魏爽
        電腦與電信 2018年3期
        關(guān)鍵詞:概念分析文檔語(yǔ)義

        魏爽

        (三亞學(xué)院信息與智能工程學(xué)院,海南 三亞 572000)

        1 引言

        各種信息源的信息每天都在快速地增長(zhǎng),從大量的信息中提取并發(fā)現(xiàn)有價(jià)值的信息的需要也與日俱增。數(shù)據(jù)挖掘就是一個(gè)用于從大量的原始數(shù)據(jù)集中提取有用信息的方法。

        文本挖掘是從不同的文本源中通過(guò)識(shí)別不同的模式和趨勢(shì)來(lái)獲得高質(zhì)量信息的過(guò)程。由于傳統(tǒng)的數(shù)據(jù)庫(kù)有已知的、固定的結(jié)構(gòu),而文檔是非結(jié)構(gòu)化的或者半結(jié)構(gòu)化的,文本挖掘比一般意義上的數(shù)據(jù)挖掘要困難得多[1,2]。故而,文本挖掘涉及到一系列的進(jìn)行數(shù)據(jù)預(yù)處理和建模的步驟,以獲得適用于結(jié)構(gòu)化數(shù)據(jù)挖掘方法的數(shù)據(jù)[3]。文本挖掘可以節(jié)省大量的人力,通過(guò)利用信息檢索、機(jī)器學(xué)習(xí)、信息理論以及概率統(tǒng)計(jì)等方法,可以解決諸如文檔檢索、文檔歸類(lèi)、文檔比較、提取關(guān)鍵信息、摘要文檔等問(wèn)題。

        2 基本概念

        自然語(yǔ)言處理(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)、人工智能以及語(yǔ)言學(xué)結(jié)合的一門(mén)技術(shù),處理機(jī)器和人類(lèi)自然語(yǔ)言的交互[4]。要機(jī)器理解人類(lèi)語(yǔ)言,就需要對(duì)人類(lèi)對(duì)世界的認(rèn)識(shí)進(jìn)行一定形式的表達(dá)。文本挖掘就是利用自然語(yǔ)言處理和數(shù)據(jù)挖掘技術(shù),試圖發(fā)現(xiàn)新的未知的信息。文本挖掘存在的一個(gè)問(wèn)題就在于,自然語(yǔ)言是用于人類(lèi)間交流以及記錄信息的,而計(jì)算機(jī)離理解自然語(yǔ)言有很大的差距。

        聚類(lèi)可以認(rèn)為是非監(jiān)督學(xué)習(xí)的最重要的一個(gè)問(wèn)題,它要在沒(méi)有標(biāo)注的數(shù)據(jù)中找到一種結(jié)構(gòu)。一個(gè)類(lèi)別就是一組有相似特征的對(duì)象的集合,而與其它類(lèi)中對(duì)象不相似。

        動(dòng)詞相關(guān)的角色研究稱(chēng)為題元角色分析。一般來(lái)說(shuō),一個(gè)句子的語(yǔ)義結(jié)構(gòu)可以通過(guò)動(dòng)詞參數(shù)結(jié)構(gòu)(Verb Argument Structure)來(lái)辨別[5]。動(dòng)詞參數(shù)結(jié)構(gòu)可以將文本表面的結(jié)構(gòu)參數(shù)和其語(yǔ)義角色關(guān)聯(lián)起來(lái)。

        3 基于概念的挖掘模型

        基于概念(concept-based)的挖掘模型在句子、文檔以及文集級(jí)別分析句子的各個(gè)項(xiàng)目(item),可以高效地將句子中對(duì)于構(gòu)成句子語(yǔ)義非重要的項(xiàng)目和包含了句子語(yǔ)義的概念區(qū)分開(kāi)。采用該模型,可以通過(guò)句子的語(yǔ)義有效地識(shí)別出文檔間重要的匹配概念。

        模型分析句子和文檔中每一個(gè)項(xiàng)目的語(yǔ)義結(jié)構(gòu)而不是僅僅計(jì)算出其在一個(gè)文檔中的出現(xiàn)頻率。模型的輸入為原始的文本文檔,每個(gè)文檔都定義好了句子邊界。文檔中的每個(gè)句子的每個(gè)項(xiàng)目都會(huì)被自動(dòng)地貼上標(biāo)注。貼上這些語(yǔ)義角色標(biāo)注后,文檔中的每個(gè)句子就會(huì)有一個(gè)或者更多的帶標(biāo)注的動(dòng)詞參數(shù)結(jié)構(gòu)(Verb Argument Structure)。這些動(dòng)詞參數(shù)結(jié)構(gòu)的數(shù)量完全取決于句子中的信息量。擁有多個(gè)帶有參數(shù)的動(dòng)詞的句子,就會(huì)有多個(gè)帶標(biāo)注的動(dòng)詞參數(shù)結(jié)構(gòu)。這些標(biāo)注決定組成句子語(yǔ)義的項(xiàng)目在句子中的語(yǔ)義角色。句子中的每個(gè)項(xiàng)目有一個(gè)語(yǔ)義角色,即“概念”(concept)。概念可以是一個(gè)詞,或一個(gè)短語(yǔ),完全取決于句子的語(yǔ)義結(jié)構(gòu)。當(dāng)對(duì)一個(gè)新的文檔進(jìn)行分析的時(shí)候,該挖掘模型通過(guò)掃描新文檔、提取出匹配的概念,可以檢測(cè)出該文檔中與之前處理過(guò)的所有文檔相匹配的概念。

        帶標(biāo)注的動(dòng)詞參數(shù)結(jié)構(gòu)是語(yǔ)義角色標(biāo)注的輸出,會(huì)在句子、文檔以及文集等級(jí)別分別進(jìn)行分析。在該模型中,動(dòng)詞和其參數(shù)都認(rèn)為是項(xiàng)目。一個(gè)項(xiàng)目可以視作同一個(gè)句子中的多個(gè)動(dòng)詞的參數(shù)。這就意味著,這些項(xiàng)目在一個(gè)句子中可能會(huì)有多個(gè)語(yǔ)義角色。

        通過(guò)對(duì)文檔進(jìn)行NLP,可以獲取其中的概念。例如,對(duì)于句子“張三打球”,動(dòng)詞是“打”,ARG0是“張三”,ARG1是“球”。這就貼上了語(yǔ)義標(biāo)注。通過(guò)使用語(yǔ)義角色,就可以獲得詞在句子中的內(nèi)容。

        4 挖掘模型實(shí)現(xiàn)

        模型分為以下四個(gè)部分:

        (1)文本預(yù)處理

        從文集中讀出文檔。根據(jù)每個(gè)句子中項(xiàng)目對(duì)應(yīng)的動(dòng)詞數(shù)量,將這些參數(shù)標(biāo)注為ARG0、ARG1、ARG2等。此外,降低文本的維度在進(jìn)行文本挖掘時(shí)也很重要,即去除非必要詞語(yǔ),可以通過(guò)標(biāo)準(zhǔn)停止字列表實(shí)現(xiàn):對(duì)每一個(gè)詞進(jìn)行檢測(cè),如果是一個(gè)停止字,如“的”、“地”、“得”、“啊”、“了”等,就認(rèn)為其是非關(guān)鍵詞并將其移除。

        (2)概念識(shí)別

        通過(guò)第一步,留下來(lái)帶標(biāo)注的待匹配的項(xiàng)目,每個(gè)項(xiàng)目就是一個(gè)概念。概念分析分三種:基于句子的概念分析,基于文檔的概念分析以及基于文集的概念分析。通過(guò)基于句子的概念分析,獲取概念項(xiàng)目頻率(conceptual term frequency,ctf)。通過(guò)基于文檔的概念分析,獲取項(xiàng)目頻率(term frequency,tf),即概念在原始文檔中出現(xiàn)的次數(shù)。通過(guò)基于文集的概念分析,獲取文檔頻率(document frequency,df),用于區(qū)別不同的文檔。

        (3)計(jì)算ctf

        首先,計(jì)算出句子s中的ctf,即句子s的動(dòng)詞參數(shù)結(jié)構(gòu)中概念c出現(xiàn)的次數(shù)。然后,計(jì)算文檔d中概念c的ctf。在一個(gè)文檔d中,對(duì)于每個(gè)概念c,在不同的句子中,可能有多個(gè)ctf,那么,文檔d中概念c的ctf值就通過(guò)如下公式計(jì)算:

        其中,sn為文檔d中包含概念c的句子的總數(shù),ctfn為第n個(gè)句子中概念c的ctf值。

        (4)文檔聚類(lèi)

        聚類(lèi)就是將一組對(duì)象集進(jìn)行分組,這樣每組中的對(duì)象在某種意義上比其他組中的對(duì)象有更多的相似處。聚類(lèi)是探測(cè)性數(shù)據(jù)挖掘的主要工作,統(tǒng)計(jì)分析的常用技術(shù)聚類(lèi)算法有很多,這里采用層次聚類(lèi)和k-最近鄰聚類(lèi)方法[6-8]。層次聚類(lèi)是一種非遞增貪婪聚類(lèi)算法,用來(lái)將原始文檔數(shù)據(jù)進(jìn)行分層。K-最近鄰是一種遞增式的聚類(lèi)算法,對(duì)于每個(gè)新文檔,先算出和所有其它文檔的相似度,然后選取最相近的k個(gè)文檔,并將該新文檔歸入到這k個(gè)文檔所屬類(lèi)中。

        文檔d1和d2相似度的計(jì)算見(jiàn)公式(2)和(3)。其中l(wèi)i1、li2分別為兩個(gè)文檔中動(dòng)詞參數(shù)結(jié)構(gòu)中每個(gè)概念的長(zhǎng)度,Lvi1、Lvi2為包含匹配概念的動(dòng)詞參數(shù)結(jié)構(gòu)的長(zhǎng)度,N為文檔的總數(shù)。

        通過(guò)公式(3)計(jì)算出文檔d中概念i的基于概念的權(quán)值,其中tfweighti的值代表文檔d中概念i在文檔級(jí)別的權(quán)值,ctfweighti代表文檔中概念i根據(jù)其在文檔d中句子語(yǔ)義的組成在句子級(jí)別的權(quán)值。當(dāng)概念i出現(xiàn)在少量的文檔中時(shí),log(N/dfi)補(bǔ)償了其在文集級(jí)別的權(quán)值。tfweighti和ctfweighti的和準(zhǔn)確表達(dá)了每個(gè)概念對(duì)句子語(yǔ)義的構(gòu)成的重要性。通過(guò)公式(3)可以有效地區(qū)別文集中不同的文檔。

        隨著匹配的概念的長(zhǎng)度越接近其動(dòng)詞參數(shù)結(jié)構(gòu)的長(zhǎng)度,公式(2)的值會(huì)更高。因?yàn)樵摳拍畎嚓P(guān)于句子語(yǔ)義的信息。

        在公式(4)中,對(duì)文檔d中項(xiàng)目頻率tfij矢量長(zhǎng)度進(jìn)行了標(biāo)準(zhǔn)化。cn是文檔d中有項(xiàng)目頻率的概念的總數(shù)。

        將模型應(yīng)用于1000篇分別關(guān)于動(dòng)物(350篇)、植物(370篇)、微生物(200篇)以及人文介紹(80篇)的文檔集合中,得到實(shí)驗(yàn)結(jié)果如表1所示:

        表1 實(shí)驗(yàn)結(jié)果

        由于人文類(lèi)別的文檔中包含部分動(dòng)物、植物相關(guān)信息,這三者之間有所混合,出現(xiàn)一定錯(cuò)誤。而微生物類(lèi)別比較突出,能完全識(shí)別??梢?jiàn),該模型的聚類(lèi)準(zhǔn)確率高。

        5 結(jié)語(yǔ)

        文章將NLP和文本挖掘聯(lián)系起來(lái),提出了一個(gè)新的基于概念的挖掘模型。該模型可以改進(jìn)文本聚類(lèi)。通過(guò)利用文檔中句子的語(yǔ)義結(jié)構(gòu),獲得了更好的聚類(lèi)結(jié)果。首先是基于句子的概念分析,通過(guò)ctf分析每個(gè)句子的語(yǔ)義結(jié)構(gòu)來(lái)捕獲句子中的概念;然后是基于文檔的概念分析,利用tf分析文檔層面的每個(gè)概念;再在文集層面,通過(guò)df進(jìn)行文集層面的概念分析;最后,根據(jù)句子語(yǔ)義、文檔主題以及文集中文檔分類(lèi),計(jì)算基于概念的相似度。通過(guò)此方法,可以在文集中進(jìn)行概念匹配、概念相似度計(jì)算。該方法可靠性、準(zhǔn)確率高。通過(guò)此模型進(jìn)行的文本聚類(lèi)準(zhǔn)確率大大超過(guò)了傳統(tǒng)的基于單一項(xiàng)目的方法。該模型尚需進(jìn)行完善,以便用于其他類(lèi)型的文檔聚類(lèi),如Web文檔聚類(lèi)。

        參考文獻(xiàn):

        [1]薛為民,陸玉昌.文本挖掘技術(shù)研究[J].北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2005(04):59-63.

        [2]諶志群,張國(guó)煊.文本挖掘研究進(jìn)展[J].模式識(shí)別與人工智能,2005,18(01):65-74.

        [3]諶志群,張國(guó)煊.文本挖掘與中文文本挖掘模型研究[J].情報(bào)科學(xué),2007(07):1046-1051.

        [4]李生.自然語(yǔ)言處理的研究與發(fā)展[J].燕山大學(xué)學(xué)報(bào),2013,37(05):377-384.

        [5]曹火群.題元角色:句法—語(yǔ)義接口研究[D].上海:上海外國(guó)語(yǔ)大學(xué),2009.

        [6]陳磊磊.不同距離測(cè)度的K-Me a n s文本聚類(lèi)研究[J].軟件,2015,36(01):56-61.

        [7]奚雪峰,周?chē)?guó)棟.面向自然語(yǔ)言處理的深度學(xué)習(xí)研究[J].自動(dòng)化學(xué)報(bào),2016,42(10):1445-1465.

        [8]曹曉.文本聚類(lèi)研究綜述[J].情報(bào)探索,2016(01):131-134.

        猜你喜歡
        概念分析文檔語(yǔ)義
        科幻與科普的關(guān)系:基于歷史文獻(xiàn)和概念分析的討論
        有人一聲不吭向你扔了個(gè)文檔
        語(yǔ)言與語(yǔ)義
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        “有無(wú)對(duì)比法”在經(jīng)濟(jì)評(píng)價(jià)中的運(yùn)用及相關(guān)概念分析
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        認(rèn)知范疇模糊與語(yǔ)義模糊
        基于形式概念分析探討《傷寒論》中蔥白止利功效的新發(fā)現(xiàn)
        中國(guó)共產(chǎn)黨執(zhí)政道路相關(guān)概念分析
        国产真实夫妇交换视频| 国产精品久久婷婷六月丁香| 日韩精品久久中文字幕| 美女把尿囗扒开让男人添| 亚洲日本va中文字幕久久| 蜜桃av无码免费看永久| 国产91精品一区二区麻豆亚洲| 久久久久88色偷偷| 精品无码中文视频在线观看| 91精品国产91久久久久久青草| 久久精品国产亚洲av沈先生 | 极品美女扒开粉嫩小泬图片| 8av国产精品爽爽ⅴa在线观看| 亚洲成人免费无码| 一级a免费高清免在线| 嫩草伊人久久精品少妇av| 久久中文字幕无码专区| 国产熟女精品一区二区三区| 国产影片免费一级内射| 中国女人内谢69xxxxxa片| 久久精品一区二区三区av| 亚洲AⅤ樱花无码| 91精品人妻一区二区三区水蜜桃| 日本阿v片在线播放免费| 日本高清一区二区三区水蜜桃| 偷拍女厕尿尿在线免费看| 国产精品午夜夜伦鲁鲁| 亚洲精品无码久久久久牙蜜区 | 国产福利一区二区三区在线观看| 国产va精品免费观看| 亚洲中文字幕在线第六区| 日韩av无码久久一区二区| 一个人看的www免费视频中文| 亚洲国产精品免费一区| 亚洲女优中文字幕在线观看| av一区二区三区人妻少妇| 亚洲地区一区二区三区| 91久久精品美女高潮喷白浆| 国产午夜福利在线观看红一片| 国产精品亚洲欧美天海翼| 在线亚洲国产一区二区三区|