雷亞莉
(海南軟件職業(yè)技術(shù)學(xué)院 海南 瓊海 571400)
檔案文獻(xiàn)主題探測方法探討
雷亞莉
(海南軟件職業(yè)技術(shù)學(xué)院 海南 瓊海 571400)
本文主題探測是以檔案類文獻(xiàn)作為文本集,以文本數(shù)據(jù)挖掘(Text Mining)的方式來對文本集進(jìn)行處理。文章主要對文本分類和文本聚類的常用方法做了簡單的概括,并提出了基于主題模型的檔案文獻(xiàn)主題探測方法。
檔案文獻(xiàn);主題探測;主題模型
隨著目前科技文獻(xiàn)資源的大量增長,檔案類文獻(xiàn)的資源也在突飛猛進(jìn)的增長,但對于大量的文獻(xiàn)資源,要能更精確的找到我們所需要的信息卻變得難上加難。主題探測(Topic Detection,作為一項旨在幫助人們應(yīng)對信息過載問題的研究,其研究目標(biāo)是要實現(xiàn)按主題查找、組織和利用來自多種媒體的多語言信息[1]。
傳統(tǒng)的科技文獻(xiàn)分類方法都是基于文本分類的,這些方法是對給定的文本,根據(jù)其內(nèi)容自動或手動地加上一個類別標(biāo)簽,通過給定的訓(xùn)練集,用某種方法構(gòu)建文本特征與文本類別之間的關(guān)系模型,再利用這個關(guān)系模型對新的未知類別文本進(jìn)行類別訓(xùn)練。
1.1 基于簡單向量距離的分類法
簡單向量距離分類法的主要思想,是首先確定新文本的向量,然后根據(jù)尚未分類的文本向量與每個類別中心向量的距離來判斷此文本屬于哪個類別,確定新文本向量的前提是:先根據(jù)算術(shù)平均為每類文本集生成一個代表該類的中心向量[2]。
簡單距離向量分類法實現(xiàn)簡單,分類的復(fù)雜度也不高,其缺點也很明顯:直接使用特征空間的特征分布,受訓(xùn)練文本中的噪聲影響較大,同時對分布不規(guī)則的數(shù)據(jù),能夠取得的效果是很有限的。
1.2 K 近鄰法(K-Nearest Neighbor)
KNN最初由Cover和Hart于1968年提出,是一個理論上比較成熟的方法,其分類方式是通過查詢已知類別文本的情況,來判斷新文本與已知文本是否屬于同一類。算法的基本思想是:首先給定新文本,然后在訓(xùn)練文本集中找出與新文本距離最近的文本,依據(jù)找出的最近距離文本的類別,來判定新文本所屬的類別。
KNN方法相對簡單,易于實現(xiàn),用于基于統(tǒng)計的模式識別中非常有效,并且對于未知和非正態(tài)的分布能夠取得比較高的分類準(zhǔn)確率。但對于樣本分布依賴性較大,當(dāng)樣本分布不均勻時,可能造成一定的偏向性。
1.3 貝葉斯分類法
貝葉斯分類方法在使誤判率或風(fēng)險最小的問題上是很有意義的。它是將研究對象的先驗概率來作為輔助判斷,這樣做可以使結(jié)論更精確的得到分析。但由于貝葉斯分類器的前提是需要已知條件概率,而且它的決策面比較復(fù)雜,因此在計算和構(gòu)造方面是相對困難的[26]。
貝葉斯分類的優(yōu)點在于算法邏輯簡單,易于實現(xiàn),并且算法穩(wěn)定。但其也有缺陷,就是在其獨立性假設(shè)時,在許多實際中并不能夠成立,這樣會引起分類的誤差。
對比試驗板選擇在相同的工況環(huán)境下進(jìn)行焊接,最終經(jīng)無損檢測合格后進(jìn)行理化檢測試驗,檢測內(nèi)容包括焊縫金相顯微組織、拉伸試驗、沖擊試驗、焊接接頭硬度。
1.4 支持向量機(SVM)
支持向量機(Support Vector Machine,SVM)是統(tǒng)計學(xué)概念上一個有監(jiān)督的學(xué)習(xí)方法,在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出特有的優(yōu)勢。這種方法是針對線性可分情況進(jìn)行分析,通過尋找最優(yōu)線性分類面來減小對新文檔的誤分概率[3]。
作為一種無監(jiān)督的機器學(xué)習(xí)方法,文本聚類是在給定的某種相似性度量下,把對象集合進(jìn)行分組,使得相似的對象能夠分到同一個組內(nèi)。其方法通常是利用向量空間模型,將文本轉(zhuǎn)換成高維空間中的向量,然后對這些向量進(jìn)行聚類。因此,影響文本聚類結(jié)果的因素除了文檔聚類算法的選擇外,還包括語義問題和降維問題。
2.1 基于劃分的方法
劃分法(Partitioning Method)也稱分裂法,其基本原理是:首先得到初始的k個劃分,然后通過迭代,將文檔從一個中間類轉(zhuǎn)移到另一個類中,以改進(jìn)聚類的質(zhì)量。代表性算法有K-means算法、k-中心點、CLARA、CLARANS等。
2.2 基于層次的方法
典型的層次聚類方法包括:CURE(ClusteringUsingREprisentatives) 方法、ROCK 方法、Chameleon、BIRCH (Balances Iterative Reducingand ClusteringusingHierarchies)方法等。
2.3 基于模型的方法
基于模型的方法(Model-based methods)是從文本集合中學(xué)習(xí)一個模型,每個模型代表一個文本類,并優(yōu)化給定的數(shù)據(jù)和數(shù)學(xué)模型之間的適應(yīng)性。它的一個潛在的假定就是:目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的。典型的基于模型的方法有:統(tǒng)計方法COBWEB和CLASSIT。
2.4 基于網(wǎng)格的方法
基于網(wǎng)格的算法(Grid-based methods)首先將數(shù)據(jù)空間劃分成為有限個單元的網(wǎng)格結(jié)構(gòu)(所有的處理都是以單個的單元為對象的),然后利用網(wǎng)格結(jié)構(gòu)完成聚類。其優(yōu)點是處理速度比較快,通常與目標(biāo)數(shù)據(jù)庫中記錄的個數(shù)無關(guān),只與將數(shù)據(jù)空間所分的單元數(shù)量有關(guān)。代表性算法有:STING(STatistical INformation Grid)算法、CLIQUE(ClusteringIn QUEst)算法、WAVE-CLUSTER 算法。
2.5 基于密度的方法
為了發(fā)現(xiàn)任意形狀的聚類結(jié)果,提出了基于密度的方法(Density-based methods)。這類方法將簇看作是數(shù)據(jù)空間中被低密度區(qū)域分割開的高密度區(qū)域。只要一個區(qū)域中點的密度大于某個閥值,就將其加到與之相近的聚類中去。代表的算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。
基于主題模型的檔案文獻(xiàn)主題探測,初步提出了將LDA主題模型運用到檔案主題探測中。
使用LDA主題模型,旨在更好的獲取文本的主題。主題模型采用了概率分析的方法,和以往其他模型的統(tǒng)計方法有著很大的不同。而LDA是服從于Dirichlet分布的概率模型,使得文本、主題、單詞在模型超參數(shù)上有了不同的發(fā)生概率,LDA主題模型的提出,使文本不再局限于與主題一一對應(yīng),并且給出了文本在各個主題上的概率分布。
文本數(shù)據(jù)挖掘方法一直是數(shù)據(jù)挖掘工作人員不斷探索的重要內(nèi)容,而主題探測能夠很好的幫助我們解決“信息過載”的現(xiàn)象。本文概述了文本挖掘的常用方法,并提出了最新主題模型LDA,將其運用到檔案文獻(xiàn)主題探測中,目前正對其方法做進(jìn)一步的測試,將其與常用的文本分類或文本聚類方法做比較。
[1]李保利,俞士汶.話題識別與跟蹤研究[J].計算機工程與應(yīng)用.2003(17):7-10.
[2]龐劍峰,基于向量空間模型的自反饋的文本分類系統(tǒng)的研究與實現(xiàn)[D].中科院計算所碩士論文.2001.
[3]T.Joachims.Text categorization with support Vector machines:Learning with many relevant features[C].Lecture Notes in Computer Science,1998,(1398):137-142.
雷亞莉,女,1986.3.17,陜西韓城人,碩士,2013.11畢業(yè)于中山大學(xué)軟件學(xué)院,現(xiàn)從事數(shù)據(jù)挖掘與計算機教學(xué)及研究工作。