亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本情報信息篩選與聚類的一種處理方法

        2017-03-18 02:25:04李陽杜垚
        火力與指揮控制 2017年2期
        關(guān)鍵詞:特征選擇文檔次數(shù)

        李陽,杜垚

        (1.中國農(nóng)業(yè)銀行山西省分行,太原030024;2.晉中學(xué)院,山西晉中030619)

        文本情報信息篩選與聚類的一種處理方法

        李陽1,杜垚2

        (1.中國農(nóng)業(yè)銀行山西省分行,太原030024;2.晉中學(xué)院,山西晉中030619)

        目前大數(shù)據(jù)時代情況下的信息有文本、圖像、語音和視頻等多種形式,而且信息的容量非常大,怎樣高效、正確地篩選、分類和處理、利用這些信息,為決策者提供指揮與控制的科學(xué)依據(jù)顯得尤為重要。據(jù)此對文本情報信息提出了一種文本聚類的特征選擇以及特征變換的方法,利用單詞在文本中的出現(xiàn)次數(shù)的概率來選擇參與聚類的單詞,并且對單詞出現(xiàn)概率模型定義了特征變換函數(shù),提高了文本信息的篩選、分類和處理的精度,能快速、準(zhǔn)確地提取所需要的情報信息提供給指揮與控制的決策者參考、使用。

        信息,文本,聚類,處理

        0 引言

        目前,大數(shù)據(jù)時代情況下的信息有文本、圖像、語音和視頻等多種形式,而且信息的容量非常大,怎樣高效、正確地篩選、分類和處理、利用這些信息,為當(dāng)事件的決策者提供指揮與控制的科學(xué)依據(jù)顯得尤為重要。

        本文對文本情報信息提出了一種文本聚類的特征選擇以及特征變換的方法,利用單詞在文本中的出現(xiàn)次數(shù)的概率來選擇參與聚類的單詞,并且對單詞出現(xiàn)概率模型定義了特征變換函數(shù),提高了文本信息的篩選、分類和處理的精度,能快速、準(zhǔn)確地提取所需要的情報信息提供給指揮與控制的決策者參考、使用。

        在文本分類中,特征選擇與特征變換的好壞直接影響到聚類的結(jié)果。在文本分類的特征選擇和特征變換中,雖然至今提出了IDF、TI、TfV等方法,但文本分類的精度仍有待提高,本文提出了使用表現(xiàn)單詞在文檔中出現(xiàn)次數(shù)的概率的K-mixture模型來進行特征選擇和特征變換的方法。在特征選擇階段,使用K-mixture模型計算出的單詞出現(xiàn)0次(即單詞在文本中不出現(xiàn))的概率來篩選參與聚類的單詞。并在特征變換階段,使用本文定義的函數(shù)來進行特征變換。最后使用經(jīng)過特征變換的向量來進行聚類。

        1 現(xiàn)存方法介紹

        1.1 特征選擇方法介紹

        特征選擇主要有Document Frequency(DF),mean Tfidf(TI),Term Frequency Variance(TfV)等方法。在這3種主流特征選擇方法中,TI與TfV的精度基本相當(dāng),高于DF[1]。由于相對于TfV,TI的實現(xiàn)簡單且計算量較少。故本文使用TI作為比較對象。1.1.1Document Frequency

        DF是在特征選擇中較為常用的一種特征選擇方法。定義如下:

        在由m個單詞構(gòu)成的n個文檔的文檔集X中。單詞t的DFt為出現(xiàn)單詞t的文檔的個數(shù)。在特征選擇中,選擇DF值高的前k個單詞。

        1.1.2 Mean TfIdf

        將文檔集中的文檔作為向量dj。每個單詞t針對文檔dj的tfidf為:

        其中:

        這里的Tr為文檔集中的文檔數(shù),DFt為單詞t的DF,tj為單詞t在文檔dj中的TF。之后求單詞的全文檔的平均tfidf,作為TI。

        1.1.3 Term Frequency Variance

        TfV的定義如下:

        其中,tfj的定義與Mean TfIdf相同。

        1.2 聚類方法介紹

        1.2.1 K-means

        K-means是非層次聚類方法中的代表方法。K-means將聚類的中心作為代表點。求解下式的最小值作為聚類的最優(yōu)解:

        式中,k為聚類的個數(shù),Ci為第i個聚類,D求解距離的函數(shù)。

        K-means的算法表示如下:

        步驟1隨機選擇k個代表點c1,c2,...,ck。

        步驟2對所有文檔,將其分配到使得D(x,ci)最小的代表點。

        步驟3如果代表點的分配沒有發(fā)生變化,終止。否則將各聚類的重心作為代表點,并跳轉(zhuǎn)到步驟2。

        1.2.2 MMC

        MMC是2005年提出的通過使用SVM來求解使得間隔最大化的超平面來聚類的方法。SVM是“Support Vector machine”的簡稱,是學(xué)習(xí)器的一種。MMC通過使用SVM來尋找使得間隔最大的聚類結(jié)果。即對于數(shù)據(jù)x1,...,xN,尋找使得聚類間距離最大的聚類結(jié)果yi∈{-1,+1}。即求解以下公式的最優(yōu)解:

        1.3 單詞出現(xiàn)次數(shù)概率模型

        描述單詞出現(xiàn)次數(shù)的概率模型,目前主要提出了Poisson模型,Two Poisson模型,K-mixture模型以及Negative Binomial模型。詳述如下:

        1.3.1 Poisson模型

        Poisson模型是通過兩個參數(shù)調(diào)節(jié)泊松分布來近似單詞在文章中出現(xiàn)次數(shù)的模型。公式如下:

        1.3.2 Two Poisson模型

        Two Poisson模型的定義如下:

        其中,PrE(k)是單詞出現(xiàn)k詞的文檔的比率。

        1.3.3 K-mixture模型

        Katz針對單詞的出現(xiàn)次數(shù)的概率,提出了數(shù)個模型[2]。其中的2參數(shù)模型被稱為k-mixture模型。K-mixture模型中,假定單詞在文本中反復(fù)出現(xiàn)的條件概率由衰減系數(shù)決定。對于單個單詞k回出現(xiàn)的概率PrK(k)由以下的公式可以計算得出:

        即:

        其中,cf為文檔集中單詞的出現(xiàn)次數(shù),df為單詞出現(xiàn)的文檔數(shù)。n為全部的文檔數(shù)。

        1.3.4 Negative Binomial模型

        Negative Binomial模型是使用負二項分布來近似單詞出現(xiàn)次數(shù)的概率的模型。該模型的公式定義如下:

        1.3.5 比較

        在文獻[3]的研究中,比較了在文檔庫中said一詞實際出現(xiàn)次數(shù)的比率以及上述3種模型的預(yù)測值。結(jié)果如圖1所示。圖中,K代表K-mixture,NB代表Negative Binomial。由圖中可以看出。K-mixture更好的近似了單詞出現(xiàn)次數(shù)的概率。因此,本文中使用K-mixture來作為近似單詞出現(xiàn)次數(shù)的概率模型。

        圖1 said一詞在文檔中的出現(xiàn)次數(shù)以及模型預(yù)測值的比較

        2 本文方法

        2.1 特征選擇

        本文提出的方法中,使用K-mixture計算出的PrK(0)(即單詞在文檔中不出現(xiàn)的概率)的值作為特征選擇的依據(jù),從中選擇PrK(0)值大于0.90,小于0.98的單詞中。原因為:單詞主要分為對文檔內(nèi)容影響較大的名詞、動詞、形容詞,以及對文檔內(nèi)容影響較小的副詞等語法功能詞。對文檔內(nèi)容影響較小的語法功能詞一般來講其在各篇文檔中的分布較為均勻,而對文檔內(nèi)容影響較大的詞則在各篇文檔中的分布有明顯的偏向性。因此,PrK(0)值越小,則表明單詞對文檔的內(nèi)容影響較小。PrK(0)越大,則表明單詞對文檔的內(nèi)容影響較大。通過觀察實際的統(tǒng)計值0.90是一個較好的分界線。同時,由于文檔中存在噪音等原因。PrK(0)值最大的一部分詞是文檔中的一些數(shù)字等沒有實際意義的詞。為避免這些詞影響聚類結(jié)果,需要過濾掉。通過觀察統(tǒng)計值。0.98是一個較好的分界線。因此,在特征選擇中選擇PrK(0)值在0.90與0.98區(qū)間的詞。

        2.2 特征變換

        由于在文檔中,一個詞出現(xiàn)與不出現(xiàn),對于文檔內(nèi)容的影響較大,而隨著詞在文檔中出現(xiàn)次數(shù)的增加,這個詞對文檔內(nèi)容的影響逐漸遞減。并且根據(jù)上節(jié)中所述。根據(jù)PrK(0)值的不同。單詞對文檔意義的影響大小也不同。因此,定義了函數(shù)V來模擬單詞對文檔內(nèi)容影響程度的曲線。函數(shù)V的定義如下:

        其目的為,通過K-mixture模型來拉大單詞不出現(xiàn)與單詞出現(xiàn)之前的距離,而逐級縮小單詞出現(xiàn)一次以上各出現(xiàn)次數(shù)的距離。如圖2所示。

        圖2 單詞出現(xiàn)次數(shù)經(jīng)過V函數(shù)變換的演示

        3 實驗與結(jié)果

        3.1 評價方法

        本文中使用F值來驗證聚類結(jié)果的優(yōu)劣。F值原本作為信息檢索的評估指標(biāo)提出,其綜合準(zhǔn)確率與召回率來評估結(jié)果。F值的計算公式如下:

        在聚類結(jié)果評估中,針對各聚類和各結(jié)果集計算F值,選擇針對結(jié)果集最高的F值,并求平均值。

        3.2 實驗數(shù)據(jù)

        為了驗證本文提案方法的普適性,本文同時使用了英文和中文的語料庫進行了實驗。使用20newsgroups作為英文語料實驗數(shù)據(jù),20newsgroups中包含了20個主題的英文新聞文檔,每個主題中包含600到1 000篇文章。為了測試混合了相近的主題和較大差異主題時的聚類結(jié)果,從中選擇了rec下的autos、motorcycles、baseball、hockey 4個主題。使用THUCNews作為中文語料實驗數(shù)據(jù),THUCNews中包含14個主題的中文新聞,同英文語料相同,為了測試混合了相近的主題和較大差異主題時的聚類結(jié)果,選擇了股票、財經(jīng)、科技、教育4個主題。

        3.3 實驗結(jié)果

        特征選擇和特征變換階段分別使用TI和本文中的方法對實驗數(shù)據(jù)進行處理。處理后的數(shù)據(jù)使用K-means或MMC進行聚類。聚類后使用3.1中所描述的方法統(tǒng)計F值。最后得到的實驗結(jié)果如表1及表2所示:

        表120 newsgroups聚類實驗結(jié)果

        表2 THUCNews聚類實驗結(jié)果

        從表1中可以看出。無論是結(jié)合K-means,還是結(jié)合MMC進行聚類,在中英文語料上本方法都較傳統(tǒng)方法有明顯的提升。

        4 結(jié)論

        由于不論是結(jié)合K-means,還是結(jié)合MMC算法進行聚類,本方法都較傳統(tǒng)方法在F值上有明顯提升,故驗證了本方法的有效性以及針對不同聚類算法的普遍適應(yīng)性。

        文本信息是信息的一個重要分類,本文的研究可對文本信息進行篩選處理,在目前大數(shù)據(jù)的環(huán)境下,高速與高精度的文本信息分類處理具有很強的現(xiàn)實意義。在指揮與控制活動中,對收集到的文本信息情報進行快速且高精度的處理,能夠為指揮人員提供準(zhǔn)確的決策依據(jù)。提高指揮與控制的時效性與準(zhǔn)確性,可使軍用、民用的指揮與控制活動更及時、更準(zhǔn)確。

        [1]TANG B,SHEPHERD M,MILIOS E,et al.Comparing and combining dimension reduction techniques for efficient text clustering[J].Workshop on Feature Selection for Data Mining,2005:17-26,

        [2]SLAVAM K.Distribution of content words and phrases in text and language modelling[J].Natural Language Engineering,1996,3(1):15-59.

        [3]KENNETH W.CHURCH,WILLIAM A.Poisson Mixtures[J].Natural Language Engineering,1995,2(1):163-190.

        [4]CHEN X G,YIN W S,TU P H,et al.Weighted k-means algorithm based text clustering[C]//International Symposium on Information Engineering and Electronic Commerce,2009.

        A Text Clustering Method Using Word Appearance Probability

        LI Yang1,DU Yao2
        (1.Shanxi Branch,Agricultural Bank of China,Taiyuan 030024,China;2.Jinzhong University,Jinzhong 030619,China)

        Currently,in the big data era,information includes text,image,voice and video etc,and the volume of information is extremely large.So how to filter,classify,processing and use these information efficiently,and offering support for command and control becomes very import.As this,the proposed method which is a feature selection and feature transform method,uses the“word appearance probability”to select which term will be used as a feature while clustering and then convert word appearance frequency to a value calculated by a proposed function which defined with“word appearance probability”.The precision of filtering classify and processing for text information is improved,which can offering the information required by decision-maker fast and precise

        information,text,clustering,processing

        X913.3

        A

        1002-0640(2017)02-0172-04

        2016-01-13

        2016-03-08

        李陽(1984-),男,山西運城人,碩士研究生。研究方向:機器學(xué)習(xí)、自然語言處理。

        猜你喜歡
        特征選擇文檔次數(shù)
        機場航站樓年雷擊次數(shù)計算
        2020年,我國汽車召回次數(shù)同比減少10.8%,召回數(shù)量同比增長3.9%
        商用汽車(2021年4期)2021-10-13 07:16:02
        有人一聲不吭向你扔了個文檔
        一類無界算子的二次數(shù)值域和譜
        依據(jù)“次數(shù)”求概率
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        基于RI碼計算的Word復(fù)制文檔鑒別
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        女同成片av免费观看| 国产激情久久久久影院老熟女| 国产乱妇乱子视频在播放| 成人亚洲欧美久久久久| 亚洲女同人妻在线播放| 久久久精品久久久久久96| 男人j进女人j啪啪无遮挡| 超碰Av一区=区三区| 日韩精品综合在线视频| 亚洲av免费手机在线观看| 黑人巨大无码中文字幕无码| 美女裸体无遮挡免费视频的网站| 性久久久久久久| 亚洲国产成人AⅤ片在线观看| 搞黄色很刺激的网站二区| 男吃奶玩乳尖高潮视频| 成年无码av片完整版| 99JK无码免费| 国产自拍av在线观看| 亚洲人成欧美中文字幕| 中文字幕亚洲乱码熟女一区二区| 欧美一级鲁丝片免费一区| 久久老熟女一区二区三区福利| 久久午夜无码鲁丝片午夜精品| 国产欧美日韩在线观看| 日韩精品国产一区在线| 国产精品第一二三区久久| 色一情一乱一伦麻豆| 亚洲欧美日本| 国产亚洲AV片a区二区| 精品一区二区三区婷婷| 草草浮力影院| 亚洲国产一区在线二区三区| 日本一级二级三级在线| 强开小婷嫩苞又嫩又紧视频| 亚洲熟女乱色一区二区三区| 久久HEZYO色综合| 久久久精品人妻一区二区三区妖精 | 欧美日韩视频在线第一区| 女人体免费一区二区| 人妻少妇被猛烈进入中文|