亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多特征選擇的聚類(lèi)方法研究

        2017-09-07 11:49:02馬元元

        馬元元

        摘要:特征選擇是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域中聚類(lèi)分析的一種常用分析處理方式,目前已廣泛運(yùn)用于文本資源分類(lèi)和數(shù)據(jù)集的聚類(lèi)中,在未被標(biāo)記的資源集處理環(huán)境中,讓計(jì)算機(jī)自己學(xué)習(xí)使用一些特征相關(guān)度量的選擇方法??偨Y(jié)了一種基于多特征選擇算法的聚類(lèi)方法(MFSC),在資源集中,對(duì)多特征進(jìn)行聚類(lèi)特征方法選擇、分類(lèi),將關(guān)系相關(guān)性較強(qiáng)的劃分為同類(lèi)簇群,再依次從每個(gè)簇群中輪詢特征代表性較強(qiáng)的歸為一類(lèi)集合,最終達(dá)到去除弱依賴(lài)特征和特征冗余的結(jié)果。實(shí)驗(yàn)證明MFSC特征集約效果較高、性能較穩(wěn)定。

        關(guān)鍵詞:特征選擇;多特征;聚類(lèi);MFSC

        中圖分類(lèi)號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)05-0139-03

        Clustering Research Based on Multiple Feature Selection

        Ma Yuanyuan

        (Information Engineering School, Zhongshan Polytechnic, Zhongshan Guangdong 528404)

        Abstract:feature selection is the clustering analysis of data mining and machine learning in the field of a common analysis method, has been widely used in text classification and clustering of resource data sets, in the unlabeled set of resources processing environment, let the computer choose their own learning methods using some characteristics related to measure. To explore and summarize a multiple feature selection algorithm (MFSC) feature selection and clustering method, which use the characteristic interval intermediate key single feature clustering, clustering method which features the concentration of resources in the feature selection classification, divides the relationship is strong for the same cluster, then from each cluster in the polling feature representative is classified as a class set, to remove the weak dependence and feature redundancy results. Experimental results show that the MFSC feature is highly effective and stable.

        Key Words:Feature selection;Multi feature;Clustering;MFSC

        1 引言

        近年來(lái),隨著大數(shù)據(jù)、云計(jì)算、人工智能等前沿技術(shù)的廣泛應(yīng)用,互聯(lián)網(wǎng)龐大的信息的處理和使用,成為了廣大業(yè)內(nèi)學(xué)者研究的重要課題之一。這類(lèi)課題研究都產(chǎn)生于標(biāo)記資源集的數(shù)據(jù)處理中,對(duì)未知或者說(shuō)未標(biāo)記的資源集的處理研究則顯得相對(duì)薄弱。其原因是因?yàn)椋海?)未標(biāo)記資源集特征選擇是基于計(jì)算機(jī)自我學(xué)習(xí)和自我提升處理能力的;(2)未標(biāo)記資源集特征選擇是利用上下文(一組帶屬性的有序序列),進(jìn)行自我對(duì)象認(rèn)知和激活的過(guò)程,要求是自動(dòng)服務(wù),如同步數(shù)據(jù)到資源庫(kù)、實(shí)時(shí)激活、事物的再處理的過(guò)程中充滿了許多不確定性,獲取的結(jié)果也難以驗(yàn)證和解釋。本文對(duì)多特征選擇聚類(lèi)算法(Multiple feature selection clustering algorithm)進(jìn)行研究,以降低特征空間維數(shù)、提升聚類(lèi)的效果[1]。

        2 文本分類(lèi)的相關(guān)技術(shù)

        聚類(lèi)在web文本數(shù)據(jù)的歸類(lèi)中作為一種手段,利用的是計(jì)算機(jī)的自我分析和聚合。例如兩個(gè)職員對(duì)音樂(lè)有興趣,一個(gè)喜歡哲學(xué),一個(gè)喜歡運(yùn)動(dòng)。這些數(shù)據(jù)并沒(méi)有被預(yù)先計(jì)算好,它們是實(shí)時(shí)的從匹配查詢語(yǔ)句的文檔中動(dòng)態(tài)計(jì)算生成的。首先將文本中挖掘的數(shù)據(jù)集分成若干個(gè)數(shù)據(jù)簇,要求有較強(qiáng)的依賴(lài)和相關(guān)性,而不同的數(shù)據(jù)簇相關(guān)性盡可能的小,然后對(duì)文本進(jìn)行聚類(lèi)分析后的分類(lèi)信息可作為對(duì)用戶行為相似度的分析[2]。

        通常對(duì)文本數(shù)據(jù)采用向量空間標(biāo)記來(lái)進(jìn)行聚類(lèi)描述。在這一設(shè)計(jì)模型中,每一單詞都作為特征空間中的一維坐標(biāo)系,而每一文本的數(shù)據(jù)簇作為一個(gè)向量。這種分析方法雖然簡(jiǎn)單和直接,但是在多維稀疏矩陣文本聚類(lèi)中,效率和性能卻很難讓人滿意。

        為了解決上述問(wèn)題,我們通過(guò)特征選擇來(lái)進(jìn)行分級(jí)匯總進(jìn)行特征值的降序排序,根據(jù)標(biāo)記和未標(biāo)記資源集的特征選擇進(jìn)行分類(lèi)。比如,在對(duì)文檔的聚類(lèi)中,文檔歸屬于一種類(lèi)型(type),而這些聚類(lèi)分析后的類(lèi)型存在于索引(index)中,我們對(duì)其中的字段(fields)進(jìn)行搜索,步驟如下所示:

        Relational DB -> Databases -> Tables -> Rows -> ColumnsSearch -> Indices -> Types -> Documents -> Fields

        3 特征選擇聚類(lèi)算法研究endprint

        在未標(biāo)記的數(shù)據(jù)集中,數(shù)據(jù)的特征并不是孤立表現(xiàn)的,而是相關(guān)聯(lián)的表現(xiàn)相似特征,這就構(gòu)成了多特征的集。針對(duì)這些在區(qū)分類(lèi)別時(shí)存在的冗余現(xiàn)象,本文提出了基于上下文多特征選擇的聚類(lèi)算法。主要思想是根據(jù)數(shù)據(jù)集表現(xiàn)的特征的相似度,對(duì)相似屬性類(lèi)的特征進(jìn)行聚類(lèi)匯總,然后在每個(gè)簇群中選擇一個(gè)特征作為主鍵,簇群中的其他特征從候選特征集中標(biāo)記為外鍵或?qū)σ蕾?lài)性弱的進(jìn)行剔除,這樣保證特征集的相對(duì)獨(dú)立性、降低高冗余度,進(jìn)而對(duì)剩余的特征進(jìn)行信息篩選后特征歸類(lèi)。

        3.1 特征區(qū)間的選擇

        我們以web文本為例,對(duì)于DocType類(lèi)型的文本中的每一特征作為一類(lèi)的特征區(qū)間。如文檔內(nèi)容、URI和web的訪問(wèn)日志,對(duì)于文檔內(nèi)容和URI我們可以用向量區(qū)間模型表示,通過(guò)對(duì)語(yǔ)義的劃分表示權(quán)值。但對(duì)于用戶訪問(wèn)過(guò)的log信息,如果沒(méi)有定義信息來(lái)源類(lèi)別,將得不到任何關(guān)于詞分類(lèi)的信息。因此引入了一種從開(kāi)發(fā)到用戶使用之間的關(guān)系向量。

        假設(shè)日志信息包含了m個(gè)上下文樣本記錄和n個(gè)查詢特征,特征集F可表示為:

        F=,(1≤K≤n).K指的是特征集,F(xiàn)進(jìn)行聚類(lèi)時(shí)被劃分了K個(gè)不同的特征簇。

        對(duì)于特征選擇后的聚類(lèi),不確定性是特征評(píng)價(jià)的指標(biāo),它也是針對(duì)計(jì)算機(jī)信息增減變化的度量指標(biāo)和依賴(lài)程度,可以理解為數(shù)據(jù)簇之間共同相似的信息含量。如果用ω表示web頁(yè)面的上下文本記錄,j表示查詢次的訪問(wèn)過(guò)的頁(yè)面,表示特征向量的空間。

        V(ω) =

        則可以利使用以上公式計(jì)算每個(gè)web頁(yè)面的特征向量空間,對(duì)每個(gè)特征區(qū)間進(jìn)行聚類(lèi)匯總了。

        3.2 多特征選擇聚類(lèi)算法(MFSC)

        在聚類(lèi)的選擇特征中,對(duì)特征類(lèi)型的分類(lèi)是一個(gè)反復(fù)進(jìn)行的過(guò)程,首先對(duì)探測(cè)到的未標(biāo)記的數(shù)據(jù)集進(jìn)行相關(guān)度計(jì)算并形成類(lèi)別區(qū)間,基于多特征選擇聚類(lèi)的算法,會(huì)在此基礎(chǔ)上進(jìn)行降序特征排序,然后通過(guò)聚類(lèi)算法在不同的子空間中檢索數(shù)據(jù)簇,確定標(biāo)記主鍵,然后形成特征子集的特征簇群。其處理過(guò)程如圖1所示。

        在實(shí)際的應(yīng)用中,多特征選擇聚類(lèi)算法充分利用文本的多特征特性,為特征類(lèi)的聚集確定主鍵,并進(jìn)行分離出具有代表性的特征子集,這樣在得到不同類(lèi)別的類(lèi)集后,在各個(gè)類(lèi)集上進(jìn)行特征選擇并利用合并函數(shù)得到結(jié)果集。設(shè)M表示每個(gè)特征區(qū)間的數(shù)據(jù)集,代表一維的特征向量,代表聚類(lèi)選擇的第i個(gè)特征區(qū)間,CF代表合并的函數(shù)。那么算法程序的偽代碼可以表示為:

        for (n iterations of clustering) {

        for (M feature character) {

        Do clustering in feature char m

        }

        for (M feature character) {

        for feature character m, do feature index using results in all freature character;

        then

        to combined score

        f(x) = Voting(value())

        }

        }

        其中,在程序代碼的實(shí)現(xiàn)中利用到的算法,可以具體表示為:

        Voting(value)

        = (1)

        公式(1)中,value可以用3.1節(jié)中標(biāo)記資源集的特征選擇聚集函數(shù)公式來(lái)計(jì)算,st是特征選擇的閥值,可以通過(guò)以往統(tǒng)計(jì)的數(shù)據(jù)推出設(shè)定值。從算法中,我們可以發(fā)現(xiàn)基于上下文進(jìn)行多特征選擇的聚類(lèi)方法在聚類(lèi)時(shí)是利用主鍵的方式進(jìn)行表示,采用分類(lèi)別的簇間的不同性選擇特征子集。在每一次特征集簇群選擇后,聚類(lèi)都會(huì)重新降序排列匯總,得到一組高聚類(lèi)的特征子集。

        3.3 實(shí)驗(yàn)結(jié)果比較

        對(duì)于特征選擇算法的評(píng)估,我應(yīng)考慮到:(1)特征分類(lèi)所獲的結(jié)果相同時(shí),子集的區(qū)間距離越短,其性能越優(yōu);(2)在大數(shù)據(jù)集測(cè)試時(shí),特征分類(lèi)的越穩(wěn)定,其算法越好。

        表1和表2分別對(duì)比了Raw(特征全集)、TS、FCBF、FSFC、MFSC等算法,在K-Means和Nave bayes分類(lèi)器的分類(lèi)結(jié)果,并由實(shí)驗(yàn)結(jié)果可以看出:(1)MFSC算法結(jié)果正態(tài)分布的穩(wěn)定性;(2)MFSC在未標(biāo)記數(shù)據(jù)集上的分類(lèi)用時(shí)是高于其他特征方法的,其原因在于多特征的選擇的分量,類(lèi)區(qū)間內(nèi)距離分量相比其他更小。(3)MFSC在數(shù)據(jù)集上的分類(lèi)上,由于特征選擇的子集區(qū)間分量較小,準(zhǔn)確率相比其他更高和錯(cuò)誤率更低[3]。

        4 結(jié)論

        本文提出一種在未被標(biāo)記的資源集處理環(huán)境中,讓計(jì)算機(jī)自己學(xué)習(xí)使用多特征相關(guān)的選擇聚類(lèi)的方法——MFSC。使用這一算法將有無(wú)標(biāo)記或有無(wú)監(jiān)督的特征選方法成功的運(yùn)用到了聚類(lèi)分析,利用了上下文的多種相似特征進(jìn)行主成分分析,確立主鍵和區(qū)間內(nèi)距離,并對(duì)子區(qū)間也進(jìn)行了特征值降序排列,從而達(dá)到較為理想的效果。

        參考文獻(xiàn)

        [1]樊東輝.基于文本聚類(lèi)的特征選擇算法研究[D].西北師范大學(xué),2012.

        [2]樊東輝,王治和,陳建華,許虎寅.基于DF算法改進(jìn)的文本聚類(lèi)特征選擇算法[J].甘肅聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(1):51-54.

        [3]徐峻嶺,周毓明,陳林,徐寶文.基于互信息的無(wú)監(jiān)督特征選擇[J].計(jì)算機(jī)研究與發(fā)展,2012(2):372-382.endprint

        国产欧美一区二区三区在线看| 日韩中文字幕一区二区高清| 人妻精品久久中文字幕| 美女精品国产一区二区三区| 男女啪啪免费视频网址| 人妻少妇偷人精品一区二区三区| 成人久久久精品乱码一区二区三区 | 99久久国内精品成人免费| 久久精品视频中文字幕无码| 久久综合老鸭窝色综合久久| 中文字幕亚洲视频三区| 国产精品一区二区久久久av| 人人妻人人澡人人爽精品日本| 亚洲无线码一区二区三区| 国产av无码专区亚洲av极速版| 国产极品美女高潮无套在线观看| 中文字幕乱偷乱码亚洲| 在线观看免费人成视频国产| 日本亚洲视频免费在线看| 91久久精品国产综合另类专区| 国产亚洲精品久久久闺蜜| 亚洲一线二线三线写真| 国产久视频国内精品999| 久久久www成人免费无遮挡大片| 一本色道亚州综合久久精品| 人妻少妇艳情视频中文字幕| 久久中文骚妇内射| 亚洲国产精品久久久久秋霞影院| 伊人网综合| 国产精品又黄又爽又色| 亚洲黄色一级在线观看| 久久午夜羞羞影院免费观看| 国产av无码专区亚洲av极速版| 日韩高清毛片| 国产精品美女自在线观看| 亚洲一区二区三区国产| 色噜噜亚洲男人的天堂| 2020年国产精品| 久久国产综合精品欧美| 国产一区二区毛片视频| 激情久久黄色免费网站|