徐勇
(吉林建筑大學(xué),吉林 長春 130118)
基于聚類算法的內(nèi)容識別研究
徐勇
(吉林建筑大學(xué),吉林 長春 130118)
隨著互聯(lián)網(wǎng)內(nèi)容的快速增長,對于網(wǎng)絡(luò)內(nèi)容的快速識別壓力越來越大。本文進(jìn)行基于聚類算法的內(nèi)容識別研究,為維護(hù)網(wǎng)絡(luò)安全、網(wǎng)絡(luò)內(nèi)容健康,具有非常重要的意義。目前的互聯(lián)網(wǎng)內(nèi)容識別方式主要以關(guān)鍵字檢索方法進(jìn)行識別,但是面對日益豐富的網(wǎng)絡(luò)內(nèi)容和不同方式存儲在服務(wù)器的內(nèi)容,這種方式已經(jīng)無法滿足實際的需求。從實際問題出發(fā)針對互聯(lián)網(wǎng)內(nèi)容中以圖形、圖像、音頻等非結(jié)構(gòu)化數(shù)據(jù)形式存儲在服務(wù)器中的內(nèi)容進(jìn)行識別,依據(jù)互聯(lián)網(wǎng)內(nèi)容的發(fā)展規(guī)律對現(xiàn)有的聚類算法進(jìn)行改進(jìn),以求能夠最大程度地對互聯(lián)網(wǎng)內(nèi)容進(jìn)行篩選和甄別,維護(hù)互聯(lián)網(wǎng)安全。
數(shù)據(jù)挖掘;內(nèi)容識別;聚類分析;K-MEANS聚類算法改進(jìn)
面向?qū)ο髢?nèi)容識別過程中以單詞為單位的常規(guī)檢索方式,缺乏內(nèi)容時間序列上的關(guān)聯(lián),檢索效果大打折扣,尤其是對音視頻、圖片等非結(jié)構(gòu)數(shù)據(jù)的內(nèi)容識別,效果非常差。而由于K-MEANS聚類算法在處理大數(shù)據(jù)環(huán)境下內(nèi)容中的數(shù)據(jù)流方面存在著算法敏感,以及內(nèi)容識別效率和速度上的缺陷,因此,從網(wǎng)絡(luò)內(nèi)容格式類型的序列關(guān)系進(jìn)行K-MEANS聚類算法的改進(jìn),使其能夠保持可接受的檢索速度和識別能力是本文重點研究方向。
隨著寬帶流量的提高,互聯(lián)網(wǎng)內(nèi)容日益豐富,非結(jié)構(gòu)化內(nèi)容如:音視頻、圖形圖像的文件越來越多。對于非結(jié)構(gòu)化內(nèi)容的識別方法主要包括以下幾個步驟:
2.1 分割
分割是是實現(xiàn)非結(jié)構(gòu)化內(nèi)容識別的第一步,根據(jù)內(nèi)容的轉(zhuǎn)換邊界進(jìn)行分割,分割方法包括模板匹配法、直方圖法、邊緣檢測法、模型法、顏色柱狀圖法、運(yùn)動矢量法以及基于多維空間仿生信息學(xué)理論的方法等。鏡頭邊界檢測作為視頻檢索的第一步具有重要意義,其結(jié)果將對整個視頻檢索結(jié)果產(chǎn)生直接的影響。
2.2 特征提取
提取非結(jié)構(gòu)化對象基本信息及動態(tài)信息,得到一個盡可能充分反映內(nèi)容的特征空間,這個特征空間將作為內(nèi)容識別依據(jù),內(nèi)容特征分為靜態(tài)特征和動態(tài)特征。靜態(tài)特征的提取主通常采用圖像特征提取方法,如提取顏色特征、紋理特征、形狀和邊緣特征等。動態(tài)特征是獲取動態(tài)特征的方法是運(yùn)動估計,通過匹配算法估計出每個像素或區(qū)域的運(yùn)動矢量,作為非結(jié)構(gòu)化數(shù)據(jù)的運(yùn)動特征。
2.3 聚類
高效的索引技術(shù)是基于內(nèi)容的檢索在大型數(shù)據(jù)庫中發(fā)揮優(yōu)勢的保證。索引技術(shù)隨著數(shù)據(jù)庫的發(fā)展而發(fā)展,提高索引效率有縮減特征向量的維度和聚類索引算法兩種方法,針對非結(jié)構(gòu)化內(nèi)容檢索需要3個步驟:(1)進(jìn)行維度縮減;(2)對存在的索引方法進(jìn)行評價;(3)根據(jù)評價定制自己的索引方式。為了保證內(nèi)容識別的效率和準(zhǔn)確性,內(nèi)容識別的聚類算法尤為重要。
基于K均值聚類的內(nèi)容識別算法模型如下:
(1)選取K個聚類中心作為服務(wù)器內(nèi)容樣本的K均值聚類算法迭代的聚類中心
(3)計算服務(wù)器內(nèi)容樣本各聚類中心的新向量值:
式中nj為Sj所包含的樣本數(shù)。
K均值偽代碼如下:
設(shè)定聚類數(shù)目K,最大執(zhí)行步驟tmax,一個很小的容忍誤差ε>0
決定聚類中心起始位置Cj(0),0<j≤K
輸入:總數(shù)K,尺度tmax,誤差ε>0,起始位置Cj(0),0<j≤K
輸出:K均值聚類結(jié)果
for t=1,......,tmax
for(j=1,......,N){服務(wù)器內(nèi)容樣本重新分類,重新迭代計算;如果//計算各數(shù)據(jù)點到聚類中心的距離
return();//循環(huán)終止
}//endif
}//endfor
4.1 K-MEANS聚類改進(jìn)算法的數(shù)據(jù)處理
現(xiàn)有的網(wǎng)絡(luò)內(nèi)容檢索方式逐漸從關(guān)鍵詞檢索轉(zhuǎn)向?qū)ο髾z索,也就是以內(nèi)容片段為輸入,從大量數(shù)據(jù)中找出接近的內(nèi)容?,F(xiàn)行的互聯(lián)網(wǎng)基于關(guān)鍵詞的敏感內(nèi)容規(guī)避業(yè)務(wù)的選擇結(jié)果模式主要是采用雙向選擇模式,因此基于關(guān)鍵詞的敏感內(nèi)容規(guī)避業(yè)務(wù)挖掘也要遵循這樣的模式原則,選取服務(wù)器中基于關(guān)鍵詞的敏感內(nèi)容進(jìn)行規(guī)避,選擇結(jié)果意向數(shù)據(jù)作為主要數(shù)據(jù)挖掘內(nèi)容。網(wǎng)站敏感內(nèi)容選擇內(nèi)容處理的數(shù)據(jù)類型包括:文本、圖像、音頻、視頻等。處理方法首先要采用絕對偏差法進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化;其次采用簡單匹配系數(shù)方式對互聯(lián)網(wǎng)內(nèi)容進(jìn)行檢測,通過為0,不通過為1;最后采用對數(shù)變換將數(shù)據(jù)轉(zhuǎn)換為[0,1]區(qū)間內(nèi)數(shù)據(jù),再進(jìn)行區(qū)間標(biāo)度變量相同的標(biāo)準(zhǔn)化。數(shù)學(xué)公式表示:
首先,計算平均的絕對偏差sf
x變量代表度量值,m代表平均值。
其次,計算m:
最后,計算標(biāo)準(zhǔn)化量度值:
4.2 基于K-MEANS聚類算法改進(jìn)的設(shè)計
針對現(xiàn)有的K-MEANS算法在內(nèi)容識別中的聚類結(jié)果往往趨于孤立點的問題以及時間復(fù)雜度為O(n2)不利于對互聯(lián)網(wǎng)中大數(shù)據(jù)量的挖掘問題,本文采用的是基于排列組合思想的K-MEANS剪枝改進(jìn)算法。算法描述如下:
if(e∈E){//如果待測元素e屬于極大聚類集合
}else(e?E){
for j=0;j<n;j++
End for
}else{
Printf(“結(jié)果有誤”);
}//endif
End For
4.3 內(nèi)容識別
互聯(lián)網(wǎng)內(nèi)容檢索方法不僅僅局限于全文檢索,在很大程度上也不同于關(guān)鍵字檢索。非結(jié)構(gòu)化內(nèi)容本身的層次化結(jié)構(gòu)則要求內(nèi)容檢索必須層次化進(jìn)行。因此,內(nèi)容的特征決定了內(nèi)容檢索必須是層次化的,且用戶接口是多表現(xiàn)模式的,下面提出幾種常用的檢索方法:
(1)基于框架的方法:該方法通過知識輔助對內(nèi)容建立框架,并進(jìn)行層次化檢索。
(2)基于瀏覽的方法:基于瀏覽的方法始終是內(nèi)容檢索中一個不可缺少的方法。如果用戶沒有明確的查詢主題或用戶的主題在框架中沒有被定義等,用戶可以通過瀏覽來確定其大概目的。
(3)基于描述特征的檢索:該檢索針對內(nèi)容的局部特征檢索,描述特征包括說明性特征和手繪特征。
(4)內(nèi)容的檢索反饋在檢索的實現(xiàn)中除利用內(nèi)容特征進(jìn)行檢索外,還應(yīng)根據(jù)用戶的反饋信息不斷學(xué)習(xí)改變閾值重新檢索,實現(xiàn)人機(jī)交互,直到達(dá)到用戶的檢索要求。
論文提出了一種基于排列組合的K-MEANS聚類算法,該算法在互聯(lián)網(wǎng)海量數(shù)據(jù)挖掘過程中,可以滿足內(nèi)容識別的檢索速度和識別能力,尤其是對非結(jié)構(gòu)化數(shù)據(jù),如:圖形、圖像、視頻等,具有很好的識別能力,在面向?qū)ο蟮膬?nèi)容識別趨勢下,該算法具有較好的先進(jìn)性和實用性。
[1]侯澤民,巨筱.一種改進(jìn)的基于潛在語義索引的文本聚類算法[J].計算機(jī)與現(xiàn)代化,2 0 14(7):2 4-2 7.
[2]王友衛(wèi),劉元寧,鳳麗洲,等.基于用戶興趣度的垃圾郵件在線識別新方法[J].華南理工大學(xué)學(xué)報(自然科學(xué)版),2 0 14(7):2 1-2 7.
[3]江雪,孫樂.用戶查詢意圖切分的研究[J].計算機(jī)學(xué)報,2 0 13,3 6(3):6 6 4-6 7 0.
[4]楊陟卓,黃河燕.基于詞語距離的網(wǎng)絡(luò)圖詞義消歧[J].軟件學(xué)報,2 0 12,2 3(4):7 76-7 8 5.
[5]皋軍,孫長銀,王士同.具有模糊聚類功能的雙向二維無監(jiān)督特征提取方法[J].自動化學(xué)報,2 0 12,3 8(4):549-56 2.
[6]黃學(xué)沛,張燕,項炬,等.基于云架構(gòu)的自適應(yīng)聚類圖像識別技術(shù)的研究與實現(xiàn)[J].電腦與電信,2 0 16(5):3 0-3 2.
Research on Content Recognition Based on ClusteringAlgorithm
Xu Yong
(Jilin Jianzhu University,Changchun 130118,Jilin)
With the rapid growth of Internet content,the pressure for rapid identification of the network content is becoming higher and higher.This paper researches on the content recognition based on clustering algorithm,which is very important to maintain the security of network and the health of the network.The Internet content recognition at present mainly uses the keywords,but it is unable to meet the actual demand of the network contents and server contents stored in different ways.In view of the practical problems,the recognition of unstructured data stored in the forms of graphics,images and audio is researched.The existing clustering algorithm is improved based on the law of the development of Internet content,in order to filter and discriminate the Internet content in the greatest degree,to maintenance the Internet security.
data mining;content recognition;clustering analysis;K-MEANS clustering algorithm improvement
TP393.06
A
1008-6609(2016)11-0039-03
徐勇(19 73-),男,吉林長春人,博士,副教授,研究方向為數(shù)據(jù)挖掘、人工智能、網(wǎng)絡(luò)安全。