亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DBSCAN的最優(yōu)密度文本聚類算法

        2012-11-30 03:18:36袁津生
        計算機工程與設計 2012年4期
        關鍵詞:搜索引擎網(wǎng)頁聚類

        李 群,袁津生

        (北京林業(yè)大學 信息學院,北京100083)

        0 引 言

        目前大多數(shù)的搜索引擎使用的是基于關鍵詞匹配的全文檢索技術,國內(nèi)著名的百度和國外著名的Google等就是采用這種檢索方式,它的特點是查全率較高。隨著互聯(lián)網(wǎng)上承載信息量的日益加大,它的缺點也越來越明顯:

        (1)全文檢索搜索引擎當用戶輸入關鍵詞后,通常在返回用戶需要網(wǎng)頁的同時,還會返回大量冗余的信息,其主要原因是在通常情況下很多的網(wǎng)頁描述的都是一個內(nèi)容。例如當日的新聞就有很多的網(wǎng)站都進行轉載,結果導致出現(xiàn)大量的網(wǎng)頁重復,因此在查詢時也就出現(xiàn)很多相同的結果。

        (2)全文檢索搜索引擎是通過關鍵詞條對全文的內(nèi)容進行匹配來達到查詢目的。這種檢索方式的主要的缺點是參與匹配的關鍵詞條有時候可能出現(xiàn)二義性,導致查詢的結果只有具體字面的意思,而不一定是詞條本身所要表達的含義。因此這樣的檢索就會出現(xiàn)查非所查、檢非所檢的結果。

        (3)全文檢索搜索引擎缺乏人性化方面的設計,信息的查詢僅由用戶輸入的關鍵詞來決定,而沒有更進一步的“人機交流”,這也是導致檢索效果不盡人意的一個原因。

        我們希望在使用搜索引擎查詢信息的時,可通過人機交互的方法,使得搜索引擎逐漸接近于人的思維,以此來提高檢索的有效性和查詢精度。

        通過文本聚類技術能挖掘詞條間相互聯(lián)系的諸多信息,這些信息對于考察用戶的查詢意圖,為用戶提供更加準確更加全面的查詢結果有很大幫助。通過聚類對同主題文檔進行合并、冗余消除、信息融合、消除詞義二義性等。

        本文提出了一種動態(tài)求解的最優(yōu)密度聚類算法并加以實現(xiàn)。該算法采用密度聚類算法DBSCAN與層次聚類算法BIRCH(balanced iterative reducing and clustering using hierarchies)相結合的方法,構建了一顆簇關系樹,同時對聚類參數(shù)ε進行動態(tài)求解,以達到參數(shù)ε的最優(yōu)。該算法與其它文本聚類算法相比最大的區(qū)別就是查詢的結果與用戶感興趣的主題具有很大的相關度,對于二義性的詞條有較高的查準率。這樣可以用戶的搜索范圍相對縮小,有利于快速搜索信息。

        1 算法比較

        1.1 聚類原理分析

        聚類方法的設計思路是對一組給定的具體的或抽象的對象或數(shù)據(jù)集進行分組,每一個獨立的分組叫簇,分組要達到的目的是在同一個簇內(nèi)的對象是相似的,而在不同簇中的對象是不同的。我們可以用 “物以類聚”來形容這種劃分。目前已有多種傳統(tǒng)的聚類分析算法,本文的討論僅涉及3種:基于劃分的方法、層次聚類方法、基于密度的方法。

        1.2 聚類方法介紹

        (1)劃分方法:基于劃分的方法具體細分為K中值算法和K均值算法。K均值算法是一種基于質心的聚類技術,詳細的介紹可參見文獻 [1]。在需要聚類的數(shù)據(jù)集非常巨大的情況下,K均值算法處理的聚類效果較好,但該算法的對極端值很敏感,比如一個集合中有一個特別偏離和分散的對象,就會對整個結果造成很大影響。K中值算法對于極端值不敏感,但它的計算量與K均值算法比起來要大得多,更加適用于數(shù)據(jù)量小的集合。

        (2)層次方法:層次聚類方法就是對給定的對象或數(shù)據(jù)集合進行層次上的分解。詳細介紹可參見文獻 [2]。該算法可細分為凝聚法和分裂法兩種,這兩種算法的代表分別是AGNES(agglomerative nesting)算法和DIANA (divisive analysis)算法。它們的分解過程是一個互逆的過程。

        凝聚的層次聚類與分裂的層次聚類算法過程如圖1所示。

        圖1 層次聚類

        層次方法中有一種典型算法 (BIRCH),是把集合中的對象構造成層次樹,用樹的結構劃分聚類,并根據(jù)設定的閾值構建一個聚類特征樹,然后在以后的階段對構建的聚類特征樹進行重建,以此來達到更好的聚類目的。

        (3)基于密度聚類方法

        前面兩種算法都是基于對象間距離的考察,適用于發(fā)現(xiàn)圓形簇。密度方法可以適用于任意形狀的簇。典型的算法是DBSCAN密度聚類算法,該算法是先檢索數(shù)據(jù)集中的核心對象,并建立新簇,然后迭代地聚合其直接密度可達對象,不斷重復這個過程到?jīng)]有新對象加到任何簇完成聚類過程。

        DBSCAN算法需要設定兩個重要參數(shù):一個是對象半徑ε內(nèi)的鄰域;另一個是最小數(shù)目的核心對象MinPts[2]。本文將在后面詳細討論關于參數(shù)的設定。

        1.3 算法比較測試

        本文選取了以 “北京林業(yè)大學”為關鍵詞并具有不同主題的10個網(wǎng)頁進行聚類測試,在本測試中選取了3種算法:K均值法、AGENES算法和DBSCAN算法。測試的網(wǎng)頁及其主題如表1所示。

        表1 選取的測試網(wǎng)頁

        我們對這3種算法在相同的條件下進行對比,經(jīng)過實驗測試,得到表2。

        表2 聚類結果對比

        表2顯示的對3種算法的運行時間和準確率進行了統(tǒng)計,聚類結果對比明顯,我們看出K均值算法運行的時間最長,而準確率居中;AGENES聚類算法運行的時間居中,但準確率最低;DBSCAN聚類算法準確率最高,運行時間最短。前兩種聚類算法為之所運算的時間較長,是因為它們在運算過程中使用大量的時間進行迭代,復雜度為O (k(n-k)2),最后一種聚類算法DBSCAN的計算復雜度是O(nlogn)。通過上述實驗我們得出結論DBSCAN聚類算法優(yōu)于基于劃分和基于層次的聚類算法。

        2 最優(yōu)化密度聚類算法

        在上述實驗的基礎上我們提出一種改進的DBSCAN算法,叫最優(yōu)化密度聚類算法。DBSCAN聚類算法需要有兩個參數(shù)ε鄰域和MinPts。其中MinPts可選擇3、4或者5。而參數(shù)ε在對網(wǎng)頁進行聚類時是很難確定的。若ε值設定的較大,其結果是得到高密度的簇,也就是說得到的網(wǎng)頁相關性就會很高,甚至是完全相同的網(wǎng)頁。若ε值設定的較小,其結果是形成低密度的簇,得到的網(wǎng)頁相關性就會很低,甚至是完全不相關的網(wǎng)頁也聚到了一起。參照以往的經(jīng)驗,ε是在 [0.3,0.9]之間的區(qū)間進行變化,變化方向為由大到小,變化幅度為0.1。

        參數(shù)ε幅度均勻變化并逐漸降低的算法有可能會出現(xiàn)在某個ε鄰域內(nèi),合并的網(wǎng)頁數(shù)量太多,即合并了許多噪聲對象,也可能會出現(xiàn)在某個ε鄰域內(nèi)網(wǎng)頁的數(shù)量極少的現(xiàn)象,即僅合并了完全相似的對象。因此,按照固定值的參數(shù)ε進行聚類的做法并不可取。針對輸入?yún)?shù)ε的設定,本文在此提出一種對參數(shù)ε進行動態(tài)求解的方法。

        2.1 輸入?yún)?shù)ε的求解

        對輸入?yún)?shù)ε的計算需要設定兩個參數(shù)P和N,其中:P=# (εN)表示人們在通常情況下在點擊到最后希望得到的網(wǎng)頁的數(shù)量;N表示人們在通常情況下能忍受的點擊“相關查看”的次數(shù)。如圖2所示。

        圖2 參數(shù)求解曲線

        在圖2中,我們假設用i來表示用戶點擊相關查看的次數(shù),那么有

        根據(jù)上面的公式可以得到

        在點擊到第N次相關查看后,可以得到公式

        一般來說,用戶在點擊N次之后,期望看到的剩余網(wǎng)頁的數(shù)量為P,N和P是兩個常量,則根據(jù)式 (2)有:αN=于是得到公式

        如果出現(xiàn):# (ε0)<P時,就不需要對網(wǎng)頁進行聚類運算了。在通常情況下,# (ε0)>P的。

        由式 (3)得到了α,根據(jù)α可以求出:#(εi)= #(ε0)·α-i,設ε0=0.3,就可以解出ε1,ε2,……,εi。

        使用數(shù)據(jù)擬合的方法來求解參數(shù)ε,在很小的范圍內(nèi)將參數(shù)ε的變化用一條下降的直線來代替,這樣處理后對參數(shù)ε的求解就簡化成對這條直線方程的求解,如圖3所示。

        圖3 參數(shù)求解方程

        由圖3的曲線可以得到連接ε0和εN的直線方程為

        可以求出:y= #(εi)= #(ε0)α-i,對應的x為

        這樣,就求解出了xi也就是ε1,ε2,……,εi。

        2.2 算法流程

        DBSCAN算法中涉及的兩個參數(shù)ε和MinPts,我們可以將參數(shù)ε理解為半徑,MinPts是一個限制條件。該算法的目的就是在ε這個半徑內(nèi)查找樣本數(shù)n,當滿足條件n>=MinPts時,就是核心樣本點。算法步驟描述:

        (1)設定MinPts的值和計算出參數(shù)ε的值;

        (2)對集合內(nèi)所有對象依次遍歷,確定目標對象result-Object;

        (3)查詢目標對象的鄰域n,對訪問過的對象做標記;

        (4)如果n是核心對象,就做標記為Key_Object;

        (5)如果n是非核心對象,就做標記為Noise_Object;

        (6)對核心對象Key_Object進行遞歸,直到滿足設定的初始條件。

        對于參數(shù)ε的設定,我們可以使用式 (5)來得到;對于聚類方法,我們采用將密度聚類算法DBSCAN與層次聚類算法BIRCH相結合的方法,形成一棵聚類的簇關系樹。如圖4所示。

        由簇關系數(shù)圖看出,簇2的分枝里包含了簇3、簇4和簇5,但并不一定簇2就完全由簇3、簇4、簇5構成。通常還有一部分在這一層次被定義為噪聲的對象。通過關系樹,就可以ε的值返回到高層次的聚類,或進一步深入的查詢,比如在聚類結果中再進行更深入的查詢等,我們將這種簇關系樹應用在搜索引擎中可完成不同層次的聚類。增加ε的值就可以得到較高層次的聚類;減少ε的值就可以進入更深層次的聚類。

        圖4 簇關系樹

        設C為全部簇的集合,則有公式Ci,ε∈C,其中Ci,ε簇指的是i的ε鄰域的簇,Oi為簇Ci,ε中包含的全部對象的集合。對于任意Ci,ε存在方法

        假定當前的層次為εi,若用戶查想看更深層次的內(nèi)容,我們有方法

        假定當前的層次為εi,若用戶查想看更多的內(nèi)容,我們有方法

        式 (7)是查找找比當前層次更高密度的對象,也就是擴大查詢范圍;式 (8)是查找比當前層次更低密度的對象,也就是更深入準確定位查詢信息。

        利用這棵關系樹,我們可以設計一個引導機制來完成搜索引擎與用戶之間的交互操作,使用戶進行更深入、更廣泛的信息查詢。例如,當用戶輸入關鍵詞 “日本”后,搜索引擎在返回的結果頁面上出現(xiàn)相關的引導按鈕,這時,用戶根據(jù)自己的需求點擊此按鈕進入到相應的頁面,來對查詢的信息更準確的定位。

        3 性能評價

        為了測試算法的性能,本文構建了一個搜索引擎,并選取了一些目前比較熱門,關注度比較高的詞條。為滿足測試的需要,我們抓取了新浪網(wǎng)站上面的國際新聞板塊里面的1259個網(wǎng)頁,在去掉網(wǎng)頁中包含的多媒體信息之后,我們選取兩類詞來進行驗證,一是具有新聞代表性的詞“利比亞”、“卡扎非”;另一個是中性詞 “土豆”。

        我們選擇著名搜索引擎百度與在本算法基礎上實現(xiàn)的搜索系統(tǒng)進行性能上的對比,主要是對輸入關鍵詞后返回的查詢結果進行對比分析。由于百度搜索引擎返回的數(shù)據(jù)量巨大,我們僅選取其搜索結果的前5個頁面的數(shù)據(jù),如表3所示。

        表3 測試結果比較

        在表3可以看出,當輸入多個關鍵詞的情況下,百度的查準率高些,但如果用戶僅輸入單一或較少關鍵詞的時候,準確率就不高。實驗中我們輸入 “利比亞”這個詞,目的是希望得到利比亞卡扎非的相關信息。在返回結果欄目下,百度的前50個結果中只有8條是關于卡扎非的信息,若輸入 “利比亞 卡扎非”則百度相關數(shù)欄目下就達可到50條信息。本算法在返回結果的35條記錄中,雖然只有3條,但可以使用 “相關查詢”的操作,就能準確定位利比亞卡扎非的有關信息。再比如,我們在百度搜索中輸入關鍵詞 “土豆”,返回的前5頁中出現(xiàn)的都是土豆網(wǎng)中的內(nèi)容,有關土豆種植的信息就非常少了。但在本算法中,通過提示按鈕,用戶就可以得到土豆種植的相關信息了。

        綜上所述,當用戶在能對自己需要查詢的信息準確定位,使用的關鍵詞描述精確全面的情況下,百度等搜索引擎查詢能得到較好的結果;當用戶不能準確定位詞條,或輸入的關鍵詞具有二義或歧義的情況下,本系統(tǒng)通過改進聚類處理之后得到的結果比較理想。

        4 結束語

        本文提出了一種動態(tài)求解的最優(yōu)密度聚類算法,并測試了該算法基礎上實現(xiàn)的搜索引擎的性能。該算法的關鍵是對參數(shù)ε進行動態(tài)求解,以達到參數(shù)ε的最優(yōu)化值,以及將密度聚類與層次聚類相結合形成簇關系樹。實驗證明該算法可以有效的彌補全文檢索算法的不足,提高含義不同詞條的查準率。該系統(tǒng)通過人性化的設計加入了 “用戶干預”,使得搜索引擎能進一步明確用戶的查詢意圖,去除冗余,返回給用戶準確有效的信息。

        [1]LIU Yanli,LIU Xiyun.K-means clustering algorithm based on density [J].Computer Engineering and Applications,2007,43(32):153-155 (in Chinese).[劉艷麗,劉希云.一種基于密度的K-均值算法 [J].計算機工程與應用,2007,43 (32):153-155.]

        [2]DUAN Mingxiu.Hierarchical clustering algorithm of the researchand application [D].Changsha:Central South University,2009:15-16(in Chinese).[段明秀.層次聚類算法的研究及應用 [D].長沙:中南大學,2009:15-16.]

        [3]CAI Yue.A feasible text clustering algorithm of search engine[D].Beijing:Beijing Forestry University,2010:10-13 (in Chinese).[蔡岳.一種應用于搜索引擎的文本聚類算法 [D].北京:北京林業(yè)大學,2010:10-13.]

        [4]LI Xinliang.Improved research of hierarchical clustering algorithm [J].Software Guide,2007,6 (10):141-142 (in Chinese).[李新良.基于層次聚類算法的改進研究 [J].軟件導刊,2007,6 (10):141-142.]

        [5]Anagnostopoulos A,Broder A,Punera K.Effective and efficient classification on a search-engine model[J].Knowl Inf Syst,2008,16(2):129-154.

        [6]Leung K Wai-Ting,Wilfred Ng,LEE D L.Personalized concept-based clustering of search engine queries [J].IEEE Transactions on Knowledge and Data Engineering,2008,20(11):1505-1518.

        [7]LI Xiaoguang. Text clustering approach based on content characteristic[J].Computer Engineering,2007,33 (14):24-26(in Chinese). [李曉光.一種基于內(nèi)容特性的文本聚類方法[J].計算機工程,2007,33 (14):24-26.]

        [8]Mike Thelwall.Quantitative comparisons of search engine results[J].Journal of the American Society for Information Science and Technology,2008,59 (11):1702-1710.

        [9]XIAO Zhuocheng,JING Jinhua.User interest based search engine [J].Computer Applications and Software,2007,24 (9):134-136(in Chinese).[肖卓程,荊金華.基于用戶興趣的搜索引擎 [J].計算機應用與軟件,2007,24 (9):134-136.]

        [10]ZHANG Yulian.Clustering of search engine query log [J].Computer Engineering,2009,35 (1):43-45 (in Chinese).[張玉連.搜索引擎查詢?nèi)罩镜木垲?[J].計算機工程,2009,35 (1):43-45.]

        [11]Mecca G,Raunich S,Pappalardo A.A new algorithm for clustering search results [J].Data & Knowledge Engineering,2007,62 (3):504-522.

        [12]HE Xiaofei,Jhala P.Regularized query classification using search click information[J].Pattern Recognition,2008,41(7):2283-2288.

        [13]RU Y,Horowitz E.Automated classification of HTML forms on E-commerce web site [J].Online Information Review,2007,31 (4):451-466.

        [14]LIAO Yichun.A weight-based approach to information retrieval and relevance feedback [J].Expert Systems with Applications,2008,35 (1-2):254-261.

        [15]LI Qun,HUANG Xinyuan.Research on text clustering algorithms[C].Wuhan,China:Proc of 2nd International Workshop on Database Technology and Applications,2010:734-736.

        猜你喜歡
        搜索引擎網(wǎng)頁聚類
        基于CSS的網(wǎng)頁導航欄的設計
        電子制作(2018年10期)2018-08-04 03:24:38
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        網(wǎng)頁制作在英語教學中的應用
        電子測試(2015年18期)2016-01-14 01:22:58
        基于改進的遺傳算法的模糊聚類算法
        網(wǎng)絡搜索引擎亟待規(guī)范
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        10個必知的網(wǎng)頁設計術語
        廣告主與搜索引擎的雙向博弈分析
        中文字幕在线观看| 激情视频在线观看国产中文| 日韩精品国产精品亚洲毛片| 久久不见久久见免费视频6| 中文字幕乱伦视频| 免费观看一区二区| 精品久久人妻一区二区| 成年丰满熟妇午夜免费视频| 99香蕉国产精品偷在线观看| 全免费a级毛片免费看| 亚洲男人的天堂色偷偷| 久久久亚洲av波多野结衣| 欧美日韩一区二区三区自拍| 久久与欧美视频| 亚洲熟妇一区二区蜜桃在线观看 | 成人免费直播| 亚洲天堂99| 最新亚洲av日韩av二区一区| 亚洲综合中文字幕综合| 国产激情久久久久影院老熟女| 无码精品一区二区免费AV| 日本女优中文字幕有码| 国产优质女主播在线观看| 日韩免费精品在线观看| 让少妇高潮无乱码高清在线观看| 久久99精品久久久久久久清纯| 亚洲国产精一区二区三区性色| 亚洲一区二区三区蜜桃| 精品免费看国产一区二区| 亚洲国产日韩在线人成蜜芽| 亚洲精品国产av成拍| 天堂а在线中文在线新版| 99re6热在线精品视频播放6| 蜜桃视频在线免费观看一区二区| 人妻少妇被猛烈进入中文字幕| 国产国语亲子伦亲子| 色婷婷欧美在线播放内射| 日本一区二区亚洲三区| 开心五月婷婷激情综合网| 国精品无码一区二区三区在线| 成年女人在线观看毛片|