亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)頁概率潛在語義信息的用戶興趣聚類*

        2014-01-24 06:55:46錢雪忠吳志媛
        關(guān)鍵詞:網(wǎng)頁語義聚類

        錢雪忠,吳志媛

        (江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122)

        基于網(wǎng)頁概率潛在語義信息的用戶興趣聚類*

        錢雪忠,吳志媛

        (江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122)

        為了能準(zhǔn)確挖掘用戶興趣點(diǎn),首先利用概率潛在語義分析PLSA模型將“網(wǎng)頁-詞”矩陣向量投影到概率潛在語義向量空間,并提出“自動(dòng)相似度閾值選擇”方法得到網(wǎng)頁間的相似度閾值,最后提出將平面劃分法與凝聚式層次聚類相結(jié)合的凝聚式層次k中心點(diǎn)HAK-medoids算法,實(shí)現(xiàn)用戶興趣點(diǎn)聚類。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的基于劃分的算法相比,HAK-medoids算法聚類效果更好。同時(shí),提出的用戶興趣點(diǎn)聚類技術(shù)在個(gè)性化服務(wù)領(lǐng)域可提高個(gè)性化推薦和搜索的效率。

        概率潛在語義分析;自動(dòng)相似度閾值選擇;用戶興趣點(diǎn);凝聚式層次k中心點(diǎn);個(gè)性化服務(wù)

        1 引言

        隨著Web 3.0時(shí)代的到來,人們對(duì)信息獲取手段和效率提出越來越高的要求。傳統(tǒng)互聯(lián)網(wǎng)的服務(wù)模式正在逐漸向主動(dòng)式、個(gè)性化、高效率轉(zhuǎn)變。目前的信息檢索方式主要是基于關(guān)鍵詞匹配的檢索方式,如向量空間模型 VSM(Vector Space Model)[1]、基于模糊語言的方法等,檢索系統(tǒng)多從檢索模型和信息加工過程來提高檢索的準(zhǔn)確性,并沒有對(duì)用戶給予更多的關(guān)注。特別是以網(wǎng)絡(luò)搜索引擎為例,不同背景的用戶使用相同的提問來查詢,得到的結(jié)果沒有區(qū)別,導(dǎo)致用戶不容易發(fā)現(xiàn)自己的最新興趣。個(gè)性化服務(wù)技術(shù)[2]的出現(xiàn)在一定程度上解決了Internet中信息海量增長(zhǎng)與用戶獲取信息手段相對(duì)簡(jiǎn)單之間的矛盾。以Google等為首的商業(yè)化互聯(lián)網(wǎng)公司也提出,下一代互聯(lián)網(wǎng)必將是智能化、個(gè)性化的。國(guó)內(nèi)外有很多研究者對(duì)個(gè)性化服務(wù)進(jìn)行分析研究,如:Schwab等通過觀察用戶對(duì)頁面的選擇獲取用戶感興趣的頁面作為訓(xùn)練樣本,而后以出現(xiàn)在感興趣頁面中指定位置的單字構(gòu)成用戶模型;文獻(xiàn)[3]提出了基于興趣子類的用戶興趣建模并將其用于多用戶協(xié)作推薦;文獻(xiàn)[4]等對(duì)用戶瀏覽過的網(wǎng)頁采用分類的方式建立用戶興趣模型。

        本文研究的目的就是在對(duì)用戶瀏覽內(nèi)容進(jìn)行挖掘的基礎(chǔ)上,提出新的聚類算法確定用戶興趣點(diǎn)的個(gè)數(shù)來準(zhǔn)確表示用戶的偏好,從而為個(gè)性化服務(wù)打下堅(jiān)實(shí)的基礎(chǔ)。

        2 網(wǎng)頁的概率潛在語義信息

        2.1 網(wǎng)頁數(shù)據(jù)處理

        根據(jù)用戶在一段時(shí)間內(nèi)對(duì)某個(gè)網(wǎng)站進(jìn)行訪問的歷史記錄,經(jīng)過頁面識(shí)別和關(guān)鍵詞提取等數(shù)據(jù)預(yù)處理后,建立瀏覽頁網(wǎng)頁集 D={d1,d2,…,dM}和詞集W={w1,w2,…,wN}。每個(gè)瀏覽頁面可以看成一個(gè) N 維向量di={ai1,ai2,… ,aiN},aij描述了特征詞wj在文檔di中的權(quán)重。那么,所有的瀏覽頁面就可以用一個(gè)網(wǎng)頁-詞矩陣DW 來表示:DW={aij}(i=1,2,…,M;j=1,2,…,N)。

        2.2 網(wǎng)頁的概率潛在語義信息

        針對(duì)前文構(gòu)建的網(wǎng)頁-詞矩陣向量空間,提出能揭示用戶興趣的網(wǎng)頁的概率潛在語義信息WPLSI(Webpage Probabilistic Latent Semantic Information)算法。WPLSI算法通過 PLSA[5,6]模型將構(gòu)建的瀏覽頁面-特征詞矩陣向量空間投影到概率潛在語義向量空間PLSVS(Probabilistic Latent Semantic Vector Space)。

        2.2.1 PLSA模型

        概率潛在語義分析模型的定義如下:對(duì)于文檔集D={d1,d2,…,dM}和詞集 W ={w1,w2,…,wN},用 Z={z1,z2,…,zK}表示潛在主題集合。假設(shè)在主題Z已知的前提下,詞-文檔對(duì)之間是條件獨(dú)立的,潛在主題在文檔或詞上的分布也是條件獨(dú)立的,則文檔與詞的聯(lián)合概率可表示為公式(1):

        E步驟(求期望):

        M步驟(使對(duì)數(shù)似然函數(shù)最大):

        2.2.2 概率潛在語義空間的網(wǎng)頁向量表示

        2.2.3 相似度計(jì)算測(cè)量

        本文用向量之間的夾角余弦來表示網(wǎng)頁文本間的相似程度。由k維的概率潛在語義向量空間PLSVS得到網(wǎng)頁的向量表示,則網(wǎng)頁間的相似度可表示如下:

        3 自動(dòng)相似度閾值選擇

        要挖掘出用戶的興趣點(diǎn)[8](即用戶對(duì)什么樣的網(wǎng)頁感興趣),首先得確定用戶的興趣點(diǎn)數(shù),也就是某次聚類的聚類個(gè)數(shù)k值。因此,在確定聚類數(shù)之前,首先必須確定相似度閾值μ的值。

        3.1 自動(dòng)發(fā)現(xiàn)相似度閾值的基本思想

        在眾多相似度值中能否找到一個(gè)臨界值,相似度值大于此臨界值的,表示這對(duì)網(wǎng)頁相似,相反則反之,此臨界值即是數(shù)學(xué)中的閾值。自動(dòng)發(fā)現(xiàn)相似度閾值[9,10]的基本思想是:對(duì)于一個(gè)給定的網(wǎng)頁文本,如果將它與其他網(wǎng)頁文本的相似度值遞減排序,與其相似的文本(即與該文本在一個(gè)聚類簇的文本)之間的相似度較之與其不相似文本(與該文本不在一個(gè)聚類簇的文本)之間的相似度在總體上一定有一個(gè)比較大的區(qū)別。本文采用最小二乘多項(xiàng)式來擬合這些以相似度值為坐標(biāo)的點(diǎn),通過求得擬合曲線的拐點(diǎn)確定相應(yīng)的閾值。

        3.2 最小二乘擬合多項(xiàng)式

        顯然,公式(7)是一個(gè)關(guān)于擬合系數(shù)a0、a1、…、an的n+1元線性方程組。

        定理1設(shè)數(shù)據(jù)點(diǎn)的橫坐標(biāo)x0、x1、…、xm互異,則方程組(7)的解存在且唯一。

        3.3 網(wǎng)頁間相似度閾值

        在一般情況下,n不宜過高。對(duì)于n值的確定,一般可以根據(jù)散點(diǎn)圖進(jìn)行直觀觀察,選擇幾個(gè)不同的n值曲線分別擬合,然后比較哪條曲線的最小二乘指標(biāo)最小,從而確定擬合的曲線。

        本文在觀察分析以相似度值為坐標(biāo)的點(diǎn)的分布之后,決定用三次多項(xiàng)式方程來擬合以相似度為坐標(biāo)的點(diǎn),解方程組(7)(n=3)可得到擬合方程P3(x),求該方程的二階導(dǎo)數(shù)并令其等于零,解得x即為曲線的拐點(diǎn),用與該x值相對(duì)應(yīng)的y值作為閾值μ。用三次曲線擬合,當(dāng)網(wǎng)頁文本數(shù)目很多時(shí)可以按一定間隔取點(diǎn)進(jìn)行擬合計(jì)算,以提高時(shí)間效率。本文根據(jù)曲線多項(xiàng)式擬合技術(shù)提出的自動(dòng)發(fā)現(xiàn)閾值方法,不僅替代了用戶指定參數(shù)的過程,而且自動(dòng)獲得隨數(shù)據(jù)分布動(dòng)態(tài)變化的閾值,使聚類過程更加自動(dòng)化和智能化。

        4 基于HAK-medoids的用戶興趣聚類

        4.1 基于劃分的聚類算法

        基于劃分的聚類[11,12]方法主要有k-means算法和k-medoids算法及他們的變種。k-means算法是隨機(jī)選擇k個(gè)對(duì)象,每個(gè)對(duì)象初始地代表一個(gè)簇的平均值;k-medoids算法是選用簇中位置最中心的對(duì)象來代表某個(gè)簇,也叫做中心點(diǎn)。但是,kmeans算法和k-medoids算法需要指定一些閾值參數(shù),如聚類個(gè)數(shù)k。

        4.2 適應(yīng)度函數(shù)確定

        基于劃分的聚類思想是“距離最近”原則,在網(wǎng)頁聚類中的距離就是相似度值。將各聚類中心與歸入其類的網(wǎng)頁相似度之和的最大值作為適應(yīng)度函數(shù),即:

        其中,Ci表示聚成的k個(gè)類,p是屬于某個(gè)類Ci的網(wǎng)頁,mi是某個(gè)類Ci的聚類中心,sim(p,mi)是網(wǎng)頁p和mi的相似度。此式是使得最終聚類結(jié)果的各聚類簇中的網(wǎng)頁圍繞其聚類簇中心盡量緊湊,從而使整個(gè)聚類算法對(duì)所有網(wǎng)頁文本得到一個(gè)較為合理的劃分。

        4.3 基于HAK-medoids算法的用戶興趣聚類

        基于劃分的聚類算法是快速的,但收斂時(shí)只是達(dá)到一個(gè)局部最優(yōu);層次聚類算法是全局較優(yōu)的,但效率比較低且需要較多的迭代次數(shù),明顯的缺點(diǎn)是不具有再分配能力。

        本文在分析了基于現(xiàn)有的聚類算法和實(shí)際應(yīng)用環(huán)境后,提出將基于劃分的算法與凝聚式層次聚類 HAC(Hierarchical Agglomerative Clustering)[13]相結(jié)合的 HAK-medoids算法:首先利用凝聚式層次聚類算法進(jìn)行初始聚類,確定初始聚類中心和聚類數(shù)k值;然后用k-medoids算法進(jìn)行聚類分析。HAK-medoids算法既可以解決算法效率的問題,又能解決數(shù)據(jù)點(diǎn)再分配的問題。HAK-medoids算法定義如下:

        算法HAK-medoids

        輸入:概率潛在語義向量空間PLSVS和自動(dòng)相似度閾值μ。

        輸出:用戶感興趣的網(wǎng)頁聚類簇和聚類數(shù)k。

        步驟1將概率潛在語義向量空間PLSVS中的每一行對(duì)象(即用戶瀏覽的網(wǎng)頁)看作是一個(gè)具有單個(gè)成員的聚類Ci={},這些聚類構(gòu)成了PLSVS的一個(gè)聚類C={C1,C2,…,Cn}。

        步驟2計(jì)算C中每對(duì)類(Ci,Cj)之間的相似度sim(Ci,Cj),形成相似度矩陣S。

        步驟3在相似度矩陣S中查找最大相似度值max=MAX{sim(Ci,Cj)},如果max≥μ,將Ci和Cj合并為一個(gè)新的類Ct=Ci∪Cj,得到一個(gè)新的聚類C={C1,C2,…,Cn-1}。

        步驟4重復(fù)步驟2和步驟3,直到max<μ時(shí)層次聚類結(jié)束,得到有k個(gè)子類的聚類C′=,,…,}。

        步驟5對(duì)PLSVS中的每一個(gè)對(duì)象依次計(jì)算它與各個(gè)聚類中心Cj′的相似度sim,)(j=1,2,…,k),形成相似度矩陣S′。

        步驟6在矩陣S′中選擇具有最大相似度值的聚類中心,將歸入以為中心的類中。

        步驟7計(jì)算新的聚類中心:新的聚類中心為適應(yīng)度函數(shù)取值最大時(shí)的那個(gè)聚類中心。對(duì)于每個(gè)聚類中心),順序選取類中的任一個(gè)非中心對(duì)象,計(jì)算用代替后的E值,選擇E值最大的那個(gè)Cr′來代替作為新的聚類中心。

        步驟8重復(fù)步驟5~步驟7,直到所有的對(duì)象計(jì)算完,所有的聚類中心點(diǎn)均不再變化。

        步驟9算法結(jié)束。

        通過HAK-medoids算法對(duì)用戶瀏覽過的所有歷史網(wǎng)頁集聚類,得到k個(gè)聚類簇(k是聚類中心數(shù)目),聚類簇的頁面集體現(xiàn)了用戶的某類興趣。由此,當(dāng)用戶進(jìn)行個(gè)性化搜索[12,14]時(shí),系統(tǒng)知道應(yīng)該向用戶推薦哪些網(wǎng)頁,從而提高系統(tǒng)的個(gè)性化服務(wù)效率和用戶的滿意度。

        5 實(shí)驗(yàn)評(píng)估

        5.1 數(shù)據(jù)集

        本文下載了來自搜狐、雅虎等門戶網(wǎng)站的各相應(yīng)欄目下的10類網(wǎng)頁,每個(gè)類240張網(wǎng)頁,形成總測(cè)試集Ts2400。這10個(gè)類分別是下列主題:時(shí)尚(f)、體育(sp)、娛樂(e)、教育(ed)、汽車(a)、科技(tc)、社會(huì)(sc)、旅游(t)、軍事(m)和政治(p)。為了評(píng)價(jià)各算法,從Ts2400中選取五組網(wǎng)頁組成五個(gè)數(shù)據(jù)集T1~T5來做實(shí)驗(yàn)。如表1所示,k表示該數(shù)據(jù)集的類別數(shù)(即人為準(zhǔn)備的網(wǎng)頁聚類數(shù)),info列描述各類網(wǎng)頁所屬的名稱及其包含的網(wǎng)頁數(shù)。

        Table 1 Experiment data set表1 實(shí)驗(yàn)數(shù)據(jù)集

        5.2 三種聚類算法的實(shí)驗(yàn)分析

        5.2.1 評(píng)價(jià)標(biāo)準(zhǔn)

        在數(shù)據(jù)挖掘[14]中,通常采用召回率、精確率來評(píng)價(jià)分類算法的好壞。召回率是指在分類后某類別的網(wǎng)頁個(gè)數(shù)占分類前事先人為準(zhǔn)備的該類網(wǎng)頁數(shù)量的百分比;精確率是在分類后某類別的網(wǎng)頁個(gè)數(shù)占該類總的網(wǎng)頁個(gè)數(shù)的百分比。設(shè)分類后某類的Web頁面集合為RS,而分類前事先人為準(zhǔn)備的Web頁面集合為US。召回率recall和精確率precision分別采用以下公式計(jì)算:

        但是,一般采用F-measure值來評(píng)判聚類算法的性能,F(xiàn)-measure值的計(jì)算公式如下:

        其中,recall和precision分別是公式(10)的類別的召回率和精確率。由公式(11)可知,F(xiàn)-measure的評(píng)價(jià)標(biāo)準(zhǔn)既考慮了召回率又同時(shí)考慮了精確率,是一種比較科學(xué)的評(píng)價(jià)方法。

        5.2.2三種聚類算法的實(shí)驗(yàn)分析

        由于數(shù)據(jù)集T3中的娛樂類網(wǎng)頁個(gè)數(shù)只有10個(gè),因此以T3為例詳細(xì)給出運(yùn)行結(jié)果。將三種聚類算法分別在T3上運(yùn)行一次,結(jié)果如表2所示。其中,iter表示迭代次數(shù),F(xiàn)是F-measure評(píng)價(jià)值。

        從表2中可以看出,網(wǎng)頁個(gè)數(shù)太少的娛樂類(e),k-means、k-medoids算法的召回率和精確率都為0,原因是基于劃分的聚類算法不能在類形相差太大時(shí)進(jìn)行很好的聚類;從HAK-medoids算法的運(yùn)行結(jié)果可以看出,娛樂類(e)已經(jīng)形成一個(gè)類,說明HAK-medoids算法在處理類形相差較大的數(shù)據(jù)時(shí)產(chǎn)生了比較好的效果。

        以數(shù)據(jù)集T3為例,將三種聚類算法分別運(yùn)行10次,實(shí)驗(yàn)結(jié)果如表3所示。其中,iter表示達(dá)到收斂時(shí)的平均迭代次數(shù),F(xiàn)values表示算法每次運(yùn)行的F值,avgF表示10次Fvalues的平均值。

        從表3的實(shí)驗(yàn)數(shù)據(jù)可知,k-means算法聚類效果的avgF值比k-medoids的好,且這兩種聚類算法迭代較少次數(shù)就可以收斂。相比基于劃分的算法,HAK-medoids算法在F-measure值上有較大提高,但需要較多的迭代次數(shù)。

        從表4中各個(gè)聚類算法的平均效果可知:使用HAK-medoids算法來進(jìn)行網(wǎng)頁聚類,雖然其最終原理還是基于劃分的聚類算法的“最近距離”原則,但其比傳統(tǒng)的基于劃分的聚類算法在聚類效果上有較大的提高:比較五個(gè)測(cè)試集上的avgF值,HAK-medoids算法與k-means相比提高了約16%,與k-medoids相比提高了約19%。

        Table 4 Average results for the 3clustering algorithms running 10times on data sets T1~T5表4 三個(gè)聚類算法在T1至T5上運(yùn)行10次的平均效果

        5.2.3 三種聚類算法的性能分析

        三種聚類的總時(shí)間主要包括PLSA模型的訓(xùn)練時(shí)間和聚類算法的執(zhí)行時(shí)間兩部分,如表5所示,分別列出了五個(gè)數(shù)據(jù)集上的算法總時(shí)間和各算法執(zhí)行的時(shí)間,計(jì)算每個(gè)數(shù)據(jù)集上運(yùn)行的總時(shí)間和HAK-mediods聚類算法時(shí)間的差,發(fā)現(xiàn)PLSA模型訓(xùn)練需要的時(shí)間很少,主要時(shí)間消耗為聚類算法。而且,HAK-mediods聚類比k-means和kmediods聚類需要更多的時(shí)間,約為后兩者之和。

        Table 5 Runtime of the 3clustering algorithms on the 5data sets表5 三種聚類算法在5個(gè)數(shù)據(jù)集上的運(yùn)行時(shí)間 ms

        Table 2 Running one time on data set T3for the 3clustering algorithms表2 三個(gè)聚類算法在T3上運(yùn)行一次的結(jié)果

        Table 3 Running 10times on data set T3for the 3clustering algorithms表3 三個(gè)聚類算法在T3上運(yùn)行10次的結(jié)果

        為了進(jìn)一步說明聚類時(shí)間與網(wǎng)頁數(shù)的關(guān)系,在數(shù)據(jù)集T4上做了實(shí)驗(yàn),結(jié)果如圖1所示。實(shí)驗(yàn)結(jié)果表明,隨著網(wǎng)頁數(shù)目的增加,聚類算法的時(shí)間呈線性增長(zhǎng)。

        Figure 1 Relationship between runtime and webpages of the 3clustering algorithms圖1 三種算法的運(yùn)行時(shí)間與網(wǎng)頁數(shù)的關(guān)系

        6 結(jié)束語

        通過對(duì)傳統(tǒng)的用戶興趣點(diǎn)聚類算法進(jìn)行分析,本文提出了一種將平面劃分法與凝聚式層次聚類相結(jié)合的HAK-medoids算法。用PLSA模型訓(xùn)練完網(wǎng)頁數(shù)據(jù)集之后結(jié)合WPLSI算法揭示潛在語義信息,并生成概率潛在語義向量空間,用“自動(dòng)相似度閾值選擇”方法得到瀏覽網(wǎng)頁間的相似度閾值,利用 HAK-medoids算法實(shí)現(xiàn)用戶興趣點(diǎn)聚類,最后結(jié)合評(píng)價(jià)標(biāo)準(zhǔn)對(duì)提出的方法進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文提出的用戶興趣點(diǎn)聚類技術(shù)能有效準(zhǔn)確地發(fā)現(xiàn)用戶興趣。

        本文的研究還有待于進(jìn)一步深入:一是對(duì)HAK-medoids算法的進(jìn)一步改進(jìn),如減少迭代次數(shù);二是在個(gè)性化服務(wù)時(shí),提高用戶行為數(shù)據(jù)的收集、利用的全面性,以便更好地挖掘用戶興趣來提高個(gè)性化[15]搜索和推薦的效率。

        [1] Xiao Sheng,Hu Jin-zhu,Yao Shuang-yun,et al.Study on feature item extraction method based on ontology view [J].Application Research of Computers,2010,27(1):42-44.(in Chinese)

        [2] Zeng Chun,Xing Chun-xiao,Zhou Li-zhu.A survey of personalization technology [J].Journal of Software,2002,13(10):1952-1961.(in Chinese)

        [3] Zhu Zheng-yu,Zhang Xiao-lin,Xiong Qian,et al.An algorithm of collaborative recommendation based on user’s interest sub-class[J].Computer Science,2005,32(10):176-180.(in Chinese)

        [4] Pan Yan-jun.Personalized research combining with analysis of web user’s behavior based on the user’s behavior browsing content[D].Tianjin:Tianjin University,2005.(in Chinese)

        [5] Hsieh Ya-chao,Huang Yu-tsun,Wang Chien-Chih,et al.Improved spoken document retrieval with dynamic key term lexicon and probabilistic latent semantic analysis(PLSA)[C]∥Proc of Acoustics,Speech and Signal Processing,2006:961-964.

        [6] Li Sheng,Hu He-ping.An effective retrieval method based on probabilistic latent semantic analysis[J].Journal of Huazhong University of Science & Technology(Natural Science Edition),2010,38(11):48-50.(in Chinese)

        [7] Li Yuan-yuan,Ma Yong-qiang.Text term weighting approach based on latent semantic indexing[J].Computer Applications,2008,28(6):1460-1462.(in Chinese)

        [8] Bhat V,Oates T,Shanbhag V,et al.Finding aliases on the web using latent semantic analysis [J].Data &Knowledge Engineering,2004,49(2):129-143.

        [9] Chen Shu-ran.Personlization-based user interest modeling and its applying study[D].Chongqing:Chongqing University,2007.(in Chinese)

        [10] Zhang Meng,Wang Da-ling,Yu Ge.A text clustering method based on auto-selected threshold[J].Journal of Computer Research and Development,2004,10(41):1748-1753.(in Chinese)

        [11] Ma Su-qin,Shi Hua-ji.Text density clustering algorithm with optimized threshold values[J].Computer Engineering and Applications,2011,47(17):134-136.(in Chinese)

        [12] Jia Rui-yu,Geng Jin-wei,Ning Zai-zao,et al.Fast clustering algorithm based on representative points[J].Computer Engineering and Applications,2010,46(33):121-123.(in Chinese)

        [13] Guo Jing-feng,Zhao Yu-yan,Bian Wei-feng,et al.A hierarchical clustering algorithm based on improved cluster cohesion and separation[J].Journal of Computer Research and Development,2008,45(Z1):202-206.(in Chinese)

        [14] Zhang Yu-fang,Zhu Jun,Xiong Zhong-yang.Improved text clustering algorithm of probabilistic latent with semantic analysis[J].Journal of Computer Applications,2011,31(3):674-676.(in Chinese)

        [15] Hochul J,Taehwan K,Joongmin C.Adaptive user profiling for personalized information retrieval[C]∥Proc of the 3rd International Conference on Convergence and Hybrid Information Technology,2008:836-841.

        附中文參考文獻(xiàn):

        [1] 肖升,胡金柱,姚雙云,等.基于本體視圖特征項(xiàng)抽取方法研究[J].計(jì)算機(jī)應(yīng)用研究,2010,27(1):42-44.

        [2] 曾春,邢春曉,周立柱.個(gè)性化服務(wù)技術(shù)綜述[J].軟件學(xué)報(bào),2002,13(10):1952-1961.

        [3] 朱征宇,張小林,熊茜,等.基于用戶興趣子類的協(xié)作推薦算法[J].計(jì)算機(jī)科學(xué),2005,32(10):176-180.

        [4] 潘延軍.基于用戶瀏覽內(nèi)容的 Web用戶瀏覽行為個(gè)性化研究[D].天津:天津大學(xué),2005.

        [6] 李勝,胡和平.一種基于PLSA的高效檢索方法[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,38(11):48-50.

        [7] 李媛媛,馬永強(qiáng).基于潛在語義索引的文本特征詞權(quán)重計(jì)算方法[J].計(jì)算機(jī)應(yīng)用,2008,28(6):1460-1462.

        [9] 陳抒然.面向個(gè)性化服務(wù)的用戶興趣建模及應(yīng)用研究[D].重慶:重慶大學(xué),2007.

        [10] 張猛,王大玲,于戈.一種基于自動(dòng)閾值發(fā)現(xiàn)的文本聚類方法[J].計(jì)算機(jī)研究與發(fā)展,2004,10(41):1748-1753.

        [11] 馬素琴,施化吉.閾值優(yōu)化的文本密度聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(17):134-136.

        [12] 賈瑞玉,耿錦威,寧再早,等.基于代表點(diǎn)的快速聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(33):121-123.

        [13] 張玉芳,朱俊,熊忠陽.改進(jìn)的概率潛在語義分析下的文本聚類算法[J].計(jì)算機(jī)應(yīng)用,2011,31(3):674-676.

        [14] 郭景峰,趙玉艷,邊偉峰,等.基于改進(jìn)的凝聚性和分離性的層次聚類算法[J].計(jì)算機(jī)研究與發(fā)展,2008,45(Z1):202-206.

        User’s interest clustering based on webpage probabilistic latent semantic information

        QIAN Xue-zhong,WU Zhi-yuan
        (School of Internet of Things Engineering,Jiangnan University,Wuxi 214122,China)

        To mine user’s interests accurately,probabilistic latent semantic analysis(PLSA)model is firstly used to project webpage-word matrix vector into probabilistic latent semantic vector space.A method of“auto-selected similarity threshold”is proposed to get web pages similarity threshold.At last,combined with divisiory algorithms and hierarchical agglomerative clustering,a hierarchical agglomerative k-medoids clustering algorithm is proposed to realize cluster user’s interests.The experimental results show that,compared with the traditional divisiory algorithms,the hierarchical agglomerative kmedoids algorithm has a better clustering effect.Furthermore,user’s interest clustering technique can improve the efficiency of personalized recommendation and search in user’personalized service fields.

        probabilistic latent semantic analysis;auto-selected similarity threshold;user’s interest points;hierarchical agglomerative k-medoids;personalized service

        TP274

        A

        10.3969/j.issn.1007-130X.2014.04.033

        2012-09-24;

        2013-03-29

        國(guó)家自然科學(xué)基金資助項(xiàng)目(61103129);江蘇省科技支撐計(jì)劃資助項(xiàng)目(BE2009009)

        通訊地址:214122江蘇省無錫市蠡湖大道1800號(hào)江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院

        Address:School of Internet of Things Engineering,Jiangnan University,1800Lihu Avenue,Wuxi 214122,Jiangsu,P.R.China

        1007-130X(2014)04-0765-07

        錢雪忠(1966-),男,江蘇無錫人,碩士,副教授,研究方向?yàn)閿?shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)挖掘和網(wǎng)絡(luò)安全。E-mail:qxzvb@163.com

        QIAN Xue-zhong,born in 1966,MS,associate professor,his research interests include database technology,data mining,and network security.

        吳志媛(1989-),女,江蘇漣水人,碩士生,研 究 方 向 為 數(shù) 據(jù) 挖 掘。E-mail:wuzhiyuan0613@163.com

        WU Zhi-yuan,born in 1989,MS candidate,her research interest includes data mining.

        猜你喜歡
        網(wǎng)頁語義聚類
        語言與語義
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        基于DBSACN聚類算法的XML文檔聚類
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        認(rèn)知范疇模糊與語義模糊
        10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
        狂猛欧美激情性xxxx大豆行情| 精品一区二区三区影片| 亚洲成人色黄网站久久| 精品女同一区二区三区免费战| 国产精品vⅰdeoxxxx国产| 无码人妻丰满熟妇精品区| 人妻精品一区二区免费| 国产精品成人av一区二区三区| 性色欲情网站| 精品性影院一区二区三区内射| 亚洲成熟丰满熟妇高潮XXXXX| 成av人大片免费看的网站| 午夜免费福利小电影| 中文字幕 人妻熟女| 人妻少妇精品一区二区三区| 一区二区三区国产色综合| 亚洲熟妇少妇任你躁在线观看无码 | 亚洲精品午夜无码专区| 精品伊人久久香线蕉| 中文字幕一区二区三区喷水| av一区二区三区在线| 男人扒开女人下面狂躁小视频| 亚洲国产一区二区三区在线视频| 日本在线一区二区免费| 国产夫妇肉麻对白| 亚洲av乱码中文一区二区三区 | 四虎永久在线精品免费一区二区| 国产xxxx99真实实拍| 精品国产一区二区三区久久女人| sm免费人成虐漫画网站| 中文字幕日韩精品一区二区三区| 猫咪www免费人成网最新网站| 国产99久久精品一区| 白嫩人妻少妇偷人精品| 国产成人乱色伦区| 亚洲第一区无码专区| 青青草视频网站在线观看| 蜜桃视频无码区在线观看| 亚洲V在线激情| 手机在线免费观看的av| 亚洲av无码乱码在线观看裸奔|