亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA模型和聚類算法的城市熱點(diǎn)推薦與應(yīng)用

        2018-09-05 10:19:04王詩童劉美玲孫立研

        王詩童 劉美玲 孫立研

        文章編號(hào): 2095-2163(2018)03-0136-04中圖分類號(hào): 文獻(xiàn)標(biāo)志碼: A

        摘要: 關(guān)鍵詞: application of city hot sites

        (College of Information and Computer Engineering, Northeast Forestry University, Harbin 150040, China)

        Abstract: According to the functions of short text posting and sign-in to elicit the details post by the users. Cutting the vast short texts and geography positions to the phrases by LDA(Latent Dirichlet Allocation) Model, in order to count up the frequency of every phrase, and then obtain the hot geography positions, as well as label them on the map. With the Spatial Distance Clustering Algorithm, optimizing the recommendation function when the users offer their situations and restrict the searching conditions. And the system shows the details of some active sites, such as shopping malls, hot sites and restaurants to recommend to the users.

        Key words:

        基金項(xiàng)目: 國家自然科學(xué)基金(61702091);省自然科學(xué)基金(F2015037); 東北林業(yè)大學(xué)大學(xué)生創(chuàng)新訓(xùn)練計(jì)劃項(xiàng)目(201610225196)。

        作者簡介: 王詩童(1996-),女,本科生,主要研究方向:數(shù)據(jù)分析; 劉美玲(1981-),女,博士,講師,CFF高級(jí)會(huì)員,IEEE CS會(huì)員,ACM會(huì)員,主要研究方向:自然語言處理、數(shù)據(jù)挖掘、數(shù)據(jù)分析;孫立研(1994—),男,碩士研究生,主要研究方向:林業(yè)信息工程、空間數(shù)據(jù)挖掘。

        通訊作者: 收稿日期: 引言

        隨著計(jì)算機(jī)技術(shù)的進(jìn)步和Web2.0的日益完善,社交媒體在不斷向前發(fā)展。在這其中,新浪微博是較為廣泛應(yīng)用和流行的社交媒體軟件。與其他社交軟件相比,新浪微博具有信息發(fā)布方式多,信息傳播速度快,交互性強(qiáng)等特點(diǎn)。因此,利用新浪微博上用戶發(fā)布的文本進(jìn)行數(shù)據(jù)分析和挖掘亦可以獲取大量潛在的且有價(jià)值的信息。

        本文利用新浪微博開放平臺(tái)獲取的用戶數(shù)據(jù),采用LDA模型和多距離空間聚類算法,收集微博數(shù)據(jù),挖掘出其中的地理位置信息和相應(yīng)的用戶評(píng)價(jià),獲取用戶感興趣的內(nèi)容,在地圖中形成定位點(diǎn)并標(biāo)注,并向用戶進(jìn)行推薦。

        1相關(guān)工作

        1.1文本主題聚類的方法

        基于文本主題的聚類,顧名思義,就是以文本為主題,即描述對象的標(biāo)準(zhǔn),將數(shù)據(jù)聚集成不同的類[1]。Ivan Titov等[2]人提出一種情感總結(jié)的文本和方面評(píng)分的聯(lián)合模型來挖掘文本中相關(guān)聯(lián)的主題,提高情感分析結(jié)果的準(zhǔn)確性和高效性。Chao Shen等[3]人提出基于參與者的事件提取方法zooms-in 來偵測和捕捉與參與者相關(guān)的突發(fā)性和連續(xù)性的重要子事件。劉振鹿等[4]人利用LDA模型對潛在語義進(jìn)行分類,并分成高頻區(qū)、中頻區(qū)、低頻區(qū),再將高頻和中頻區(qū)語義進(jìn)行聚類。李國等[5]利用基于加權(quán)的LDA模型挖掘到文本中潛在主題分布和不同主題中詞語分布,結(jié)合K-Means 算法對文本進(jìn)行聚類,比傳統(tǒng)聚類算法得到更好的聚類效果。汪進(jìn)祥[6]利用LDA模型從語義上挖掘微博話題,使用增量聚類方法發(fā)現(xiàn)話題個(gè)數(shù),從而提高話題發(fā)現(xiàn)率。邢長征等[7]利用耦合空間LDA算法線性融合計(jì)算文本相似度,優(yōu)化閾值敏感問題,使文本聚類精度更高。

        1.2LDA模型的提出

        LDA算法是一種3層貝葉斯概率主題模型。概率模型是通過對中文分詞分布規(guī)律的觀察,實(shí)現(xiàn)對相似分布規(guī)律詞集的聚類[8]。3層貝葉斯模型的每一層次的一個(gè)項(xiàng)包含下一層次主題的集合,主題的下一層次包含的是詞語的集合。pw|d=pw|t*pt|d(1)對于文檔集合D,在公式(1)中,D中每個(gè)文檔d均為一個(gè)單詞序列。LDA以文檔集合D作為輸入,對每個(gè)D中的文檔d,對應(yīng)到不同topic(主題)集合T的概率θd< pt1,..., ptk>。對每個(gè)T中的topic t,生成不同單詞的概率φt< pw1,…, pwm>,通過當(dāng)前的θd和φt得出文檔d中出現(xiàn)單詞w的概率。其中p(t|d)利用θd計(jì)算得到,p(w|t)利用φt計(jì)算得到。

        根據(jù)θd和φt,計(jì)算文檔中的一個(gè)單詞對應(yīng)任意一個(gè)topic時(shí)的p(w|d),根據(jù)結(jié)果更新這個(gè)單詞所對應(yīng)的topic。若更新該單詞對應(yīng)的topic,就會(huì)反過來影響θd和φt。

        1.3文本處理與中文分詞

        文本信息即文字信息、數(shù)字信息和符號(hào)信息的集合。本文中被處理的源數(shù)據(jù)是經(jīng)過新浪微博開放平臺(tái)獲取的XML格式文件,即有格式文本。本文所處理的文本是文本信息,即為文本的主體信息。

        詞是“最小的能獨(dú)立運(yùn)用的語言單位”[9]。中文分詞(Chinese Word Segmentation)是指將組成句子的漢字序列用分隔符加以區(qū)分,切分成一個(gè)個(gè)單獨(dú)的詞[10]。同時(shí),在自然語言處理領(lǐng)域中,中文分詞也是其中一種較為關(guān)鍵的基礎(chǔ)技術(shù),其性能的優(yōu)劣對于中文信息處理尤為重要[11]。本文采用的中文分詞算法是基于字典或詞庫匹配的分詞算法,所采用的字典是“庖丁解牛”字典庫。

        1.4空間地理位置與多距離空間聚類

        地理位置是用來描述地理事物時(shí)間和空間關(guān)系的物理量。由圖1可知,按照地理位置的相對性和絕對性來劃分,一般分為自然地理位置、相對地理位置和絕對地理位置等3種。在本文中,采用絕對地理位置描述所有坐標(biāo)點(diǎn),即利用空間位置坐標(biāo)點(diǎn)的經(jīng)緯度信息來確定某個(gè)地點(diǎn)在地圖上的實(shí)際位置。

        空間聚類有助于識(shí)別空間目標(biāo)分布的密集和稀疏區(qū)域,進(jìn)而發(fā)現(xiàn)全局空間的空間分布模式,以及空間目標(biāo)間人們感興趣的、潛在的相互關(guān)系[12]。本文應(yīng)用的多距離空間聚類算法(The Spatial Distance Clustering Algorithm)主要是按照相似的測度或一定的測量距離在較大型的空間數(shù)據(jù)集中標(biāo)記出聚類或是能體現(xiàn)稠密程度的區(qū)域。具體做法是在空間中選擇n個(gè)對象作為類或簇的中心,對剩余的對象計(jì)算其到各個(gè)類中心的距離,并將其加入到離這個(gè)對象最近的一個(gè)類中,反復(fù)迭代計(jì)算各個(gè)類的平均值,并將其作為中心,直至目標(biāo)函數(shù)收斂。

        2文本及位置信息分詞模型

        2.1文本及位置信息分詞模型應(yīng)用

        在LDA模型中,分析計(jì)算得到的結(jié)果是詞頻。詞頻可以被看作是微博的一項(xiàng)元數(shù)據(jù)特征,而微博具有多項(xiàng)元數(shù)據(jù)[13]。在獲取微博短文本數(shù)據(jù)后,采用JGibbLDA v1.0對文本數(shù)據(jù)進(jìn)行中文分詞訓(xùn)練,利用基于字典或詞庫匹配的分詞算法對每個(gè)單詞進(jìn)行匹配。訓(xùn)練后的文本如圖2所示。

        2.2實(shí)驗(yàn)分析與總結(jié)

        采用LDA模型對獲取到的用戶所發(fā)文本信息及簽到位置數(shù)據(jù)進(jìn)行中文分詞訓(xùn)練,得到了各個(gè)文本集分詞后的結(jié)果及其詞頻。如圖3所示,該中文分詞模型能有效地將文本集進(jìn)行分詞訓(xùn)練,表明該結(jié)果集的詞組包含微博用戶簽到的地理位置,文本內(nèi)容,并將分詞的詞頻計(jì)算出來,由此可以確定在下一節(jié)中地理位置的定位及其評(píng)價(jià),從而向用戶推薦周邊娛樂活動(dòng)。

        3基于地圖的位置定位與搜索

        3.1基于地圖的定位與標(biāo)注

        在新浪微博上獲取的用戶簽到的地理位置信息,其信息包括地址、經(jīng)緯度、地址信息描述等。在實(shí)際地圖上標(biāo)注時(shí)采用百度地圖開放平臺(tái)進(jìn)行操作。本文利用API中的批量地址解析功能,將信息中經(jīng)緯度的具體數(shù)值轉(zhuǎn)換成具體地址,并將其和描述(title)添加到示例地圖中,形成可視點(diǎn)。如圖4所示,根據(jù)中心定位位置,在地圖上顯示周邊一定區(qū)域內(nèi)的熱點(diǎn)位置及商家名稱信息。

        3.2基于位置的搜索功能

        基于位置的搜索服務(wù)是基于地理位置服務(wù)中很重要的一類服務(wù),這種服務(wù)將搜索引擎和地理信息系統(tǒng)相結(jié)合,為用戶提供想搜索場所的具體信息[14]。在從微博短文本中獲取地理位置數(shù)據(jù)并將其標(biāo)注在地圖中后,會(huì)將其展示給用戶。具體做法是,由用戶填入篩選條件,如城市、區(qū)域、熱點(diǎn)位置等后,提交表單進(jìn)行搜索,由系統(tǒng)給出推薦方案,按照用戶提供的定位信息或需求,給出一定距離內(nèi)的周邊區(qū)域中商場、景點(diǎn)、飯店等娛樂場所的推薦。用戶可以點(diǎn)擊地圖中具體的標(biāo)注點(diǎn)來檢視商家的詳細(xì)信息。

        3.3多距離空間聚類算法的應(yīng)用

        本文應(yīng)用多距離空間聚類算法實(shí)現(xiàn)熱點(diǎn)位置的推薦,在輸入示例地點(diǎn)后搜索得到的商家位置結(jié)果集呈現(xiàn)無明顯特征的分布,即沒有集中在某個(gè)區(qū)塊供用戶來選擇。除此之外,在測試樣例中,搜索得到的結(jié)果并顯示在地圖上的時(shí)間很慢,存在信息過載的問題,降低了用戶體驗(yàn)。為了解決上述問題,可以將搜索的結(jié)果確定在一定范圍內(nèi),實(shí)現(xiàn)效率更高的檢索,這樣就可避免出現(xiàn)不切合實(shí)際的推薦結(jié)果,且能夠減少計(jì)算量,從而縮短系統(tǒng)的響應(yīng)時(shí)間[15]。因此,提出一種改進(jìn)的空間聚類算法來優(yōu)化現(xiàn)有的搜索算法,提高搜索結(jié)果的準(zhǔn)確率和效率。

        聚類算法的思路繁雜,可以通過劃分、層次、模型、密度等方法進(jìn)行探索[16]?;趧澐值目臻g聚類算法有K-means、K-medoids、ClARANS等算法。在本實(shí)驗(yàn)中,由于要預(yù)先確定用戶的位置,即聚類的中心,再向聚類中心的周圍進(jìn)行輻射,獲取熱點(diǎn)位置的推薦,恰好符合基于劃分的空間聚類的思想。因此,實(shí)驗(yàn)采用K-means算法完成空間聚類,對已有算法進(jìn)行改進(jìn)和優(yōu)化。K(r)=A∑ni-1∑nj-1w(i,j)πn(n-1) ,i≠j(2)式中,r為期望半徑;A為整個(gè)研究區(qū)域的面積;w(i,j)表示權(quán)重,可理解為在指定區(qū)域內(nèi)的實(shí)體間的聚集系數(shù);n為區(qū)域內(nèi)所有實(shí)體點(diǎn)的總個(gè)數(shù)。K(r)=ρ-1E(3)式中,ρ表示一個(gè)給定的區(qū)域密度,E表示挑選的事件,實(shí)驗(yàn)中挑選的事件為周邊推薦。在區(qū)域密度ρ一定的情況下,K(r)值越大,該事件越大,說明該點(diǎn)的聚集程度越大。

        4實(shí)驗(yàn)分析與結(jié)果

        4.1整體開發(fā)框架

        平臺(tái)功能框架如圖5所示。其中包括:數(shù)據(jù)文件上傳模塊、數(shù)據(jù)分析模塊、地圖顯示模塊和用戶推薦平臺(tái)模塊。

        4.2基于K-means算法對搜索功能的優(yōu)化

        在確定最優(yōu)聚集效果時(shí),考慮的是函數(shù)自變量,即最佳區(qū)域半徑r,根據(jù)經(jīng)驗(yàn),先選取若干個(gè)半徑值作為候選值,再逐一測試,得出最優(yōu)聚集效果,便可得到優(yōu)化后的空間聚類結(jié)果集。實(shí)驗(yàn)中分別輸入1 km、0.7 km、0.5 km、0.3 km進(jìn)行計(jì)算,結(jié)果如圖6所示。

        由圖6可以看出,在以經(jīng)緯度(126.623 839,45.779 025)為中心坐標(biāo)點(diǎn)進(jìn)行計(jì)算時(shí),若半徑r過大,包含過多無效區(qū)域和遠(yuǎn)距離推薦,得不到周邊區(qū)域熱點(diǎn)位置的推薦的初衷,若半徑r過小,則造成疏漏大量有價(jià)值的坐標(biāo)點(diǎn)。因此,認(rèn)為當(dāng)r近似等于0.5 km時(shí),空間中所有實(shí)體點(diǎn)聚類關(guān)系較密切,聚集程度較高,契合度較好。

        5結(jié)束語

        本文以基于地理位置的熱點(diǎn)推薦為研究目標(biāo),以地理位置信息為基礎(chǔ),實(shí)現(xiàn)了城市熱點(diǎn)推薦的平臺(tái)開發(fā)。利用新浪微博開發(fā)API接口獲取的用戶數(shù)據(jù),結(jié)合開源的LDA模型進(jìn)行中文分詞,并進(jìn)行詞頻統(tǒng)計(jì)處理,將地理位置信息和空間相結(jié)合,進(jìn)而轉(zhuǎn)換成在地圖上參考的可視化實(shí)體。實(shí)現(xiàn)了向用戶推薦周邊熱點(diǎn)地理位置的功能。優(yōu)勢在于結(jié)合多距離空間聚類算法檢驗(yàn)?zāi)骋粎^(qū)域內(nèi)結(jié)果集的聚集程度,計(jì)算出最優(yōu)的空間聚集距離,優(yōu)化搜索功能,提高了搜索的速度,增大了查詢的精確度。

        利用互聯(lián)網(wǎng)中社交媒體的數(shù)據(jù)信息進(jìn)行文本信息處理,具有重要的意義。隨著當(dāng)今“互聯(lián)網(wǎng)+”的發(fā)展,對于互聯(lián)網(wǎng)的數(shù)據(jù)分析和挖掘這一領(lǐng)域有著巨大的價(jià)值和前景,利用互聯(lián)網(wǎng)的海量數(shù)據(jù)進(jìn)行分析、挖掘和創(chuàng)新,可以研究出更多更有意義的應(yīng)用,實(shí)現(xiàn)對數(shù)據(jù)更大的價(jià)值體現(xiàn)。參考文獻(xiàn)

        [1] 張夢笑. 基于LDA模型的觀點(diǎn)聚類研究[D].山西大學(xué),2012.

        [2] Ivan T, Mcdonald R. A joint model of text and aspect ratings for sentiment summarization[J]. PROC. ACL-08: HLT, 2008:308--316.

        [3] Shen C,Liu F,Weng F, et al. A Participant-based Approach for Event Summarization Using Twitter Streams[C].//HLT-NACCL,2013:1152-1162.

        [4] 劉振鹿,王大玲,馮時(shí),等. 一種基于LDA的潛在語義區(qū)劃分及Web文檔聚類算法[J]. 中文信息學(xué)報(bào),2011,25(1):60-65,70.

        [5] 李國,張春杰,張志遠(yuǎn). 一種基于加權(quán)LDA模型的文本聚類方法[J]. 中國民航大學(xué)學(xué)報(bào),2016,34(2):46-51.

        [6] 汪進(jìn)祥. 基于主題模型的微博話題挖掘[D]. 北京郵電大學(xué),2015.

        [7] 邢長征,趙全穎,王偉,等. 基于優(yōu)化密度的耦合空間LDA文本聚類算法研究[J]. 計(jì)算機(jī)應(yīng)用研究,2017,34(7):1966-1970.

        [8] 張培晶,宋蕾. 基于LDA的微博文本主題建模方法研究述評(píng)[J]. 圖書情報(bào)工作,2012,56(24):120-126.

        [9] 漢語信息處理詞匯01部分:基本術(shù)語(GB12200.1-90)6[S]. 中國標(biāo)準(zhǔn)出版社,1991.

        [10]韓冬煦,常寶寶. 中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 計(jì)算機(jī)學(xué)報(bào),2015,38(2):272-281.

        [11] 斯惟,徐立恒,陳玉博,等. 基于表示學(xué)習(xí)的中文分詞算法探索[J]. 中文信息學(xué)報(bào),2013,27(5):8-14.

        [12]曾紹琴,李光強(qiáng),廖志強(qiáng). 空間聚類方法的分類[J]. 測繪科學(xué),2012,37(5):103-106.

        [13]唐曉波,向坤. 基于LDA模型和微博熱度的熱點(diǎn)挖掘[J]. 圖書情報(bào)工作,2014,58(5):58-63.

        [14]崔宏鵬. 移動(dòng)定位社交服務(wù)中好友與位置推薦框架[D]. 哈爾濱工程大學(xué),2013.

        [15]陳紅亮,周少華. 移動(dòng)商務(wù)中基于定位的個(gè)性化推薦系統(tǒng)研究[J]. 統(tǒng)計(jì)與決策,2008,21:71-73.

        [16]于磊. 基于地理位置信息的關(guān)聯(lián)規(guī)則挖掘研究與應(yīng)用[D]. 北京工業(yè)大學(xué),2015.

        国产69精品麻豆久久| 看全色黄大色黄大片 视频| 欧美精品一区二区蜜臀亚洲| 欧美激情区| 精品国产亚洲av成人一区| 国产精品国三级国产a| 国精品午夜福利视频不卡| 国产日韩成人内射视频| 男女在线免费视频网站| 精品人妻一区二区三区视频| 女女女女女裸体处开bbb| 免费啪啪视频一区| 精品国产自拍在线视频| 亚洲av三级黄色在线观看| 久久久国产乱子伦精品作者| 亚洲人成7777影视在线观看| 成人影院免费观看在线播放视频| 国产日产在线视频一区| 伊人久久综合无码成人网| 久久丫精品国产亚洲av不卡| 亚洲AV伊人久久综合密臀性色| 在线亚洲免费精品视频| 久久天堂一区二区三区av| 怡红院a∨人人爰人人爽| 久久中文字幕日韩无码视频| 国内自拍第一区二区三区| 加勒比精品视频在线播放| 色拍自拍亚洲综合图区| 国产白丝网站精品污在线入口| 狠狠久久av一区二区三区| 欧美男生射精高潮视频网站 | 亚洲成a人v欧美综合天堂| 最新国产av无码专区亚洲| 亚洲色欲色欲大片WWW无码| 99久久精品国产一区色| 亚洲综合国产成人丁香五月激情 | 国产成年女人特黄特色毛片免| 亚洲AV秘 无码一区二区三| 亚洲av高清不卡免费在线 | 亚洲黄色在线看| 成人av一区二区三区四区|