亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡模式下用戶的數(shù)據(jù)挖掘算法研究

        2017-11-14 07:06:45李超男
        電腦知識與技術 2017年29期
        關鍵詞:社交平臺

        李超男

        摘要:近來社交網(wǎng)絡的研究主要在社會網(wǎng)絡分析方面,包括公共關系、大眾傳播等領域,借鑒并融合了心理學、傳播學、社會學、信息論等多學科,逐步演變成為完整化、系統(tǒng)化的理論研究策略。這對在線社交網(wǎng)絡的數(shù)據(jù)分析與數(shù)據(jù)挖掘產(chǎn)生了非常大的挑戰(zhàn)。那么,對于不同的數(shù)據(jù)源,如何用適合的挖掘算法進行挖掘分析是數(shù)據(jù)挖掘研究工作者需考慮的重要問題。

        關鍵詞:網(wǎng)絡模式;社交平臺;網(wǎng)絡用戶;數(shù)據(jù)挖掘算法

        中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)29-0003-03

        1 概述

        互聯(lián)網(wǎng)高速發(fā)展時期,不同類型的網(wǎng)絡社交媒體不斷涌現(xiàn),除微信、微博、博客等熱門社交媒體外,其他應用型軟件也相繼出現(xiàn)網(wǎng)絡社交媒體的屬性,如百度網(wǎng)盤、淘寶、京東等。因此如今網(wǎng)絡模式下,用戶的社交屬性無處不在的,這也相繼產(chǎn)生了許多社交數(shù)據(jù),如何充分的、有效的挖掘利用此類社交數(shù)據(jù)以及熱門話題,這成為了很多學者和公司市場部門研究的熱點方向。

        研究此類數(shù)據(jù)的原因是顯而易見的,利用對社交媒體數(shù)據(jù)的挖掘和分析,可以增加對新話題的理解能力,達到商業(yè)中的人工智能,這也能對網(wǎng)絡用戶進行更好的服務,同時發(fā)現(xiàn)新的商機。如:對社會性網(wǎng)絡中的數(shù)據(jù)進行分析,辨別篩選出在特定的社會網(wǎng)絡用戶群體中具有意見領袖特征的人;發(fā)現(xiàn)網(wǎng)絡中一部分隱性興趣群體,歸類不一樣的興趣群組;找到特定用戶,根據(jù)用戶的某段時間內(nèi)的主觀情感進行主動規(guī)劃和推薦信息等。網(wǎng)絡模式下的社交網(wǎng)絡數(shù)據(jù)研究,是一個有活力的研究方向,可以為不同交叉學科領域帶來很大貢獻。

        2 網(wǎng)絡模式用戶數(shù)據(jù)

        2.1 社交網(wǎng)絡的分類

        網(wǎng)絡模式下社交媒體多種多樣,在概述部分已經(jīng)進行了一些舉例,下文進行詳細的分類,如表1。

        2.2 網(wǎng)絡模式數(shù)據(jù)的特征

        傳統(tǒng)的數(shù)據(jù),在分析之前,我們可以預見到它的趨勢并制定相應的算法進行分析,而網(wǎng)絡社交數(shù)據(jù)卻存在著很大的差異性,網(wǎng)絡社交數(shù)據(jù)的差異性體現(xiàn)在數(shù)據(jù)量龐大、非結(jié)構(gòu)化、動態(tài)且分散[1],因此,這種數(shù)據(jù)類型的數(shù)據(jù)分析,對高效的數(shù)據(jù)算法的需求很高。

        2.3 網(wǎng)絡模式數(shù)據(jù)的價值

        網(wǎng)絡數(shù)據(jù)從一些層面上看,體現(xiàn)出了用戶在某個時段的特定需求,通過網(wǎng)絡社交平臺,直接或間接表達出了自身的需求,這就會給我們?nèi)祟愋袨閷W的問題的研究帶來很多便利,同時對商業(yè)平臺的運營也會帶來很大的幫助,比如:通過對社交平臺的數(shù)據(jù)分析挖掘出潛在的客戶并加以推銷,對高效、新型的數(shù)據(jù)算法的需求也越來越強烈。

        3 網(wǎng)絡模式下的數(shù)據(jù)研究思路

        3.1 社會性網(wǎng)絡團體檢測

        網(wǎng)絡社交團體與實際生活中社團屬性相似[2] ,同樣是由個體組成的,并且網(wǎng)絡社交團體中個體與個體之間的交流活動,會比個體與外界的交流活動要多。在真正意義上網(wǎng)絡社交團體中,又分為顯性的社交網(wǎng)絡團體和隱性的社交網(wǎng)絡群體。其中,顯性的社交網(wǎng)絡團體,就是一些具有相同愛好興趣的用戶主動聚集起來的團體,而隱性社交網(wǎng)絡團體,則是由一些興趣關注相同個體組成,個體之間的交流不多,但會在自然的網(wǎng)絡環(huán)境的交流中逐漸發(fā)展為顯性群體。

        由于顯性的社交網(wǎng)絡團體,特征明顯,數(shù)據(jù)直觀,研究的難度并不大,因此,我們所說的對于社交網(wǎng)絡的社團的檢測,一般我們是針對隱性群體[3]。這些網(wǎng)絡社團的檢測充滿了挑戰(zhàn),因為這些團體的評估具有多樣化的特征,通常沒有決定性的正確。比如,在一個社交平臺中,兩個同時喜歡品茶的人,對茶的了解都非常深入,當我們把它們檢測為隱性群體時,實際上兩個人確實喜歡的完全不同的茶,一個喜歡喝綠茶,對紅茶很反感,而另外一個人正好相反。

        通常在網(wǎng)絡社團的檢測中,我們使用以下幾種方法:

        (1) 使用以層級關系建立的社團檢測法。其目標是創(chuàng)建出來一個社團的層級構(gòu)架??梢圆捎貌幌嗤牟呗詠矸治?,比較常用的有合并時聚類和分裂式聚類。

        (2) 使用以節(jié)點為中心的社團檢測。判斷節(jié)點是否符合一些特征,例如相互完整性、內(nèi)外聯(lián)系頻繁性等,數(shù)據(jù)的分析者常用的策略有k-clubs、cliques等。

        (3) 使用以網(wǎng)絡為中心的社團檢測。這一類的檢測中,數(shù)據(jù)分析者一般將網(wǎng)絡中一些不相交的子集,組織起來進行區(qū)分歸類而實現(xiàn),經(jīng)典的有譜聚類和模塊最大化等策略。

        本文以微博的社交數(shù)據(jù)的處理方法為研究對象,選取了基于模塊化的最大值算法。例如:假設一個社會性網(wǎng)絡被劃分為N個社團Kn,定義模塊化值為M(Kn) 用做分別社交網(wǎng)絡中社團質(zhì)量的度量,表示公式為:

        在這里,W=()n×n為權重值矩陣,A(V′,V″)= ,V為用戶節(jié)點集合為全部與社團c中的節(jié)點有聯(lián)系的邊的權重和,為在社團c中全部邊的權重和,表示整個社交圖中邊的權重和。

        在社會網(wǎng)絡團體中,N個社團的構(gòu)造特征越顯著,M(Kn)的值就越大。

        3.2 影響力建模

        對于社交網(wǎng)絡的潛在性分析,有兩個驅(qū)動性的要求需要特別注意,即這種潛在性的社交網(wǎng)絡是由同質(zhì)性驅(qū)動還是影響力驅(qū)動的。比如,在商業(yè)領域,若判定出該網(wǎng)絡社交團體是同質(zhì)性驅(qū)動,也就是相似性驅(qū)動的話,就可以直接向一些被作為目標的用戶發(fā)送推薦的商品信息;如果判定出該社交網(wǎng)絡是有影響力驅(qū)動的話,那么其中具有影響力的用戶一般被稱做“意見領袖”,辨別出來意見領袖,就能有償?shù)淖屇切┮庖婎I袖向網(wǎng)絡社交用戶推薦商品和服務[4]。如今網(wǎng)絡社交團體比較多且復雜,大多團體兼顧影響力驅(qū)動和同質(zhì)性驅(qū)動,因此如何準確的分析社團中哪種驅(qū)動性為核心主導力是重中之重的工作。如何檢測出社交團體中具有影響力的核心節(jié)點,顯得尤為重要,接下來介紹幾種對影響力建模的有效實現(xiàn)途徑。

        (1) 社會網(wǎng)絡平臺中的用戶在網(wǎng)絡中的度數(shù)越大,則他的影響力就越大,具體表示為:

        其中,a為某一個用戶的節(jié)點,A為整個社交網(wǎng)絡。endprint

        (2) 顧及到微博等社交網(wǎng)絡平臺的交互活動,依據(jù)用戶的消息記錄來計算出每個社交消息的平均轉(zhuǎn)發(fā)率,把每條消息引發(fā)的轉(zhuǎn)發(fā)行為視作用戶影響力的衡量指標:

        (3) 基于谷歌的PageRank算法思想,在某一社交網(wǎng)絡中,如果發(fā)現(xiàn)某一個用戶的影響力越大,則說明他被較多的優(yōu)質(zhì)用戶所關注,由此為依據(jù)獲得的社交網(wǎng)絡中的關注排名影響力算法如下:

        在此算法中,K(n)為社交網(wǎng)絡中用戶n的影響力,B(n)為所有關注n的社交網(wǎng)絡用戶的總和,A(m)是用戶m關注的用戶的總和。

        3.3 情感分析與意見挖掘

        情感分析與意見挖掘的主要目的是從用戶發(fā)布的信息中自動抽取出觀點。由于人們的語言具有多義性,這使得情感分析存在一定的難度。

        情感分析的主要步驟為:

        (1) 檢索出相應的文檔

        (2) 從文檔中找到相關的部分

        (3) 從相關的部分找到所有的感情

        (4) 進行量化分析每個感情

        (5) 聚集全部感情,并形成一個概述判斷

        意見挖掘的主要組成部分為:

        (1) 哪個用戶是意見表達的對象

        (2) 對這個對象表達了什么意見

        (3) 意見是誰表達的

        4 網(wǎng)絡數(shù)據(jù)的數(shù)據(jù)挖掘算法分析

        上文提到幾種對于社交網(wǎng)絡數(shù)據(jù)分析的重點部分,此章節(jié)主要對數(shù)據(jù)挖掘及處理部分進行對比分析,以求最優(yōu)的方案對數(shù)據(jù)進行有效的分析。

        常用的數(shù)據(jù)挖掘算法有數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Databass,KDD)、聚類分析、K-Means聚類算法等,此章節(jié)將對這幾個算法進行一一的分析。

        4.1 數(shù)據(jù)庫知識發(fā)現(xiàn)(數(shù)據(jù)挖掘的常規(guī)步驟)

        數(shù)據(jù)庫知識發(fā)現(xiàn),一般包括七個階段,分別是數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)選擇、模式發(fā)現(xiàn)、數(shù)據(jù)變換、知識表示和模式評估[5]。其中,數(shù)據(jù)的預處理階段包括數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)選擇和數(shù)據(jù)變換,這個階段是決定數(shù)據(jù)挖掘質(zhì)量優(yōu)劣的重要步驟。接著,利用數(shù)據(jù)挖掘的算法在數(shù)據(jù)中提取出有用模式的過程就是模式發(fā)現(xiàn)。模式評估與知識表示是接下來的處理步驟,通過采取一定的量規(guī)標準,辨別出真正有效的知識,通過可視化等技術呈現(xiàn)給用戶。

        數(shù)據(jù)庫知識發(fā)現(xiàn)的流程如圖1所示。

        4.2 聚類分析

        聚類分析是最經(jīng)常使用的數(shù)據(jù)挖掘的算法之一,并和機器學習的無監(jiān)督學習具有一定的關聯(lián)。另外聚類還在圖像識別、Web檢索、人工智能等領域具有廣泛的應用,也成為另外一些數(shù)據(jù)挖掘算法的預處理步驟。通常而言,聚類就是將數(shù)據(jù)劃分成為不同簇的過程,在不同簇的對象互相不同,而簇中的對象則彼此相似。大部分情況下,同一簇內(nèi)的對象可以被當做一個整體來看待。

        (1) 聚類的劃分標準

        依據(jù)聚類分類的不同標準,聚類算法通??煞譃閯澐址椒?、層次方法、基于網(wǎng)格的方法和基于密度的方法。

        劃分方法:把n個原始的數(shù)據(jù)對象劃分成i個簇(i≤n),每個簇至少包含一個對象。接下來假設Dm(1≤m≤k)是聚類劃分后的一個簇,N表示原始數(shù)據(jù)集合,便有:

        經(jīng)典的劃分算法主要有:k-中心點(K-Medoids)和k-均值(K-Means)算法,它們都是采用啟發(fā)式方法來逐步逼近最優(yōu)聚類結(jié)果,這一類算法適用于發(fā)現(xiàn)中小規(guī)模數(shù)據(jù)庫中的球狀簇。

        層次方法:層次方法分為凝聚的層次聚類和分裂的層次聚類兩種。層次聚類方法可以發(fā)現(xiàn)差異層次上的數(shù)據(jù)聚集模式。BIRCH算法便是一種傳統(tǒng)的層次聚類算法,它通常是用做大規(guī)模數(shù)據(jù)集聚類問題的處理;而Chameleon算法則是現(xiàn)階段應用良好的動態(tài)聚類算法,它能夠發(fā)現(xiàn)任意形狀的聚類簇。

        基于密度的方法:這類聚類方法是為了發(fā)現(xiàn)非球狀簇。他的主要思想是:一旦密度超過某一個限定的密度閩值,就能夠繼續(xù)擴大這個簇的范圍。通常來講,基于密度的聚類算法僅考慮互斥的簇,而不考慮模糊集合。DENCLUE和DBSCAN都是基于密度的聚類算法[6]。

        基于網(wǎng)格的方法:這種方法首先要形成一個網(wǎng)格的結(jié)構(gòu),形成網(wǎng)格結(jié)構(gòu)的方法是將數(shù)據(jù)空間分類成特定個數(shù)的數(shù)據(jù)單元,最終在網(wǎng)格結(jié)構(gòu)上進行聚類操作?;诰W(wǎng)格的聚類主要有STING,GRIDCLUS 等。

        (2) 相似性的度量

        主要的相似性度量方法有以下四種:基于概率的度量方法、基于密度的度量、基于連接的度量方法和基于距離的度量方法。

        基于距離的相似性度量方法的優(yōu)點是:計算比較簡單,易于理解。但缺點也相對較明顯,對不相關的數(shù)據(jù)信息比較敏感。主要的距離度量指標有角度的余弦值、曼哈頓距離和歐幾里德距離?;诿芏鹊南嗨菩远攘糠椒ㄓ谢诿芏群瘮?shù)的方法、基于網(wǎng)格的方法和最近鄰方法。DBSCAN,OPTICS和CLIQUE都是基于密度的相似度量方法?;谶B接的相似性度量方法是建立在數(shù)據(jù)連接圖的基礎上,根據(jù)圖的邊測信息來進行數(shù)據(jù)聚類,把滿足一定連接數(shù)閩值的數(shù)據(jù)聚合成簇。這種方法的度量標準是數(shù)據(jù)對象的連接數(shù)量。基于概率的度量方法建立在統(tǒng)計學理論基礎上,主要有COBWEB, AutoClass和混合模型等。

        (3) 簇的分離性

        通常來說,按照簇的分離性可將聚類結(jié)果分為模糊簇和互斥簇。一般的聚類篩選是一種硬性的篩選,數(shù)據(jù)集中的每個數(shù)據(jù)對象都被硬性地按照某個規(guī)則劃分到某個簇中,這樣劃分會使得簇之間具有明顯的區(qū)別界限。其實模糊聚類簇不是互斥的,多個簇與數(shù)據(jù)對象之間有著不一樣的隸屬關系,它們之間形成了數(shù)據(jù)對象和類別的不確定性描述。所以模糊簇相對于硬性劃分的聚類簇能夠更真實地反應客觀世界。通過計算對應目標函數(shù)的最小值得到最終的軟化分結(jié)果的模糊C均值(FCM)聚類算法就是一種常見的模糊聚類算法。endprint

        4.3 K-Means聚類算法

        對網(wǎng)絡用戶行為的特征相似程度以及分布情況進行分析時,經(jīng)常會應用K-Means聚類算法。此算法是由J.B.MacQueen最早發(fā)現(xiàn)并提出的,以及在醫(yī)學、生物科學、文本文檔聚類等領域得到了廣泛應用[7]。K-Means聚類算法的目標是發(fā)現(xiàn)對象簇的相似度和分布狀況,從而獲得研究對象的群體特征。

        K-Means算法在網(wǎng)絡用戶的興趣特征挖掘分析中的應用,能夠準確快速的發(fā)現(xiàn)用戶的興趣,并且,通過對網(wǎng)絡用戶的數(shù)據(jù)挖掘,進一步對群體用戶的興趣特征進行聚類分析[8]。這樣便于之后對用戶進行內(nèi)容推送以及興趣的預測。

        K-Means聚類算法可以簡單描述為首先任意從數(shù)據(jù)集F中采用k個數(shù)據(jù)點當做初始簇的中心點,然后在每個簇的中心以外的數(shù)據(jù)點依次計算到各簇以特定為半徑的區(qū)域距離,將數(shù)據(jù)點分類到最近的簇中心所代表的簇中,再從新計算出每個簇的簇中心。將這個步驟經(jīng)數(shù)次的重復迭代,一直迭代到符合中止的條件為止[9]。

        K-Means算法簇中心的計算公式是:

        其中,Cj表示第j個簇,j=1,2,….,k;mj用來呈現(xiàn)簇Cj的簇的中心區(qū)域(抽象理解為簇中全部數(shù)據(jù)的平均值向量);表示簇Cj中包含的數(shù)據(jù)點數(shù)。數(shù)據(jù)點xi到簇中心mj的距離計算公式為:

        下面任意一個條件都能夠終止此迭代過程:

        (1) 不再有數(shù)據(jù)點被重新分配

        (2) 簇中心沒有再發(fā)生變化

        (3) 誤差平方和(SSE)局部最小

        K-Means算法的特征為首先就要確定預計將要分類的簇個數(shù)k,并且聚類的最終效果在較為偏重于依賴選取初始簇的中心。學者常用的判斷簇個數(shù)k的方法是選取多個k的值,實現(xiàn)盡可能多數(shù)次的聚類,將之前多數(shù)次聚類的值進行分析,再依據(jù)分析結(jié)果來最終判斷簇的個數(shù)。選擇初始簇中心的方法有很多種,目前大眾普遍接受的方法是“密度法”[10],密度法是按特定的半徑將所有數(shù)據(jù)點進行分類,選取分布在數(shù)據(jù)點為中央的以特定長度為半徑的區(qū)域內(nèi)的數(shù)據(jù)點數(shù)最多的前k個點為初始簇中心。

        5 小結(jié)

        對于網(wǎng)絡模式下的社交團體的數(shù)據(jù)挖掘分析,由于數(shù)據(jù)量龐大、情感因素較多等等原因近年來一直是此類數(shù)據(jù)挖掘研究的難題。本文就幾種最常用的數(shù)據(jù)挖掘分析算法進行了對比分析,并對網(wǎng)絡模式下社交團體的數(shù)據(jù)挖掘進行詳細的預分析。但網(wǎng)絡社交團體的數(shù)據(jù)挖掘分析,依然存在著很多客觀的難題,這也將是我以后研究工作的重要方向。

        參考文獻:

        [1] 周小平,梁循,趙吉超,李志宇,馬躍峰. 面向社會網(wǎng)絡融合的關聯(lián)用戶挖掘方法綜述[J]. 軟件學報:1-21.

        [2] 劉冰,趙君麗. 基于社會網(wǎng)絡分析的國內(nèi)E-learning數(shù)據(jù)挖掘研究述評[J]. 通化師范學院學報,2015(04):127-129.

        [3] 宋洋. 基于社會網(wǎng)絡分析的Web數(shù)據(jù)挖掘研究[D].山東理工大學,2015.

        [4] 肖志軍. 一種面向社會網(wǎng)絡的熱點話題數(shù)據(jù)挖掘算法[J]. 計算機應用與軟件,2014(06):24-28.

        [5] 于樂. 社會網(wǎng)絡中社團發(fā)現(xiàn)及網(wǎng)絡演化分析[D].北京郵電大學,2014.

        [6] 劉行軍. 微博用戶及其信息傳播影響因素研究[D].華中師范大學,2013.

        [7] 陳康,朱應堅,向勇. 面向社交網(wǎng)絡的用戶數(shù)據(jù)挖掘技術研究[J]. 電信科學,2013(S1):94-101.

        [8] 王千,王成,馮振元,葉金鳳. K-means聚類算法研究綜述[J]. 電子設計工程,2012(07):21-24.

        [9] 周志勇. 聚類分析算法研究[D].河北大學,2007.

        [10] 邢留偉. K-Means算法在客戶細分中的應用研究[D].西南財經(jīng)大學,2007.endprint

        猜你喜歡
        社交平臺
        面向ACG的動漫平臺APP分析與設計
        價值工程(2018年7期)2018-02-08 10:11:34
        淺析網(wǎng)絡時代思政輔導員的角色新定位與工作新途徑
        基于移動社交平臺的用戶信任度分析研究
        社交網(wǎng)絡中的蒸發(fā)冷卻效應研究
        新媒體研究(2017年9期)2017-07-26 22:19:57
        激情打車
        民間文學(2017年4期)2017-05-05 05:42:50
        網(wǎng)絡時代下的粉絲經(jīng)濟與體育新媒體探究
        中國市場(2017年9期)2017-03-29 08:33:31
        “社交平臺+傳統(tǒng)媒體”發(fā)展模式的研究
        聲屏世界(2017年1期)2017-03-20 16:21:36
        微博對中職思想政治教育的影響及利用對策
        社交平臺下電子商務盈利模式創(chuàng)新研究
        網(wǎng)絡視頻直播熱潮下傳統(tǒng)電視媒體的突圍
        出版廣角(2016年21期)2017-01-07 21:30:05
        av免费观看在线网站| 久久天堂av综合合色| 在线视频自拍视频激情| 亚洲熟女少妇精品综合| 亚洲综合色无码| 欧美人与动牲交a精品| 美女大量吞精在线观看456| 自慰高潮网站在线观看| 国产精品黄色av网站| 亚洲一区二区日韩精品在线| 欧美老肥妇做爰bbww| 中文成人无字幕乱码精品区| 2021年国产精品每日更新| 国产激情视频免费观看| 国产av无毛无遮挡网站| 视频区一区二在线观看| 青青草 视频在线观看| 国产欧美日韩综合精品一区二区| 国产成人综合在线视频| 国产一线视频在线观看高清| 久久国产女同一区二区| 亚洲av毛片在线免费观看| 亚洲精品久久久久成人2007 | 国产男女插插一级| 日韩av中文字幕一卡二卡| 户外精品一区二区三区| 和黑人邻居中文字幕在线 | 久久无码精品精品古装毛片| 天堂av在线免费播放| 黄色国产精品福利刺激午夜片| 97人伦影院a级毛片| 国产亚洲情侣一区二区无 | 久久迷青品着产亚洲av网站| 一本色道久久亚洲精品| 国产一区国产二区亚洲精品| 国产精品无码aⅴ嫩草| 精品乱码久久久久久中文字幕| 国产麻豆精品久久一二三| 日本视频在线观看二区| 国产一区二区三区免费观看在线| 双腿张开被9个黑人调教影片|