亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        社交網絡用戶發(fā)布模式和興趣預測研究

        2020-05-15 08:11:28崔曉暉
        計算機工程與應用 2020年9期
        關鍵詞:元組帖子準確率

        胡 璨,崔曉暉

        武漢大學 國家網絡安全學院,武漢430072

        1 引言

        近年來,社交網絡服務(SNS)在日常生活中的應用大大增加,已經成為用戶分享想法的主要平臺,使得人們可以跨越政治、經濟和地理邊界進行聯(lián)系。社交網絡服務允許用戶創(chuàng)建公共個人資料,并為用戶提供表達意見,分享內容和上傳照片或視頻的空間,其便利性吸引了數(shù)十億用戶。根據(jù)2018 年6 月更新的前20 個有價值的Facebook 統(tǒng)計數(shù)據(jù)[1],每月活躍的Facebook 用戶超過22億,每天上傳大約3億個帖子。

        隨著社交媒體的日益普及,為在線社交網絡的增長提供了在更廣泛的背景下分析用戶文本的機會。在社交網絡中,用戶對各種主題感興趣,并且通常具有不同的情感傾向和發(fā)布行為。社交網絡用戶的行為通常由他們的興趣引發(fā)。例如,對政治感興趣的用戶經常分享很多新聞并發(fā)表他們的批評意見。更好地理解用戶發(fā)布行為已成為許多個性化和信息過濾應用程序的關鍵。目前對社交網絡用戶發(fā)布行為的研究主要對基于帖子特征和發(fā)帖的動機來對用戶類型進行分類。然而,現(xiàn)有研究簡單地假設每個用戶具有唯一的用戶類型,由于存在不同的情緒模式和用戶意圖,這在許多社交網絡的應用場景中并不準確。例如,一些用戶可能具有混合的發(fā)布模式,而另一些用戶則具有一致的發(fā)布行為模式。

        為了解決這個問題,本文提出了一種全新的基于離散元組的LDA(Latent Dirichlet Allocation)模型來表征社交網絡用戶的發(fā)布行為,從而將用戶的發(fā)布行為表示為發(fā)布模式的概率分布,而不是單一的類別。作為發(fā)布模式分布的應用,將發(fā)布模式的分布用于用戶興趣預測。

        本文的貢獻可歸納為如下兩點:

        第一,提出基于LDA 的社交網絡用戶發(fā)布模式模型,從而表征用戶的發(fā)布模式。以這種方式,一個用戶的發(fā)布活動被表示為發(fā)布模式的概率分布。

        第二,驗證將發(fā)布模式作為特征可提高用戶興趣的準確率。整合用戶發(fā)布模式分布、用戶資料和用戶帖子類型特征,并與從用戶喜歡頁面中提取的語義特征相結合,構建興趣預測模型。

        在發(fā)布模式的實驗中,本文選取最佳LDA 模型并確定了八種發(fā)布模式:(1)中立客觀短文本;(2)中立非主觀長文本;(3)積極主觀中長文本;(4)中立客觀長文本;(5)積極偏主觀中長文本;(6)積極偏客觀中短文本;(7)積極偏主觀中短文本;(8)中性偏客觀中長文本。

        在興趣預測實驗中,分別使用發(fā)布模式分布特征、用戶資料特征、用戶帖子類型特征和用戶喜歡頁面中提取的語義特征。結果表明,使用所有特征比不使用發(fā)布模式分布特征時,預測的準確率更高。這表明發(fā)布模式分布特征盡管獨立于興趣或主題的語義,但可以有效提高預測的準確率。

        2 相關工作

        社交網絡用戶分析不是一個新的研究課題,目前已有大量關于分析用戶行為和個人信息的研究。社交網絡用戶分類是一個有監(jiān)督的機器學習問題,即需要首先確定用戶的類別范圍,然后通過訓練分類模型預測用戶的類別[2]。一些研究基于用戶的行為和使用社交網絡的動機來調查用戶類型。例如,Brandtzaeg 等[3]提出了社交網絡的用戶類型,它識別并描述了人們使用社交網絡的各種方式。他們分析了挪威四個主要社交網絡中5 233 名受訪者的調查數(shù)據(jù),并確定了五種不同的用戶類型:(1)散發(fā)性,(2)潛伏者,(3)社交者,(4)辯論者,(5)活躍者。Dewi[4]提出了一個兩層的聚類模型并得到五種不同的用戶類型。一些社交網絡用戶分類方法基于文本內容信息,采用成熟的文本分類模型進行用戶分類。例如,Zubiaga[5]等通過采集用戶的社會化標簽數(shù)據(jù),并應用支持向量機分類模型進行分類。此外,一些方法融合社交網絡用戶文本內容以及關系網絡信息進行分類,如Mlcmlw 方法[6]集體分類方法。現(xiàn)有研究簡單地假設每個用戶具有唯一的用戶類型。

        檢測社交網絡中用戶的情緒狀態(tài)也引起了國內外學者的注意。一些研究調查用戶情緒變化的時序模式[7-8]。例如,Gutierrez等[9]表明Twitter用戶至少在30天內始終保持在一個情緒概況集群中。但是,有必要進一步研究典型和穩(wěn)定的情緒集群。

        針對用戶興趣分析,大多數(shù)研究側重于通過使用從用戶的日常帖子中提取的語言特征來預測社交網絡用戶的興趣。研究表明,社交網絡中50%左右的用戶選擇了隱藏他們的用戶信息,70%的用戶選擇了隱藏他們的興趣愛好[10]。丁宇新等[11]通過構造主題模型與語言模型相結合的雙層模型,利用朋友關系與組織關系解決微博的個性化搜索問題。何炎祥等[12]提出一種針對社交網絡用戶生成內容和用戶關注信息的用戶偏好挖掘方法。黃泳航等[13]使用社交網絡的拓撲結構信息挖掘社交用戶的朋友圈社區(qū)去預測用戶的偏好。Kim 等[14]利用Facebook中的喜歡數(shù)量和主題內容來預測用戶興趣。Su等[15]表明,對不同利益群體感興趣的用戶通常會有不同的情緒傾向和發(fā)布活動。因此,表征這些發(fā)布活動特征將改善用戶興趣的預測模型。

        3 發(fā)布模式和興趣預測模型

        針對傳統(tǒng)用戶發(fā)布行為的研究在用戶分類方面的不足,本文提出一種全新的方法,該方法包括發(fā)布模式模型和興趣預測模型,方法的整體框架如圖1所示。

        圖1 方法整體框架

        整個方法由三個子過程來處理完成,其中數(shù)據(jù)收集模塊從Facebook 中采集用戶和帖子并進行情感分析。發(fā)布模式模塊生成帖子的離散元組,并在離散元組上構建LDA 模型,從而獲得潛在的發(fā)布模式。本文中,發(fā)布模式對應LDA 模型中的主題,指的是用戶帖子集合中同時出現(xiàn)的離散元組的重復模式。經過非監(jiān)督學習,LDA 模型得到表征用戶的發(fā)布模式分布的參數(shù)。興趣預測模塊整合用戶的發(fā)布模式分布、用戶個人資料和帖子類型,并與從用戶喜歡頁面中提取的語義特征相結合,構建興趣預測模型。

        3.1 發(fā)布模式模型

        3.1.1 離散元組

        離散化是將連續(xù)變量轉換為離散變量的過程,多元轉換是數(shù)據(jù)離散化的方法之一。多元轉換中,如果要分成n 類,就要給出n+1個閥值組成的數(shù)組,任意一個數(shù)都可以被放在某兩個閥值的區(qū)間內。

        本文利用多元轉換的方法構造離散元組,具體操作主要分為兩步。第一步,對每個帖子計算極性值、主觀性值和字數(shù),其中極性值和主觀性值由TextBlob計算得到,字數(shù)即帖子中單詞的數(shù)量;第二步,通過多元轉換分別對極性值、主觀性值和字數(shù)進行離散化,得到離散變量和,并構造三元組

        根據(jù)多元轉換方式的不同,可以得到不同類型的離散元組。例如,將極性值分為5 個區(qū)間,主觀性值分為3個區(qū)間,字數(shù)分為5 個區(qū)間,可得元組類型1,如表1 所示。類似地,通過更精細的離散化,將三個維度分別分為9、5、9 個區(qū)間,得到元組類型2;將三個維度分別分為13、9、13個區(qū)間,得到元組類型3。

        表1 離散元組類型1的多元轉換方式

        3.1.2 基于離散元組的LDA模型

        LDA 是一種非監(jiān)督機器學習技術,可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息。在LDA中,每個文檔可以被視為各種主題的混合。

        基于傳統(tǒng)的LDA 模型,本文提出一種基于離散元組的LDA 模型,模型的基本思想是:將文檔對應于用戶,將主題對應于用戶的發(fā)布模式,將詞對應于表示帖子的元組。模型中,每個用戶可以被視為各種發(fā)布模式的混合,經過吉布斯采樣(Gibbs Sampling),得到每個用戶的發(fā)布模式的分布以及每個發(fā)布模式的帖子元組的分布。模型的框架與傳統(tǒng)的基于詞的LDA 模型一致,如圖2所示。

        模型基于以下假設:(1)帖子按時間順序獨立生成;(2)每個用戶按照其時間線發(fā)帖,獨立于其他用戶;(3)每個帖子選用K 個有限的發(fā)布模式;(4)K 個發(fā)布模式對所有用戶是統(tǒng)一適用的。

        圖2 基于離散元組的LDA模型

        經過吉布斯采樣,LDA 模型學習得到參數(shù)α,β,θm,φk,tm,n和pm,n,參數(shù)的定義以及與傳統(tǒng)的LDA 模型參數(shù)的對比如表2所示。

        表2 本模型和傳統(tǒng)LDA模型的參數(shù)對比

        3.1.3 模型的測評

        為了生成最佳的LDA 模型,需要調整模型的參數(shù)。LDA模型最重要的調整參數(shù)是發(fā)布模式的數(shù)量(K)。本研究采用兩個指標來評估模型的好壞:困惑度(Perplex‐ity)和DB 指數(shù)(Davies-Bouldin index)。通過計算和比較不同K 值下模型的困惑度和DB 指數(shù),選取最佳的LDA模型。

        困惑度是衡量概率分布或概率模型預測樣本的優(yōu)劣程度的指標[16]。困惑度越低表示概率模型越善于預測樣本。LDA模型的困惑度的計算方法如下:

        DB 指數(shù)是聚類質量的內部評估方案[17]。使用歐幾里德距離的DBI由公式(3)給出:

        在計算DB指數(shù)時,將帖子類型視為聚類,將元組視為點。ci和cj是聚類i和聚類j的中心。Ci是聚類i中的點與聚類的中心之間的平均距離。同樣,Cj是聚類j 中的點與聚類的中心之間的平均距離DB指數(shù)越低表示聚類越好地被分離。

        3.2 興趣預測模型

        作為發(fā)布模式模型的應用,將用戶的發(fā)布模式分布作為特征,構建興趣預測模型。本數(shù)據(jù)集中的用戶來自15 個公共Facebook 興趣小組,每個用戶只屬于一個Facebook興趣組。

        3.2.1 二元分類模型

        采用二元分類(binary classification)模型進行用戶興趣預測。二元分類模型只預測用戶是否對特定的興趣主題感興趣,而不將用戶分為一個特定的興趣小組。因為在現(xiàn)實情況下,一個用戶可能有很多興趣,所以二元預測模型比多元預測模型更為合理,且更適用于推薦系統(tǒng)。例如,旅游公司中的廣告商只想知道一個用戶是否對旅行感興趣,而不關心此用戶是否對其他興趣主題感興趣。對于每個興趣主題,模型預測用戶是否對其感興趣,從而將多分類模型分別拆分為15 個二元預測模型。

        3.2.2 用戶興趣預測的特征

        用于用戶興趣預測的特征包括以下四類:

        (1)用戶發(fā)布模式特征:從發(fā)布模式模型中提取的用戶發(fā)布模式分布。

        (2)用戶資料特征:用戶個人資料,如互相關注人數(shù),相冊照片數(shù)等。

        (3)帖子類型特征:用戶的不同類型的帖子數(shù),如使用表情的帖數(shù),純文本帖數(shù)等。

        (4)從用戶點贊的主頁中提取的語義特征:使用語義特征進行興趣預測是一種傳統(tǒng)方法。Facebook中,用戶點贊的主頁通常與某些興趣主題相關聯(lián)。從用戶點贊的主頁中提取語義特征的方法如下:提取用戶點贊的主頁并將這些頁面分類為1 200 個子類別,對于每個子類別,計算用戶點贊的主頁中屬于此子類別的主頁的數(shù)量,然后給每個用戶賦予一個1×1 200向量,該向量即從用戶點贊的主頁中提取的語義特征。

        3.2.3 預測算法

        采 用XG Boost 分 類 器(Extreme Gradient boost‐ing)[18]作為預測算法。XGBoost 是在Gradient Boosting框架下部署優(yōu)化的機器學習算法的庫。預測中,采用十倍交叉驗證,訓練集和驗證集之間的比例是7∶3。

        4 實驗結果及分析

        4.1 數(shù)據(jù)收集

        數(shù)據(jù)集中的用戶來自15 個Facebook 公共小組,這些小組擁有超過1 000 名成員,與各種興趣主題有關,如商業(yè)、政治、寵物、音樂、體育等,各興趣組的用戶數(shù)如表3所示。通過FacebookGraphAPI采集活躍用戶,即上個月在關于興趣小組中發(fā)表過至少一篇帖子的用戶。剔除將發(fā)帖頁面或個人資料頁面設置為私有的用戶后,共獲得1 149 個用戶。開放數(shù)據(jù)集下載鏈接:http://gituhub.com/sustainn/LDA-on-discrete-score-tuple。

        表3 各興趣小組的用戶數(shù)

        對于每個用戶,從用戶的主頁中提取2018 年發(fā)布的所有公共文本帖子。在刪除非英文帖子后,最終獲得了138 810 個英文文本帖子,對于每個帖子,剔除URL和表情符號。

        4.2 發(fā)布模式

        4.2.1 最佳LDA模型

        LDA 模型最重要的調整參數(shù)是基于發(fā)布模式的數(shù)量(K)。通過計算不同K 值下LDA 模型的困惑度和DB指數(shù),選取困惑度和DB 指數(shù)均較低的模型為最佳的LDA主題模型。

        對于不同的元組,不同K 值下模型的困惑度和DB指數(shù)如圖3 和圖4 所示。可以看出,當采用元組1,K 為8時,困惑度和DB指數(shù)較低。

        圖3 不同發(fā)布發(fā)布模式數(shù)和元組下模型的困惑度

        4.2.2 標記發(fā)布模式

        圖4 不同發(fā)布發(fā)布模式數(shù)和元組下模型的DB指數(shù)

        通過元組類型1的LDA模型,模型提取出八種發(fā)布模式,并得到表征發(fā)布模式的元組分布的參數(shù)φk。為了標記這八種發(fā)布模式,繪制各個發(fā)布模式的元組的概率分布的散點圖。用兩個二元組{極性,主觀性}和{極性,字數(shù)}來表示三元組{極性,主觀性,字數(shù)},對于每一種發(fā)布模式,用兩個散點圖表示二元組(極性,主觀性)和(極性,字數(shù))的概率分布。散點圖中,點的橫坐標表示極性,縱坐標表示主觀性或字數(shù);以點為中心的圓圈表示屬性的值為點的橫縱坐標的元組出現(xiàn)的概率,圓圈的面積與概率成正比;整個散點圖的質心用一個黑色的點表示,質心的坐標標在圖的右上角。根據(jù)質心的坐標和圓圈的大小,可為發(fā)布模式添加標簽。

        例如,發(fā)布模式1 的元組的概率分布如圖5 所示。可以看到面積最大的藍色圓圈位于極性軸的中間,主觀性軸的底部和字數(shù)軸的底部,因此可以將發(fā)布模式標記為“中立客觀短文本”。圖中的質心說明了同樣的結論。通過同樣的方式,可標記其他發(fā)布模式為:“中立非主觀長文本”,“積極主觀中長文本”,“中立客觀長文本”,“積極偏主觀中長文本”,“積極偏客觀中短文本”,“積極偏主觀中短文本”,“中性偏客觀中長文本。

        圖5 發(fā)布模式1的元組概率分布圖

        4.2.3 相似用戶

        通過元組類型1 的LDA 模型,模型提取出8 種發(fā)布模式,并得到表征用戶的發(fā)布模式分布的參數(shù)θm,即表征用戶m 的發(fā)布模式分布的八維向量。通過計算和比較用戶的發(fā)布模式分布的余弦相似度,可以找到具有相似發(fā)布模式的用戶。余弦相似度,又稱為余弦相似性,是通過計算兩個向量的夾角余弦值來評估向量的相似度。對于向量A和B:

        例如,以下2 個用戶的發(fā)布模式分布之間的余弦相似度為0.985,如圖6 所示。通過人工檢驗,發(fā)現(xiàn)兩個用戶經常發(fā)布積極、中等長度的帖子。他們都屬于JazzmastersJaguars 興趣組。通過人工檢驗,可以驗證發(fā)布模式分布的合理性和準確性。

        圖6 用戶Cody Hanlon和Charles Hoerneman的時間軸帖子

        4.3 興趣預測

        用于用戶興趣預測的特征包括用戶行為特征和從用戶點贊的主頁中提取的語義特征。其中,用戶行為特征如表4 所示,包含三個部分:(1)用戶資料特征;(2)帖子類型特征;(3)從LDA 模型提取的用戶發(fā)布模式概率分布特征。

        圖7 和圖8 中顯示了將不同K 值和元組下LDA 模型的參數(shù)值θm作為發(fā)布模式特征時,預測模型的準確率和F1值。可以看出,對于所有元組,當K 為7到9時,預測模型的準確率和F1值較高;隨著K 值繼續(xù)增大,預測模型的準確率和F1值下降。這是因為在LDA 模型中,主題數(shù)越多,模型越容易過擬合。預測模型的結果與LDA 模型的困惑度和DB 指數(shù)結果吻合。當選取元組1,K 為8 時,興趣預測的準確率最高;當選取元組2,K 為7時,興趣預測的F1值最高。

        表4 用戶行為特征

        圖7 采用不同發(fā)布模式數(shù)和元組時預測模型的準確率

        圖8 采用不同發(fā)布模式數(shù)和元組時預測模型的F1值

        選取元組2,K 為7 時LDA 模型的結果作為發(fā)布模式特征。分別采用以下四種特征用于興趣預測:(1)用戶個人資料特征和帖子類型特征;(2)用戶行為特征,即用戶個人資料特征、帖子類型特征和發(fā)布模式特征;(3)用戶行為特征用戶個人資料特征、帖子類型特征和從用戶點贊的主頁中提取的語義特征;(4)所有特征,即用戶個人資料特征、帖子類型特征、用戶發(fā)布模式特征和從用戶點贊的主頁中提取的語義特征。表5 中展示了對于各個興趣組,分別采用上述四種特征時二元分類模型的準確率,最佳結果標記為粗體??梢钥吹剑褂锰卣?比使用特征1時的平均準確率高0.03,使用特征4比使用特征3時的平均準確率高0.02。這表明使用用戶發(fā)布模式分布可以有效提高用戶興趣預測的準確率。除了旅行組,對于大多數(shù)興趣組,使用所有特征時,預測的準確率最高,平均準確率達到0.81。

        表5 使用不同特征時XGB算法下的二元分類模型的準確率

        相關研究[15]提出了一種兩層k-means 聚類方法,并發(fā)現(xiàn)了七種用戶類型。將聚類模型的興趣預測的準確率與本文結果進行比較,如表6 所示。可以看出,本文提出的發(fā)布模式模型比聚類模型在興趣預測模型中可達到更高的準確率。

        5 總結

        本文提出了一種方法來挖掘社交網絡用戶潛在的發(fā)布模式并預測用戶興趣。首先,通過構建基于離散元組的LDA 模型,得到用戶的發(fā)布模式分布。然后將發(fā)布模式分布特征與用戶資料特征和帖子類型特征結合,得到用戶行為特征。最后,將用戶行為特征用于興趣預測。在興趣預測實驗中,結果顯示本文提出的用戶發(fā)布活動特征可以有效預測用戶的興趣。與僅使用語言特征相比,將用戶發(fā)布行為特征和語言特征結合可以實現(xiàn)更高的預測準確率。本研究可應用于用戶分析、興趣預測和個性化推薦系統(tǒng)等領域。

        表6 發(fā)布模式模型與兩層聚類模型的二元分類模型的準確率

        猜你喜歡
        元組帖子準確率
        Python核心語法
        電腦報(2021年14期)2021-06-28 10:46:22
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
        海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
        高速公路車牌識別標識站準確率驗證法
        基于減少檢索的負表約束優(yōu)化算法
        暴力老媽
        面向數(shù)據(jù)流處理的元組跟蹤方法
        電信科學(2013年10期)2013-08-10 03:41:54
        情事圈點
        女性天地(2012年11期)2012-04-29 00:44:03
        a级毛片免费观看网站| 亚洲国产精品日韩av专区| 国产黄污网站在线观看| 少妇私密会所按摩到高潮呻吟| 亚洲成人福利在线观看| 新久久久高清黄色国产| 日本视频一区二区三区免费观看| 91国语对白在线观看| 中文字幕国产精品一二三四五区| 久久www免费人成—看片| 亚洲精品二区中文字幕| 日韩av中文字幕亚洲天| 激情亚洲一区国产精品久久| 人妻无码一区二区视频| XXXXBBBB欧美| 在线亚洲精品免费视频| 少妇真实被内射视频三四区| 国产超碰人人模人人爽人人喊| 免费网站国产| 日本变态网址中国字幕| 一区二区三区视频在线观看免费| 亚洲国产精品综合久久网各 | 亚洲自拍愉拍| 国产偷闻女邻居av在线观看| 国产无遮挡aaa片爽爽| 18禁无遮挡羞羞污污污污网站| 黄色大片一区二区中文字幕| 毛片在线播放亚洲免费中文网| 东京道一本热中文字幕| 国产美女精品aⅴ在线| 一区二区三区在线观看视频| 国产精品亚洲精品日韩已方| 亚洲av伊人久久综合密臀性色| 无码熟妇人妻AV不卡| 蜜桃视频一区二区三区四| 天堂8在线天堂资源bt| 亚洲AV永久青草无码性色av| 最新国产精品国产三级国产av| 99999久久久久久亚洲| 久久久噜噜噜久久中文字幕色伊伊| 最大色网男人的av天堂|