劉 妍
基于Facebook用戶基本信息隱私曝露研究
劉 妍
本文選取FACEBOOK社交媒體上的100位用戶的基本信息進行分群分析。通過實驗將用戶的資料集分為五群,并將分群結果進行分類討論。通過對用戶基本信息的分析,尋找用戶基本信息曝露中的危險因素。給用戶提供實質(zhì)性的建議,為社交媒體的健康發(fā)展提供重要的保障。
社交媒體 用戶基本信息曝露 隱私保護
計算機、網(wǎng)絡等信息技術的快速發(fā)展,社交媒體運營商所擁有的數(shù)據(jù)以指數(shù)規(guī)模增長。這些微觀的數(shù)據(jù)日益以公開發(fā)布的形式成為一種公共產(chǎn)品,但是由于微觀數(shù)據(jù)發(fā)布之后數(shù)據(jù)發(fā)布者既無法控制數(shù)據(jù)用戶對數(shù)據(jù)的使用方式,是否會惡意使用數(shù)據(jù)。也不了解用戶信息曝露的內(nèi)容是否會對用戶自身產(chǎn)生一定的危險。而作為網(wǎng)絡應用提供商則希望利用盡可能多的隱私信息獲得更多的利益,其他利益相關方也想從中賺取更多的價值,用戶信息曝露的內(nèi)容被多方所持有。因此用戶需要將控制隱私的權利把握在自己手中,更好的保證自己的隱私安全。由此可見對隱私問題的深入研究具有重大的現(xiàn)實意義。
社交媒體的出現(xiàn)為用戶隱私問題提供了很好的研究環(huán)境,它不僅擁有與現(xiàn)實社會極為接近的用戶規(guī)模,社會關系,復雜結構,行為規(guī)律。還擁有比現(xiàn)實社會無法相比的易獲取,易分析,易驗證等特征。隨著人們對于隱私信息越來越重視,用戶在進行信息曝露的過程中,在進行安全社交的過程中用戶的隱私安全如何能得到有效地保證是現(xiàn)在研究的熱點問題。用戶量超過一千萬的社交媒體高達上百種。例如:Facebook,Twitter,LinkIn,Wechat,Weibo等。并且隨著“互聯(lián)網(wǎng)+”的推廣,小眾社交媒體產(chǎn)品的不斷涌現(xiàn),社交媒體的來源不明確,使得用戶的隱私曝露安全更加沒有保障。因此面向隱私保護的社交媒體用戶基本信息曝露研究顯得尤為重要。
本文選取國內(nèi)外具有影響力的社交媒體Facebook作為切入點,根據(jù)2016年7月26日,F(xiàn)acebook發(fā)布的第二季度財報,F(xiàn)acbook的月活躍用戶突破17億,日活躍用戶也突破了11億。龐大的用戶活躍量,大量的社交媒體文本,公開的API獲取數(shù)據(jù)方式。本文選取社交媒體用戶注冊時的基本信息作業(yè)研究的數(shù)據(jù)集。將用戶曝露的基本信息曝光程度進行人為定義。
對Facebook用戶基本信息進行瀏覽時,用戶的基本信息如表1所示,危險等級依序 1> +0 > 0,是人為設定。
根據(jù)用戶曝露的基本信息,選取最基本的10個變量作為特征值。分別是工作經(jīng)歷,學歷,生活過的地方,聯(lián)系方式中的郵箱和聯(lián)系電話,生日,性別,家庭成員,感情狀況,用戶頭像等十個欄位作為研究變量。其中針對工作經(jīng)歷和學歷以0為定義量度的起點。以用戶曝露的的信息量為準。試圖建立一種模型,反應用戶在信息曝露的過程中,歸納發(fā)布數(shù)據(jù)可能遭受的攻擊類型,所可能給用戶帶來危害性影響的因素。通過實證研究,以期為用戶提供優(yōu)化策略,減輕用戶遭受攻擊的可能性,為社交媒體用戶長久健康的發(fā)展提供基礎。
將收集到的100筆用戶的數(shù)據(jù),運用k-means分群的算法,將其分為五群。將這100位用戶的數(shù)據(jù),分為五群,五群的數(shù)據(jù)量分別為14;3;40;8;35。通過對分群結果進行分析可以得出以下結果,如圖1所示。
圖1 K-mean分群結果
第一群的特征主要表現(xiàn)在工作,教育背景,居住地,生日,家庭成員等信息曝露較多。第二群的特征主要表現(xiàn)在工作,教育背景,家庭成員等信息曝露較多。第三群的特征主要表現(xiàn)在工作和家庭成員信息基本沒有曝露,教育背景曝露較少,電話號碼少量曝露。第四群的特征主要表現(xiàn)在工作和教育背景曝露較少,家庭成員信息曝露較多。第五群的特征主要表現(xiàn)在工作,教育背景,家庭成員曝露信息較少。
將這五群進行用戶信息曝露危險等級定義。由危險到安全等級。第四群為第五級,第一群為第四級,第二群為第三級,第五群為第二級,第三群為第一級即為較安全的信息曝露方式。
本文根據(jù)100位用戶的數(shù)據(jù)進行分群分析,可以看出屬于第三群和第五群的用戶較多,根據(jù)我們定義的危險等級,也分別為第一級和第二級的用戶人群較多。但是也是有一部分用戶處于更高級別的危險等級,用戶在進行信息曝露的時候,應該注意第三、四、五群主要集中曝露的信息,例如工作,教育背景,生日,家庭成員等基本信息的泄露。本文僅僅選取100位用戶的基本信息進行實證研究,在數(shù)據(jù)集的研究上具有一定的局限性。同時利用非監(jiān)督學習方式對于數(shù)據(jù)進行標記也會產(chǎn)生一定的人為誤差同時用戶基本信息數(shù)據(jù)集的選擇可能也具有一些不可抵抗的因素。在接下來的研究中,著手進行用戶基本信息曝露模型的構建的同時擴充訓練數(shù)據(jù)集的錄入。在今后的研究中,不僅僅局限于用戶的基本信息曝露,還包括用戶的評論,用戶的地理位置信息等方面。以期通過這樣的方式能為用戶的社交提供更加安全的保證。
天津師范大學管理學院)
劉妍(1992-),女,漢族,天津人,研究生在讀,研究方向:圖書情報管理。