亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        移動用戶人口統(tǒng)計信息預(yù)測

        2015-06-26 11:13:21王亦雷嵇智源程紅蓉
        電子科技大學(xué)學(xué)報 2015年6期
        關(guān)鍵詞:人口統(tǒng)計日志智能手機(jī)

        王亦雷,嵇智源,夏 勇,秦 臻,程紅蓉

        然后,需要將參數(shù)沿著梯度的方向更新,遞推公式為:

        移動用戶人口統(tǒng)計信息預(yù)測

        王亦雷1,嵇智源2,夏 勇1,秦 臻1,程紅蓉3

        (1. 電子科技大學(xué)信息與軟件工程學(xué)院 成都 610054; 2. 科技部高技術(shù)研究發(fā)展中心 北京 海淀區(qū) 100044; 3. 電子科技大學(xué)計算科學(xué)與工程學(xué)院 成都 611731)

        提出了一種基于支持向量機(jī)的預(yù)測方法,通過分析智能手機(jī)應(yīng)用的使用情況,預(yù)測用戶的人口統(tǒng)計信息。手機(jī)使用行為數(shù)據(jù)約為5萬智能手機(jī)用戶在3個月期間使用手機(jī)應(yīng)用產(chǎn)生的網(wǎng)絡(luò)日志文件,包括179 954 181條日志記錄。通過對日志記錄的主題進(jìn)行分析,可將179 954 181條日志記錄匹配到266個不同的主題。在此基礎(chǔ)上,通過將每個用戶的人口統(tǒng)計信息與該用戶對266個不同主題的訪問權(quán)重進(jìn)行關(guān)聯(lián),可構(gòu)建訓(xùn)練數(shù)據(jù),并代入支持向量機(jī)模型進(jìn)行計算。實驗結(jié)果表明該方法對用戶的性別和年齡預(yù)測能夠取得良好的預(yù)測結(jié)果。

        人口統(tǒng)計信息; 預(yù)測; 智能手機(jī)應(yīng)用; 支持向量機(jī)

        隨著移動互聯(lián)網(wǎng)的發(fā)展,許多互聯(lián)網(wǎng)公司越來越關(guān)心用戶的基礎(chǔ)屬性信息,包括性別、年齡、收入及文化水平等,以便于提供更好的個性化服務(wù)。如Google公司提供的個性化搜索服務(wù),結(jié)合了用戶的地理位置信息返回相應(yīng)的搜索結(jié)果[1];亞馬遜購物網(wǎng)站則根據(jù)用戶的瀏覽和購買記錄,向用戶推薦相應(yīng)的商品以促進(jìn)用戶消費。與此同時,定制廣告投放也是一種越來越流行的個性化服務(wù),定制廣告投放是指根據(jù)用戶的興趣愛好投放相應(yīng)的廣告[2]。最近的研究表明定制廣告投放可以獲得比普通廣告投放更好的宣傳效果[3]。

        在個性化服務(wù)和定制廣告投放業(yè)務(wù)中,用戶的瀏覽記錄、搜索興趣、地理位置信息和人口統(tǒng)計信息等個人信息扮演著重要的角色。其中,用戶的人口統(tǒng)計信息(如性別、年齡、收入和文化程度等)尤為重要。然而,人口統(tǒng)計信息是用戶比較敏感的隱私信息,用戶不愿意公開這類隱私屬性,這類信息不易獲取。

        盡管如此,近年來很多學(xué)者通過分析用戶的行為數(shù)據(jù)(如博客、照片、社交網(wǎng)站狀態(tài)、心情評論等)獲取用戶的人口統(tǒng)計信息。文獻(xiàn)[4]指出通過研究用戶的書寫和說話方式可以預(yù)測出用戶的人口統(tǒng)計信息;文獻(xiàn)[5]的研究表明通過分析博客內(nèi)容可以預(yù)測博客作者的性別;文獻(xiàn)[6]通過研究Twitter用戶在Twitter上發(fā)表的內(nèi)容來預(yù)知用戶的性別。此外,還有一些學(xué)者通過分析用戶的搜索歷史記錄和瀏覽歷史記錄等Internet行為數(shù)據(jù),分析用戶的人口統(tǒng)計信息。文獻(xiàn)[7]研究不同性別和年齡的人搜索行為之間的差異性,并且發(fā)現(xiàn)搜索引擎用戶的基礎(chǔ)屬性分布和美國的人口分布相符;文獻(xiàn)[8]的另一項研究表明用戶搜索的內(nèi)容和用戶的性別、年齡等是相關(guān)聯(lián)的;文獻(xiàn)[9]通過分析用戶瀏覽網(wǎng)頁的歷史記錄判別出用戶的性別和年齡;文獻(xiàn)[10]通過分析用戶瀏覽網(wǎng)頁的內(nèi)容和關(guān)鍵字預(yù)測用戶的性別和年齡。

        隨著移動互聯(lián)網(wǎng)的發(fā)展,智能手機(jī)應(yīng)用成了人們生活中必不可少的重要組成部分。但是由于用戶的個體需求和興趣的差異,每個用戶智能手機(jī)上安裝的應(yīng)用有所差別。如,男性更偏好運動類的手機(jī)應(yīng)用,而女性則比較喜歡時尚類的手機(jī)應(yīng)用。即便對于相同的應(yīng)用,不同的用戶也會有不同的使用偏好。如,對于一個網(wǎng)絡(luò)視頻應(yīng)用,成年人更傾向于觀看時政新聞,而兒童則更傾向于觀看娛樂節(jié)目。由于智能手機(jī)和用戶是緊密相關(guān)的,分析手機(jī)的使用行為使得預(yù)測用戶的人口統(tǒng)計信息成為可能,本文將嘗試通過分析用戶智能手機(jī)上應(yīng)用的使用情況,進(jìn)而預(yù)測用戶的性別和年齡。

        1 問題定義和數(shù)據(jù)說明

        本文旨在通過分析一定數(shù)量的人口統(tǒng)計信息已知的用戶的智能手機(jī)應(yīng)用情況,結(jié)合部分人口統(tǒng)計信息未知的用戶的智能手機(jī)應(yīng)用情況,對其他用戶的人口統(tǒng)計信息進(jìn)行預(yù)測。

        本文著重關(guān)注用戶的性別和年齡。用戶的性別預(yù)測被定義為將用戶分類為男性或者女性的一個二分類問題;用戶的年齡預(yù)測被定義為一個多分類問題,分類類別如表1所示。

        表1 年齡分組

        本文的數(shù)據(jù)集是:國內(nèi)一家網(wǎng)絡(luò)運營商提供的近5萬智能手機(jī)用戶在2013年10月-2013年12月3個月期間使用智能手機(jī)應(yīng)用產(chǎn)生的網(wǎng)絡(luò)日志文件。當(dāng)智能手機(jī)應(yīng)用向Internet獲取資源時,則產(chǎn)生一條日志,記錄在日志文件中。數(shù)據(jù)集中一共有179 954 181條日志記錄,每一條日志記錄由用戶的ID、應(yīng)用名稱和相應(yīng)的網(wǎng)絡(luò)資源組成。數(shù)據(jù)集中用戶的性別和年齡分布如表2所示。

        表2 用戶基礎(chǔ)屬性分布

        對于上述日志文件,本文中采用正則表達(dá)式將相應(yīng)的網(wǎng)絡(luò)資源匹配到相應(yīng)的主題(如,將德甲歸類到運動足球歐洲足球德甲)。每一條記錄都映射到一個主題。本文將每個主題定義為用戶的一個興趣。通過匹配,最終本文將日志文件中所有的記錄匹配到266個主題(興趣)。

        這樣,本文中使用的數(shù)據(jù)集則可以定義為一個有權(quán)有向偶圖G=(V, E),V是頂點的集合,E是邊的集合。頂點集V中的一個頂點代表某個用戶或者某個用戶的一項興趣類別;邊集E中的一條邊代表某個用戶對某個興趣類別的偏好程度。進(jìn)一步,頂點集V可劃分為兩個子集合U={u1, u2,…,um}和C={c1, c2,…,cn},其中子集U為用戶集,子集C為用戶的興趣集。如果用鄰接矩陣R表示有權(quán)有向圖G,那么鄰接矩陣R中的元素rij代表用戶i對興趣類別j的偏好程度。本文中取用戶i對興趣類別j的請求次數(shù)來評估用戶對其的偏好程度。將用戶的性別、年齡和鄰接矩陣R相結(jié)合,可以統(tǒng)計出具有不同性別、年齡的用戶興趣分布,其分布如圖1所示。

        圖1 具有不同性別、年齡的用戶興趣分布

        2 方法說明

        2.1 數(shù)據(jù)分析

        性別和年齡相似的用戶可能有相似的興趣愛好,有相似興趣愛好的用戶也很可能具有相似的性別和年齡。根據(jù)該假設(shè),若采用一種直接的方法,可以用協(xié)同過濾[11-12]的方法預(yù)測用戶的性別和年齡,但是因為數(shù)據(jù)(鄰接矩陣R)的稀疏,而協(xié)同過濾對數(shù)據(jù)的稀疏性很敏感[13],如果直接采用協(xié)同過濾方法進(jìn)行預(yù)測,會引入很多的噪聲,對預(yù)測效果造成不良影響。

        為了解決該問題,本文將采用奇異值分解(singular value decomposition)[14-16]技術(shù)對鄰接矩陣R進(jìn)行預(yù)處理。經(jīng)過奇異值分解之后,可以得到相互正交的向量,避免原始數(shù)據(jù)(鄰接矩陣R)行列向量之間的干擾,進(jìn)而可以更好地挖掘數(shù)據(jù)間的隱性關(guān)系[14]。

        2.2 方法步驟

        本文首先用余弦相似性計算用戶之間的相似度,得到用戶的相似性矩陣;然后利用SVD技術(shù)[14]分解用戶的相似性矩陣,得到用戶的隱性反饋矩陣;最后將隱性反饋矩陣作為特征向量輸入高斯核的支持向量機(jī)[17]預(yù)測用戶的性別和年齡。

        根據(jù)鄰接矩陣R,采用余弦相似性計算出用戶(子集U中的元素)之間的相似性,計算公式為:

        式中,iR是用戶i的興趣偏好向程度。計算后,可得到用戶的相似性矩陣S。采用SVD將用戶的相似性矩陣S分解為兩個低維矩陣相乘:

        式中,P∈Rm×k是降維后的矩陣。那么用戶i和用戶j之間的相似程度可以通過如下公式計算:

        式中,pik=P( i, k),pjk=P( j, k)。通過訓(xùn)練,利用最小均方根誤差(root mean square error)學(xué)習(xí)P矩陣。同時,為了防止過擬合,在損失函數(shù)中加入過擬合項,其定義為:

        為最小化損失函數(shù),采用隨機(jī)梯度下降算法[18]求解參數(shù)P。根據(jù)隨機(jī)梯度下降算法,先對式(4)中的參數(shù)pif和pjf求偏導(dǎo)數(shù),求解公式為:

        然后,需要將參數(shù)沿著梯度的方向更新,遞推公式為:

        當(dāng)誤差err小于某一個設(shè)定的閥值時停止迭代。在迭代更新學(xué)習(xí)速率α的取值需要通過反復(fù)實驗獲得。如后面實驗所示,在實驗開始時需要對矩陣P進(jìn)行初始化,學(xué)習(xí)速率α在每一步學(xué)習(xí)時需要進(jìn)行衰減。

        在學(xué)習(xí)完成之后可以得到用戶的隱私反饋矩陣P,將用戶隱私反饋矩陣P和用戶的基礎(chǔ)屬性相結(jié)合,P作為特征矩陣,采用高斯核的SVM分類,對用戶的性別和年齡進(jìn)行預(yù)測。

        3 實驗結(jié)果

        3.1 評價指標(biāo)

        本文中采用準(zhǔn)確率(Acc)、精確率(Prec)、召回率(Rec)和F1值[9]作為評價指標(biāo)。準(zhǔn)確率(Acc)定義為正確預(yù)測的用戶數(shù)和實際用戶的總?cè)藬?shù)的比值,精確率(Prec)定義為正確預(yù)測為某類的人數(shù)和預(yù)測為該類的人數(shù)的比值,召回率(Rec)定義為正確預(yù)測某類人數(shù)和該類實際人數(shù)的比值,1F值是精確率和召回率的權(quán)衡,計算公式為:

        因為預(yù)測有多個類別,所以本文中采用宏觀的F1值作為評價指標(biāo)。

        3.2 實 驗

        根據(jù)本文提出的方法,首先初始化矩陣P。對矩陣P的初始化有多種方法,一般是將P用隨機(jī)數(shù)填充[9]。在實驗中,則是用和sqrt(k)成反比的高斯分布隨機(jī)數(shù)初始化矩陣P。參數(shù)λ和α以最小化損失函數(shù)C( p)為目標(biāo),可通過交叉驗證得出。本文通過反復(fù)實驗得出α=0.01,λ=0.001,且α在每一步學(xué)習(xí)之后自乘0.9衰減。

        在SVD分解中,SVD的維度k是一個重要的參數(shù),通過實驗研究k對預(yù)測結(jié)果的影響。最小化損失函數(shù)()C p,設(shè)定維度k從5~100逐步變化。對于每一個維度k,設(shè)定SVD迭代次數(shù)從1~150變化,進(jìn)行反復(fù)迭代學(xué)習(xí),得到每個維度下的最優(yōu)迭代次數(shù),從而得到隱私反饋矩陣P。以性別預(yù)測為例,SVD維度k對預(yù)測結(jié)果的影響效果如圖2所示。

        圖2 SVD維度k對預(yù)測結(jié)果的影響

        從圖2可以看出,隨著維度k的增加,預(yù)測結(jié)果的準(zhǔn)確率和1F值都有所提升,當(dāng)k值達(dá)到70時,得到一個較穩(wěn)定的預(yù)測結(jié)果,準(zhǔn)確率為75.79%和1F值為74.96%。在后面的分類實驗中將P矩陣作為特征向量,采用高斯核的支持向量機(jī)分類方法分類預(yù)測用戶的基礎(chǔ)屬性。對用戶的性別和年齡分別訓(xùn)練分類模型,實驗采用10倍交叉驗證法,對性別和年齡進(jìn)行預(yù)測。

        用戶的性別和年齡的預(yù)測結(jié)果如表3所示。用戶的年齡分類預(yù)測是一個五分類問題,預(yù)測結(jié)果達(dá)到準(zhǔn)確率57.14%和1F值52.52%;對于用戶的性別分類這樣的二分類問題,預(yù)測效果更佳,達(dá)到準(zhǔn)確率76.29%和1F值75.21%。

        表3 用戶基礎(chǔ)屬性預(yù)測結(jié)果

        4 結(jié) 束 語

        本文提出的預(yù)測方法可以根據(jù)移動用戶智能手機(jī)應(yīng)用的使用情況,預(yù)測用戶性別、年齡等用戶隱私屬性。該預(yù)測方法主要包含3個步驟:1) 將智能手機(jī)用戶的手機(jī)應(yīng)用每條日志記錄匹配相應(yīng)的主題,從而得到一個關(guān)聯(lián)用戶和興趣類型的鄰接矩陣;2) 結(jié)合用戶的興趣偏好計算用戶的相似相關(guān)性,得到用戶的相關(guān)性矩陣,再采用SVD分解技術(shù),分解用戶的相關(guān)性矩陣以得到用戶的隱性反饋矩陣;3) 將用戶的隱性反饋矩陣作為用戶的特征,采用高斯核的支持向量機(jī)分類器分別訓(xùn)練用戶的性別和年齡的分類模型?;谶\營商的現(xiàn)實數(shù)據(jù),采用交叉驗證的實驗結(jié)果顯示本文的方法對用戶的性別、年齡預(yù)測能夠取得很好的分類預(yù)測效果,對用戶的性別的預(yù)測能夠達(dá)到76.29%的準(zhǔn)確率和75.21%的1F值,對用戶的年齡預(yù)測能夠達(dá)到準(zhǔn)確率57.14%和52.52%的1F值。

        [1] HANNAK A, SAPIEZYNSKI P, MOLAVI K A, et al. Measuring personalization of web search[C]//Proceedings of the 22nd International Conference on World Wide Web. Switzerland: International World Wide Web Conferences Steering Committee, 2013: 527-538.

        [2] SMIT E G, VAN N G, VOORVELD H A M. Understanding online behavioural advertising: User knowledge, privacy concerns and online coping behaviour in Europe[J]. Computers in Human Behavior, 2014, 32: 15-22.

        [3] JANSEN B J, MOORE K, CARMAN S. Evaluating the performance of demographic targeting using gender in sponsored search[J]. Information Processing & Management, 2013, 49(1): 286-302.

        [4] GARERA N, YAROWSKY D. Modeling latent biographic attributes in conversational genres[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Stroudsburg: Association for Computational Linguistics, 2009: 710-718.

        [5] YAN X, YAN L. Gender classification of weblog authors[C]//AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs. California: AAAI, 2006: 228-230.

        [6] BURGER J D, HENDERSON J, KIM G, et al. Discriminating gender on twitter[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2011: 1301-1309.

        [7] WEBER I, CASTILLO C. The demographics of web search[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2010: 523-530.

        [8] WEBER I, JAIMES A. Demographic information flows[C]// Proceedings of the 19th ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2010: 1521-1524.

        [9] HU J, ZENG H J, LI H, et al. Demographic prediction based on user’s browsing behavior[C]//Proceedings of the 16th International Conference on World Wide Web. New York: ACM Press, 2007: 151-160.

        [10] KABBUR S, HAN E H, KARYPIS G. Content-based methods for predicting web-site demographic attributes [C]//2010 IEEE 10th International Conference on Data Mining (ICDM). Sydney: IEEE Press, 2010: 863-868.

        [11] BREESE J S, HECKERMAN D, KADIE C. Empirical analysis of predictive algorithms for collaborative filtering[C]//Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence. San Francisco: Morgan Kaufmann Publishers Inc, 1998: 43-52.

        [12] SU X, KHOSHGOFTAAR T M. A survey of collaborative filtering techniques[EB/OL]. [2014-01-15]. http://www. hindawi.com/journals/aai/2009/4214251.

        [13] SARWAR B, KARYPIS G, KONSTAN J, et al. Application of dimensionality reduction in recommender system-a case study[R]. Minneapolis: Dept of Computer Science Univ of Minnesota, 2000.

        [14] KOREN Y. Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2008: 426-434.

        [15] PRYOR M H. The effects of singular value decomposition on collaborative filtering[R]. Hanover: Dartmouth College, 1998.

        [16] GOLUB G H, VAN LOAN C F. Matrix computations[M]. Maryland: Johns Hopkins University Press, 2012.

        [17] JOACHIMS T. Making large scale SVM learning practical[R]. Dortmund: Universitat Dortmund,1999.

        [18] LECHEVALLIER Y, SAPORTA G. Blum MGB choosing the summary statistics and the acceptance rate in approximate Bayesian computation[C]//Proceedings of Computational Statistics. Herdelberg: Springer, Physica Verlag, 2010: 47-56.

        編 輯 蔣 曉

        Demographic Information Prediction for Mobile Users

        WANG Yi-lei1, JI Zhi-yuan2, XIA Yong1, QIN Zhen1, and CHENG Hong-rong3

        (1. School of Information and Software Engineering, University of Electronic Science and Technology of China Chengdu 610054; 2. High Technology Research and Development Center, Ministry of Science and Technology Haidian Beijing 100044; 3. School of Computer Science and Engineering, University of Electronic Science and Technology of China Chengdu 611731)

        A support-vector-machine-based predicting method is presented to predict users' demographic information by analyzing the usage of the applications in the smartphones. The smartphone usage data considered in this paper is a network log file, which records smartphone applications usage of 50 000 smartphone users for three months, including 179 954 181 entries. By analyzing the topic of each entry, the 179 954 181 entries can be matched with 266 distinct topics. Based on this result, by correlating the users’ demographic information with their query weight of such 266 distinct topics, a training data can be constructed and imported to support vector machine model for computation. The results of experiments show that the method proposed in this paper can well predict uses’ gender and age.

        demographic information; prediction; smartphone application; support vector machine

        TP393

        A

        10.3969/j.issn.1001-0548.2015.06.021

        2014 ? 04 ? 14;

        2014 ? 11 ? 28

        國家自然科學(xué)基金(61133016, 61300191, 61370026);教育部-中國移動科研基金(MCM20121041);四川省科技支撐計劃(2014GZ0106);中央高?;?ZYGX2013J003)

        王亦雷(1985 ? ),男,博士生,主要從事移動互聯(lián)網(wǎng)、數(shù)據(jù)挖掘、信息安全等方面的研究.

        猜你喜歡
        人口統(tǒng)計日志智能手機(jī)
        智能手機(jī)是座礦
        一名老黨員的工作日志
        華人時刊(2021年13期)2021-11-27 09:19:02
        智能手機(jī)臉
        英語文摘(2020年5期)2020-09-21 09:26:30
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        當(dāng)前經(jīng)濟(jì)形勢下人口統(tǒng)計存在的問題及對策分析
        大數(shù)據(jù)時代下人口統(tǒng)計存在的問題及對策研究
        假如我是一部智能手機(jī)
        趣味(語文)(2018年8期)2018-11-15 08:53:00
        游學(xué)日志
        保定地區(qū)人口統(tǒng)計調(diào)查報告
        秦漢時期殘障人口統(tǒng)計制度初探
        古代文明(2014年3期)2014-08-07 22:42:35
        亚洲精品成人久久av| 国产精品久久无码一区二区三区网| 国产精品天干天干综合网| 久久亚洲精品成人无码| 免费a级毛片无码a| 精品久久久久88久久久| 日产国产亚洲精品系列| 精品亚洲第一区二区三区| 亚洲一区二区三区小说| 精品麻豆国产色欲色欲色欲www | 国产精品亚洲综合色区| 中文字幕av在线一二三区| 日韩精品国产自在欧美| AV无码系列一区二区三区| 国产精品亚洲一区二区三区在线| 亚洲欧美色一区二区三区| 亚洲精品无码av片| 亚洲av国产大片在线观看| 国产一区二区三区亚洲avv| 国产精品狼人久久久久影院| 精品人人妻人人澡人人爽牛牛| 国产精品免费久久久免费| 亚洲一区二区女优视频| 国产欧美va欧美va香蕉在线| 大地资源中文第3页| 久久免费的精品国产v∧| 免费在线观看一区二区| 一二三四在线观看视频韩国| 女人的精水喷出来视频| 亚洲精品网站在线观看你懂的| 亚洲天堂中文| av网站一区二区三区| 国产成人无码av一区二区在线观看 | 中国少妇×xxxx性裸交| 熟女体下毛毛黑森林| 久久99精品久久久久久野外| 少妇爽到爆视频网站免费| 国产尤物自拍视频在线观看| 无码熟妇人妻av在线网站| 国产精品免费久久久久影院仙踪林 | 特级婬片国产高清视频|