亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機(jī)器學(xué)習(xí)在構(gòu)建移動(dòng)終端用戶興趣模型的應(yīng)用研究

        2016-10-25 07:54:58黃良發(fā)馬怡偉
        廣東通信技術(shù) 2016年9期
        關(guān)鍵詞:特征用戶模型

        [黃良發(fā) 馬怡偉]

        機(jī)器學(xué)習(xí)在構(gòu)建移動(dòng)終端用戶興趣模型的應(yīng)用研究

        [黃良發(fā) 馬怡偉]

        移動(dòng)終端 機(jī)器學(xué)習(xí) 用戶興趣模型

        黃良發(fā)

        就讀于重慶郵電大學(xué),碩士,研究方向?yàn)橹悄芙K端技術(shù)與應(yīng)用。

        馬怡偉

        奇酷互聯(lián)網(wǎng)絡(luò)科技(深圳)有限公司,高級(jí)工程師,從事智能終端的研發(fā)及管理工作。

        1 引言

        隨著移動(dòng)通信技術(shù)的發(fā)展,智能手機(jī)等移動(dòng)終端設(shè)備成為人們獲取信息的主要載體。如何準(zhǔn)確分析移動(dòng)用戶使用手機(jī)行為的關(guān)鍵特征,為用戶提供更加精準(zhǔn)的服務(wù),是當(dāng)下的互聯(lián)網(wǎng)經(jīng)濟(jì)的研究熱點(diǎn)。另一方面,機(jī)器學(xué)習(xí)技術(shù)在各個(gè)領(lǐng)域都得到了快速的發(fā)展。因而基于移動(dòng)終端上的海量數(shù)據(jù),研究利用機(jī)器學(xué)習(xí)構(gòu)建移動(dòng)終端的用戶興趣模型,對構(gòu)建用戶畫像、提高移動(dòng)推薦系統(tǒng)的準(zhǔn)確性具有較高的實(shí)用價(jià)值。

        2 機(jī)器學(xué)習(xí)概述

        機(jī)器學(xué)習(xí)最早可以追溯到對人工神經(jīng)網(wǎng)絡(luò)的研究。1943年Warren McCulloch和Walter Pitts 提出了神經(jīng)網(wǎng)絡(luò)層次結(jié)構(gòu)模型,確立為神經(jīng)網(wǎng)絡(luò)的計(jì)算模型理論,從而為機(jī)器學(xué)習(xí)的發(fā)展奠定了基礎(chǔ)。 1950 年,“人工智能之父”圖靈提出了著名的“圖靈測試”,使人工智能成為了計(jì)算機(jī)科學(xué)領(lǐng)域一個(gè)重要的研究課題[1]。機(jī)器學(xué)習(xí)是一門致力于研究如何通過計(jì)算的手段,利用經(jīng)驗(yàn)來改善系統(tǒng)自身的性能的學(xué)科。今天,機(jī)器學(xué)習(xí)已經(jīng)與普通人的生活密切相關(guān)。例如在天氣預(yù)報(bào)等方面,有效地利用機(jī)器學(xué)習(xí)技術(shù)對衛(wèi)星回傳的數(shù)據(jù)進(jìn)行分析,是提高預(yù)報(bào)和準(zhǔn)確性的重要途徑;在商業(yè)應(yīng)用領(lǐng)域,有效地利用機(jī)器學(xué)習(xí)技術(shù)對垃圾信息進(jìn)行過濾,能夠改善產(chǎn)品,提升用戶體驗(yàn)。

        機(jī)器學(xué)習(xí)一般分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩大類。監(jiān)督學(xué)習(xí)利用已有標(biāo)簽的數(shù)據(jù)作為最終的學(xué)習(xí)目的,它的數(shù)據(jù)集包含初始訓(xùn)練數(shù)據(jù)和人為標(biāo)注數(shù)據(jù),希望根據(jù)標(biāo)注特征從訓(xùn)練集中學(xué)習(xí)到對象劃分的模型,并利用該模型在預(yù)測數(shù)據(jù)中預(yù)測結(jié)果,輸出標(biāo)記信息的數(shù)據(jù)。因此,監(jiān)督學(xué)習(xí)的根本目標(biāo)是是訓(xùn)練機(jī)器學(xué)習(xí)的泛化能力。監(jiān)督學(xué)習(xí)的典型算法有:邏輯回歸、樸素貝葉斯、卷積神經(jīng)網(wǎng)絡(luò)等;典型應(yīng)用有:回歸分析、任務(wù)分類等;在無監(jiān)督學(xué)習(xí)中,其訓(xùn)練樣本的標(biāo)記信息是未知的,目標(biāo)是通過對無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律,為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)[2]。因此,無監(jiān)督學(xué)習(xí)的根本目標(biāo)是在學(xué)習(xí)過程中根據(jù)相似性原理進(jìn)行區(qū)分。無監(jiān)督學(xué)習(xí)的典型算法有k-means聚類、高斯混合聚類、深度置信網(wǎng)絡(luò)等; 典型應(yīng)用有:聚類和異常檢測等。

        3 機(jī)器學(xué)習(xí)方法在構(gòu)建移動(dòng)終端用戶興趣模型中的應(yīng)用

        用戶興趣模型是個(gè)性化推薦系統(tǒng)的基礎(chǔ),它不僅僅是對于用戶興趣的準(zhǔn)確描述,更是指從有關(guān)用戶興趣和行為的信息中歸納出可計(jì)算的用戶模型的過程[3]。

        用戶興趣建模一般包括兩方面內(nèi)容:通過記錄和分析用戶行為及用戶反饋等收集用戶信息并從中挖掘用戶興趣; 用合適方法表示用戶興趣,即建立用戶興趣模型,并隨用戶興趣變化動(dòng)態(tài)更新用戶興趣模型[4]。 其一般流程如圖1。

        圖1 用戶興趣建模流程

        目前,用戶在移動(dòng)終端設(shè)備上的行為主要反映在對各種App的使用上,比如人們購物會(huì)使用專門的購物類App,聊天時(shí)會(huì)使用專門的社交類App等。因此,通過研究App的使用行為,便能夠準(zhǔn)確的反映該用戶的興趣所在。

        3.1 數(shù)據(jù)預(yù)處理。

        由于數(shù)據(jù)的獲取來源多異,數(shù)據(jù)結(jié)構(gòu)如圖2。導(dǎo)致收集的數(shù)據(jù)含有雜亂無用的信息,需要預(yù)先進(jìn)行處理。主要分為三種類型:(1)設(shè)置、桌面,手電筒等系統(tǒng)預(yù)裝應(yīng)用,不能反映該用戶的興趣所在,需要過濾掉該部分信息;(2)對于一些非常熱門的App,如微信,支付寶等,由于每個(gè)用戶都會(huì)使用,因此通過這些應(yīng)用不能反映出用戶的興趣所在,也需要過濾掉;(3)針對原始數(shù)據(jù)的確實(shí)值,如果直接丟棄掉將會(huì)減少樣本,因此我們通過統(tǒng)計(jì)該值所在的特征值的均值,然后用該均值填充丟失的值的方法處理缺失值。

        圖2 數(shù)據(jù)結(jié)構(gòu)

        3.2 特征提取

        特征提取是從特征集合中挑選一組最具統(tǒng)計(jì)意義的特征,以達(dá)到減少數(shù)據(jù)存儲(chǔ)和減少冗余的目的。由于各大應(yīng)用商店上都有成千上萬種應(yīng)用,如果對每個(gè)應(yīng)用都提取特征值,這將顯得該特征矩陣相當(dāng)龐大。因此,首先需要對每個(gè)應(yīng)用進(jìn)行分類映射。例如,通過對應(yīng)用分類,把應(yīng)用劃分為社交,交通類等。通過該方法,能給對應(yīng)的用戶打上對應(yīng)的標(biāo)簽。為了平衡取值范圍不一致的特征,需要對特征進(jìn)行歸一化處理,將特征取值歸一化到[0,1]區(qū)間。常用的歸一化方法包括(1)函數(shù)歸一化,通過映射函數(shù)將特征取值映射到[0,1]區(qū)間,例如最大最小值歸一化方法,是一種線性的映射;(2)分維度歸一化,可以使用最大最小歸一化方法,但是最大最小值選取的是所屬類別的最大最小值,即使用的是局部最大最小值,不是全局的最大最小值。(3)排序歸一化,不管原來的特征取值是什么樣的,將特征按大小排序,根據(jù)特征所對應(yīng)的序給予一個(gè)新的值。為了便于表示和在模型中處理,需要對連續(xù)值特征進(jìn)行離散化處理。常用的離散化方法包括等值劃分和等量劃分。等值劃分是將特征按照值域進(jìn)行均分,每一段內(nèi)的取值等同處理。例如某個(gè)特征的取值范圍為[0,10],我們可以將其劃分為10段,[0,1),[1,2),...[9,10)。為了選取出真正相關(guān)的特征,主要分為‘子集搜索’和‘子集評價(jià)’兩個(gè)環(huán)節(jié)?!蛹阉鳌墙o定特征集合,我們可將每個(gè)特征看作一個(gè)候選子集,對這d個(gè)候選單例特征子集進(jìn)行評價(jià),假定最優(yōu),于是將作為第一輪的選定集;然后,在上一輪的選定集中加入一個(gè)特征,構(gòu)成包含兩個(gè)特征的候選子集,假定在d-1個(gè)候選集中最優(yōu),且優(yōu)于,于是將作為本輪的選定集。假定經(jīng)過第k+1輪時(shí),最優(yōu)的候選(k+1)特征子集不如上一輪的選定集,則停止生成候選子集,并將上一輪選定的k特征集合作為特征選擇結(jié)果。‘子集評價(jià)’是對特征子集進(jìn)行評價(jià),通過計(jì)算屬性子集A的信息增益,其中信息熵定義為,信息增益,意味著對應(yīng)特征子集A包含的分類信息越大,于是,對每個(gè)候選特征子集,將特征子集搜索和子集評價(jià)機(jī)制相結(jié)合,即可得到特征提取的方法[2],見表1 。

        表1 類別映射表

        3.3 算法選擇

        為了得出用戶的興趣模型,本模型采用基于聚類的分類學(xué)習(xí)算法。

        首先,根據(jù)聚類結(jié)果將每個(gè)簇定義為一個(gè)類,然后再基于這些類訓(xùn)練分類模型,判別新用戶的類型。主要采用的是k-means算法。給定樣本集D=,該算法針對聚類所得簇劃分C=,最小化平方誤差,其中是簇[2]。

        在聚類的基礎(chǔ)上采用的是監(jiān)督學(xué)習(xí)算法。決策樹是一類常用的機(jī)器學(xué)習(xí)方法,決策樹計(jì)算復(fù)雜度不高、便于使用、而且高效,決策樹可處理具有不相關(guān)特征的數(shù)據(jù)、可很容易地構(gòu)造出易于理解的規(guī)則。一般的,一顆決策樹包含一個(gè)根結(jié)點(diǎn),若干個(gè)內(nèi)部結(jié)點(diǎn)和若干個(gè)葉結(jié)點(diǎn);葉節(jié)點(diǎn)對應(yīng)于決策結(jié)果,其他每個(gè)結(jié)點(diǎn)對應(yīng)于一個(gè)屬性測試;每個(gè)結(jié)點(diǎn)包含的樣本集合根據(jù)屬性測試的結(jié)果被劃分到子結(jié)點(diǎn)中;根節(jié)點(diǎn)包含樣本全集,從根節(jié)點(diǎn)到每個(gè)葉節(jié)點(diǎn)的路徑對應(yīng)了一個(gè)判定測試序列。決策樹最優(yōu)劃分屬性時(shí),有多種選擇方式,其中ID3 決策樹算法是以信息增益來進(jìn)行決策樹的劃分屬性選擇。但以信息增益進(jìn)行分類決策時(shí),存在偏向于取值較多的特征的問題。為了解決這個(gè)問題,在該模型中,采用的CART決策樹,區(qū)別就在于選取決斷特征時(shí)選擇信息增益比最大的。

        3.4 模型評估

        主要根據(jù)樣本數(shù)據(jù),模型結(jié)果反饋數(shù)據(jù)進(jìn)行模型評估。比如通過精確率。精確度是分類正確的樣本數(shù)占樣本總數(shù)的比例。對于樣例集D,精度定義為

        在應(yīng)用中,我們結(jié)合交叉驗(yàn)證法,既先將數(shù)據(jù)集D劃分成k個(gè)大小相似的互斥子集,然后每次用k-1個(gè)子集的并集作為訓(xùn)練集,余下的那個(gè)子集作為測試集,進(jìn)行k次訓(xùn)練和測試,用于評估結(jié)果的穩(wěn)定性和保真性。經(jīng)實(shí)驗(yàn)證明,該模型的準(zhǔn)確度達(dá)到86%左右,如圖3。

        圖3模型評估

        3.5 模型優(yōu)化

        模型初步構(gòu)建完成后,并不意味著一勞永逸,因?yàn)橛脩舻呐d趣經(jīng)常隨著時(shí)間發(fā)生變化[5]。因此,每個(gè)構(gòu)建的模型都有一定的時(shí)效性。一種方法是為一個(gè)用戶同時(shí)建立長期興趣和短期興趣模型,其核心就是處理好用戶的兩類興趣,即用戶的長期興趣和用的短期興趣。混合興趣模型依靠用戶的歷史數(shù)據(jù)來挖掘用戶穩(wěn)定的、波動(dòng)范圍小的長期興趣,依靠最近的數(shù)據(jù)挖掘用戶個(gè)性化的、波動(dòng)范圍大的短期興趣;另一種是采用窗口法,針對用戶最近一段時(shí)間的信息進(jìn)行建模。因?yàn)橛脩糇詈笮袨榈挠^察能更準(zhǔn)確地反映出用戶當(dāng)前的興趣[7]。因此,對用戶興趣進(jìn)行建模時(shí)只需要考慮用戶最近一段時(shí)間內(nèi)的數(shù)據(jù)記錄。

        4 結(jié)束語

        本文討論了數(shù)據(jù)預(yù)處理、選擇特征值以及如何優(yōu)化用戶興趣模型等機(jī)器學(xué)習(xí)在移動(dòng)終端用戶興趣模型中的應(yīng)用,它能夠減少業(yè)務(wù)人員手工標(biāo)記,標(biāo)準(zhǔn)難統(tǒng)一的問題,同時(shí)利用大數(shù)據(jù)平臺(tái),使得機(jī)器學(xué)習(xí)在研究移動(dòng)終端興趣模型上有更大的發(fā)展。

        關(guān)于移動(dòng)終端用戶興趣模型和移動(dòng)上下文信息的結(jié)合,將是下一步研究工作重點(diǎn)。

        1張潤,王永濱.機(jī)器學(xué)習(xí)及其算法和發(fā)展研究[J].中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版),23(2):10-18,24

        2周志華.機(jī)器學(xué)習(xí).北京.清華大學(xué)出版社,2016.2

        3孟祥武,胡勛,王立才等.移動(dòng)推薦系統(tǒng)及其應(yīng)用[J].軟件學(xué)報(bào),2013,24(1):91-108

        4尹春暉.面向個(gè)性化信息檢索的用戶興趣建模研究與實(shí)現(xiàn)[D].蘇州:蘇州大學(xué),2008

        5楊李婷,陳翰雄.用戶興趣建模綜述[J].軟件導(dǎo)刊,2015,10:20-23

        6Billsusd,pazzanimj.A hybrid classifi- cation model[C].kayj.(ed.),proceedings of the seventh international-conference on user modeling(UM 99),Spring-Verlag.1999:99-108

        7Widmer G,Kubat M.Learning in the presence of concept drift and hidden contexts[J].Machine Learning,2013,23(1):69-101

        10.3969/j.issn.1006-6403.2016.09.001

        2016-08-24)

        目前,機(jī)器學(xué)習(xí)已在各個(gè)領(lǐng)域得到了大量的應(yīng)用,因此研究機(jī)器學(xué)習(xí)在移動(dòng)終端用戶興趣模型的應(yīng)用也顯得有必要。文章對機(jī)器學(xué)習(xí)進(jìn)行了介紹,重點(diǎn)分析了機(jī)器學(xué)習(xí)算法在構(gòu)建移動(dòng)終端興趣模型時(shí)的應(yīng)用,并對目前應(yīng)用中如何進(jìn)行數(shù)據(jù)預(yù)處理、選擇特征值以及如何優(yōu)化用戶興趣模型進(jìn)行了討論。

        猜你喜歡
        特征用戶模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        先锋影音最新色资源站 | 尤物国产一区二区三区在线观看| 天天躁日日躁狠狠躁欧美老妇小说 | 久久AⅤ无码精品为人妻系列 | 99热久久这里只精品国产www| 久久天堂av色综合| 亚洲人妻御姐中文字幕| 无码毛片内射白浆视频| 亚洲精品无播放器在线播放| 色欲AV成人无码精品无码| 日韩女优在线一区二区| 男女性杂交内射女bbwxz| 无码人妻丰满熟妇片毛片| 中文字幕久久精品波多野结百度| 手机在线国产福利av| 九九在线中文字幕无码| 最近日本中文字幕免费完整| 日韩中文字幕精品免费一区| 蜜桃国产精品视频网站| 中文字幕人妻无码视频| 亚洲国产理论片在线播放| 国产精品自在在线午夜出白浆| 国产自产二区三区精品| 少妇厨房愉情理伦bd在线观看| 北条麻妃在线视频观看| 亚洲成人色黄网站久久| 欧美激情视频一区二区三区免费| 夜夜高潮夜夜爽夜夜爱爱| 亚洲欧美成人中文在线网站 | 国产va在线观看免费| 美女超薄透明丝袜美腿| 国产亚洲av综合人人澡精品| 日本高清视频永久网站www| 国产3p视频| 久久本道久久综合一人| 成年av动漫网站18禁| 韩国精品一区二区三区无码视频| 亚洲一区精品中文字幕| 日韩精品视频高清在线| 国产成本人片无码免费2020| 亚洲an日韩专区在线|