亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于半監(jiān)督學(xué)習(xí)的潛在老年用戶識(shí)別方法

        2023-07-26 03:41:58余晨張澤吉晶
        電子制作 2023年12期
        關(guān)鍵詞:老年人用戶模型

        余晨,張澤,吉晶

        (中移信息技術(shù)有限公司,廣東深圳,5 180481)

        1 研究現(xiàn)狀

        目前在老年人市場(chǎng)研究方面,主要總結(jié)有兩部分,一方面是對(duì)銀發(fā)市場(chǎng)的市場(chǎng)前景、經(jīng)濟(jì)潛力、現(xiàn)狀問題等方面的專業(yè)評(píng)析研究,另一方面是對(duì)于老年特定人群或特定行為進(jìn)行了一些數(shù)據(jù)技術(shù)識(shí)別。魏姍姍[1]等基于手機(jī)信令數(shù)據(jù),建立了貝葉斯分類器進(jìn)行老年人群識(shí)別。馮先成[2]等采用前饋神經(jīng)網(wǎng)絡(luò)算法對(duì)空巢老人手機(jī)用戶進(jìn)行識(shí)別分析。李力行[3]等基于通話費(fèi)用、上網(wǎng)費(fèi)用及時(shí)長(zhǎng)及短信費(fèi)用等電信數(shù)據(jù)進(jìn)行空巢老人評(píng)判指標(biāo)設(shè)計(jì)。呂子陽[4]等通過建立廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)、概率神經(jīng)網(wǎng)絡(luò)(PNN)和誤差逆?zhèn)鞑ド窠?jīng)網(wǎng)絡(luò)(ВPNN)三種神經(jīng)網(wǎng)絡(luò)模型建立易跌倒老人識(shí)別模型。潘宇欣[5]等提出基于隨機(jī)森林和行為相似性的兩層行為識(shí)別算法用以識(shí)別老人居家行為。趙春陽[6]構(gòu)建一種卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合的混合模型對(duì)老年居家行為進(jìn)行識(shí)別,以提高老年居家生活質(zhì)量。劉琳[7]利用不同的神經(jīng)網(wǎng)絡(luò)模型對(duì)老人日常活動(dòng)所產(chǎn)生的傳感器數(shù)據(jù)進(jìn)行活動(dòng)識(shí)別。周潔[8]使用Logistic 回歸、隨機(jī)森林、XGВoost 算法建立腦卒中風(fēng)險(xiǎn)預(yù)測(cè)模型,實(shí)現(xiàn)老年人高血壓并發(fā)癥高危個(gè)體識(shí)別。李彩福[9]等運(yùn)用反向傳播神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)算法構(gòu)建衰弱前期預(yù)測(cè)模型,為早期識(shí)別社區(qū)老年衰弱前期高危人群提供參考。張慶莉[10]結(jié)合模式識(shí)別技術(shù)、語音信號(hào)處理技術(shù)、語音情感識(shí)別技術(shù),使用高斯混合模型進(jìn)行了老年人語音情感識(shí)別研究。

        關(guān)于老年人群體的識(shí)別方面較多使用的有監(jiān)督算法,根據(jù)已有的是否老年人標(biāo)簽進(jìn)行分析挖掘,例如常用的貝葉斯分類、隨機(jī)森林、反向傳播神經(jīng)網(wǎng)絡(luò)等,但結(jié)合現(xiàn)實(shí)的業(yè)務(wù)需求,較多業(yè)務(wù)場(chǎng)景是需要挖掘識(shí)別潛在用戶中的老年人群體,但是受限于已有數(shù)據(jù)的采集信息范圍,面向大部分潛在客戶都是無法有明確標(biāo)簽標(biāo)記是否為老年人,因此有監(jiān)督算法在現(xiàn)實(shí)場(chǎng)景中的作用發(fā)揮有限。針對(duì)上述問題,本文提出一種基于用戶通信數(shù)據(jù)的潛在老年用戶識(shí)別模型,通過PU learning 算法在半監(jiān)督場(chǎng)景下對(duì)未有明確標(biāo)記的數(shù)據(jù)樣本進(jìn)行老年人群體判別,同時(shí)使用AutoEncoder 算法得到誤差閾值同步進(jìn)行判別,最后為提升識(shí)別的準(zhǔn)確性,對(duì)兩種算法均識(shí)別出的綜合老年人群根據(jù)結(jié)果預(yù)測(cè)概率和預(yù)測(cè)閾值進(jìn)行1-5 分賦值,計(jì)算綜合得分,取綜合得分大于等于8 分的人群識(shí)別為老年用戶。

        2 一種基于用戶通信數(shù)據(jù)的潛在老年用戶識(shí)別模型

        ■2.1 理論基礎(chǔ)

        2.1.1 PU learning 算法

        通常有監(jiān)督算法是一種針對(duì)有明確正負(fù)標(biāo)簽的兩類樣本的二值分類器,但大多數(shù)情況下現(xiàn)有訓(xùn)練樣本是已標(biāo)記的正樣本和未標(biāo)記樣本,其中未標(biāo)記樣本包括正樣本和負(fù)樣本[11],PU learning 算法則是針對(duì)這樣場(chǎng)景的一種學(xué)習(xí)算法。首先對(duì)樣本做軟標(biāo)簽,正樣本記為1,未標(biāo)記的樣本記為-1,準(zhǔn)備標(biāo)簽0 作為確認(rèn)的負(fù)樣本。其次構(gòu)建分類器,選用隨機(jī)森林算法,保留每個(gè)樣本的預(yù)測(cè)概率,并取正樣本預(yù)測(cè)概率的最大值和最小值作為真實(shí)區(qū)間。第三更新軟標(biāo)簽,對(duì)于未標(biāo)記樣本中,預(yù)測(cè)概率大于真實(shí)區(qū)間最大值的記為1,預(yù)測(cè)概率小于真實(shí)區(qū)間最小值的記為0。最后基于每次迭代構(gòu)建的分類器,每次重新定義真實(shí)區(qū)間,將未標(biāo)記標(biāo)簽區(qū)分為正樣本和確定的負(fù)樣本。不斷更新直到循環(huán)結(jié)束或不產(chǎn)生新的0、1 標(biāo)簽,從而得到最終的判別結(jié)果。

        2.1.2 AutoEncoder 算法

        自編碼器是一類在半監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)中使用的人工神經(jīng)網(wǎng)絡(luò),其功能是通過將輸入信息作為學(xué)習(xí)目標(biāo),對(duì)輸入信息進(jìn)行表征學(xué)習(xí)[12-13]。構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)模型,將已有正樣本標(biāo)簽數(shù)據(jù)作為輸入進(jìn)行模型訓(xùn)練,模型通過加解密盡量還原正樣本標(biāo)簽數(shù)據(jù)的特征,得到正樣本標(biāo)簽數(shù)據(jù)的還原誤差范圍。把樣本標(biāo)簽數(shù)據(jù)放到模型中,通過還原誤差閾值的區(qū)分觀察兩者區(qū)分度判斷識(shí)別效果。根據(jù)模型測(cè)試效果選取合適的還原誤差閾值,對(duì)預(yù)測(cè)樣本進(jìn)行輸出結(jié)果分析,根據(jù)是否大于設(shè)定的閾值來進(jìn)行人群識(shí)別。

        ■2.2 模型設(shè)計(jì)

        通常情況下,潛在用戶群體的識(shí)別往往具備較為明顯的群體特征以及能夠獲得明確的樣本標(biāo)簽,這些因素幫助機(jī)器學(xué)習(xí)算法通過較小的學(xué)習(xí)成本達(dá)到相對(duì)優(yōu)秀的識(shí)別效果。但在一些特殊場(chǎng)景下,原始數(shù)據(jù)中大量行為模糊的正樣本混雜在負(fù)樣本中,而不可靠的負(fù)樣本將極大程度上影響模型的準(zhǔn)確性。因此在此場(chǎng)景下需要采用一些半監(jiān)督算法對(duì)待識(shí)別用戶群體進(jìn)行分類,減少混雜樣本的干擾、提升模型的準(zhǔn)確性。潛在老年用戶識(shí)別問題即為此類場(chǎng)景,設(shè)計(jì)基于用戶通信數(shù)據(jù)的潛在老年用戶識(shí)別模型如圖1 所示。

        圖1 基于用戶通信數(shù)據(jù)的潛在老年用戶識(shí)別模型

        基于用戶通信數(shù)據(jù)的潛在老年用戶識(shí)別模型的具體步驟如下所示:

        步驟1:對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理和特征提取。部分算法對(duì)異常值較為敏感,可根據(jù)字段定義及字段之間邏輯關(guān)系去除異常值。

        步驟2:對(duì)新構(gòu)建的數(shù)據(jù)集分為訓(xùn)練集D 和測(cè)試集T。其中訓(xùn)練集D 包含兩類樣本:正樣本D1和待定樣本Dn,待定樣本即為不可靠的負(fù)樣本。

        步驟3:選擇PU learning 算法、AutoEncoder 算法作為學(xué)習(xí)器展開訓(xùn)練。

        步驟3-1:在PU learning 算法中,采取兩步法進(jìn)行模型構(gòu)建。在第一步中選擇一種二分類學(xué)習(xí)器對(duì)訓(xùn)練集D 進(jìn)行訓(xùn)練,得到對(duì)應(yīng)預(yù)測(cè)概率P。根據(jù)正樣本D1對(duì)應(yīng)的最大概率和最小概率得到正樣本真實(shí)區(qū)間(P1,P2)。以該區(qū)間作為劃分依據(jù),訓(xùn)練集D 中概率超過P2的待定樣本與正樣本D1合并確定為新的正樣本,低于P1的待定樣本確定為新的負(fù)樣本,從而產(chǎn)生新的三分類訓(xùn)練集Da,包含正樣本Da1,負(fù)樣本Da2和處于(P1,P2)區(qū)間的待定樣本Dan。第二步選擇一種三分類學(xué)習(xí)器,對(duì)訓(xùn)練集Da進(jìn)行訓(xùn)練。根據(jù)正樣本Da1對(duì)應(yīng)的最大概率和最小概率得到新的真實(shí)區(qū)間(Pa1,Pa2),按第一步相同的劃分原則更新訓(xùn)練集Da,進(jìn)行反復(fù)訓(xùn)練迭代,每次重新定義真實(shí)區(qū)間,將待定樣本Dan區(qū)分為正樣本和確定的負(fù)樣本直到循環(huán)結(jié)束或不產(chǎn)生新的0、1 標(biāo)簽。

        步驟3-2:在AutoEncoder 算法中,即構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)模型,將正樣本D1作為輸入進(jìn)行模型訓(xùn)練,模型通過加解密盡量還原D1的特征,根據(jù)還原結(jié)果確定D1的平均絕對(duì)誤差mae 范圍。

        步驟4:將測(cè)試集T 代入完成訓(xùn)練的PU learning 和AutoEncoder 模型中進(jìn)行模型評(píng)價(jià)優(yōu)化,分別產(chǎn)生標(biāo)簽為1 的預(yù)測(cè)結(jié)果T1和T2。

        步驟5:根據(jù)預(yù)測(cè)結(jié)果T1的概率范圍均分為5 個(gè)區(qū)間并由低到高賦予1-5 分,根據(jù)預(yù)測(cè)結(jié)果T2的mae 范圍均分為5 個(gè)區(qū)間并由低到高賦予1-5 分,兩項(xiàng)預(yù)測(cè)結(jié)果數(shù)據(jù)集合并,兩模型共同命中的用戶根據(jù)其概率值和mae 值所落區(qū)間相加計(jì)分,使識(shí)別人群總得分區(qū)間保持在[0,10]之間,根據(jù)實(shí)際業(yè)務(wù)要求以閾值分?jǐn)?shù)以上的預(yù)測(cè)數(shù)據(jù)作為最終輸出結(jié)果。

        3 模型結(jié)果分析

        在實(shí)際生活中,經(jīng)常存在子女為父母代辦手機(jī)號(hào)碼或父母使用子女手機(jī)副卡的情況,此類老年人用戶無法通過實(shí)名制身份證篩選獲得,導(dǎo)致各類推薦信息無法觸達(dá)。因此模型目標(biāo)為基于用戶通信數(shù)據(jù)識(shí)別隱藏在年輕人手機(jī)號(hào)碼下的老年人群體。

        ■3.1 數(shù)據(jù)預(yù)處理與特征提取

        本文抽取某省用戶的通訊行為數(shù)據(jù)作為原始數(shù)據(jù)集。對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,剔除異常值、極端值,補(bǔ)充缺失值,并針對(duì)不同特征之間量綱差別較大的問題,采用極大極小歸一化的方式對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。

        通過對(duì)原始數(shù)據(jù)集的特征進(jìn)行重建和相關(guān)性篩選,選擇了5 個(gè)維度中分別選擇44 個(gè)和19 個(gè)比較有代表性的特征作為PU learning 和AutoEncoder 算法的輸入特征進(jìn)行模型建設(shè)。方案特征舉例說明如表1 所示。

        表1 方案特征舉例說明

        ■3.2 樣本設(shè)置

        抽取原始數(shù)據(jù)集中10 萬真實(shí)老年人群作為正樣本,10萬待識(shí)別人群作為待定樣本,組成訓(xùn)練集,隨機(jī)抽取近20萬人群作為測(cè)試集,使測(cè)試集符合真實(shí)年齡分布。為了獲得更好的評(píng)估模型效果,本文在測(cè)試集設(shè)置時(shí)對(duì)待測(cè)樣本進(jìn)行了處理,將待測(cè)樣本中特征較為明顯的部分年輕人群體作為真實(shí)負(fù)樣本進(jìn)行標(biāo)注,觀察算法的識(shí)別效果。訓(xùn)練集、測(cè)試集樣本分布如表2。

        表2 樣本分布表

        ■3.3 模型結(jié)果分析

        3.3.1 模型評(píng)價(jià)指標(biāo)

        受不可靠負(fù)樣本的影響,測(cè)試集中其他待定樣本的分類結(jié)果不能說明模型實(shí)際效果。因此在此類模型的評(píng)價(jià)指標(biāo)中,主要關(guān)注正樣本和真實(shí)負(fù)樣本之間的查準(zhǔn)率和查全率。此外,其他待定樣本中預(yù)測(cè)為正的樣本數(shù)占其他待定樣本總數(shù)的比例(r)將作為一項(xiàng)輔助指標(biāo)進(jìn)行觀測(cè)。

        根據(jù)樣本真實(shí)類別與學(xué)習(xí)器預(yù)測(cè)類別的組合,在常規(guī)的真正例(TP)、假正例(FP)、真反例(FN)、假反例(TN)四種情形之外,對(duì)其他待測(cè)樣本中的預(yù)測(cè)結(jié)果為正的樣本記為XP,預(yù)測(cè)結(jié)果為負(fù)的樣本記為XN,如表3 所示。精準(zhǔn)率P、召回率R、待定樣本識(shí)別比例r 分別定義為公式(1)~(3)。

        表3 真實(shí)類別與預(yù)測(cè)類別說明

        3.3.2 PU learning 模型分類能力分析

        PU learning 兩步法計(jì)算時(shí),使用隨機(jī)森林作為二分類學(xué)習(xí)器對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練預(yù)測(cè),得到正樣本對(duì)應(yīng)的概率區(qū)間[0.45,0.7]。以該區(qū)間作為劃分區(qū)間對(duì)待定樣本進(jìn)行分類標(biāo)記,訓(xùn)練集中概率超過0.7 的待定樣本與上一輪的正樣本合并確定為新的正樣本,低于0.45 的待定樣本確定為新的負(fù)樣本,從而產(chǎn)生三分類訓(xùn)練集,包含正樣本、負(fù)樣本和處于[0.45,0.7]區(qū)間的待定樣本。對(duì)該訓(xùn)練集采用隨機(jī)森林作為三分類學(xué)習(xí)器進(jìn)行數(shù)據(jù)集的多輪迭代更新,循環(huán)9 次后,停止產(chǎn)生新的正負(fù)樣本,學(xué)習(xí)器訓(xùn)練完成。以該模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),得到結(jié)果如表4 所示。

        表4 PU learning模型分類結(jié)果

        根據(jù)預(yù)測(cè)結(jié)果可知,模型正樣本查全率為12092/15683=80.59%,查準(zhǔn)率為12092/(12092+3139)=79.39%,其他待定樣本識(shí)別比例r=32305/138051=23.4%。說明模型在對(duì)能夠識(shí)別絕大部分老年人,同時(shí)也將年輕人的誤判比例控制在了一定程度。其他待定樣本識(shí)別比例在23.4%左右。

        3.3.3 AutoEncoder 模型分類能力分析

        選擇訓(xùn)練集中的正樣本進(jìn)入AutoEncoder 模型訓(xùn)練,模型設(shè)定參數(shù)包括完整訓(xùn)練次數(shù)、批數(shù)據(jù)量和學(xué)習(xí)率epoch=50,batch=1000,lr=0.001,得到模型損失函數(shù)曲線,如圖2 所示。由圖可知,loss 函數(shù)在10 個(gè)epoch 之內(nèi)極速下降,隨后趨于穩(wěn)定,模型完成收斂。計(jì)算正樣本的平均絕對(duì)誤差mae,繪制正樣本平均絕對(duì)誤差mae 的分布圖并確定正樣本的mae 閾值為0.06,如圖3 所示。

        圖2 損失函數(shù)曲線圖

        圖3 mae 分布圖

        根據(jù)預(yù)測(cè)結(jié)果可知,模型查全率為12565/15683=80.12%,查準(zhǔn)率為12565/(12565+4134)=75.24%,其他待定樣本識(shí)別比例r=35348/138051=25.61%。說明模型對(duì)潛在老年人用戶群體具有一定的識(shí)別能力,同時(shí)誤判相對(duì)較少。其他待定樣本識(shí)別比例在25.6%左右。

        表5 AutoEncoder模型分類結(jié)果

        3.3.4 識(shí)別結(jié)果輸出

        由于半監(jiān)督算法是利用已有標(biāo)簽對(duì)未標(biāo)記標(biāo)簽進(jìn)行預(yù)測(cè),易受樣本質(zhì)量、特征有效性等因素的影響,進(jìn)而影響到模型整體的準(zhǔn)確性和泛化能力。為降低上述因素影響、提高識(shí)別人群的可靠性、滿足不同業(yè)務(wù)經(jīng)營(yíng)要求,對(duì)兩種算法識(shí)別的正例概率區(qū)間[0.5,1]和mae 區(qū)間[0,0.06]進(jìn)行等分,分別形成5 個(gè)概率區(qū)間并由低到高賦值1-5 分,兩者相加產(chǎn)生0-10 分的分值區(qū)間,計(jì)算人群的綜合得分。

        根據(jù)實(shí)際業(yè)務(wù)需求和專家經(jīng)驗(yàn)判斷,本文確定綜合得分較高(>=8 分)的老人人群作為業(yè)務(wù)營(yíng)銷的目標(biāo)人群,輸出老年人13543 人。由于正樣本可根據(jù)實(shí)名制年齡準(zhǔn)確提取,因此輸出老年人數(shù)即為正樣本總數(shù)15683 人??傆?jì)輸出老年人人數(shù)29226 人,占總體人群19.01%。

        表6 輸出結(jié)果分析表

        4 結(jié)語

        本文針對(duì)現(xiàn)有潛在老年人識(shí)別業(yè)務(wù)場(chǎng)景中有監(jiān)督算法實(shí)用性不大的問題,提出一種基于中國(guó)移動(dòng)數(shù)據(jù),結(jié)合PU learning 算法和AutoEncoder 算法的老年人識(shí)別算法,通過對(duì)未有明確標(biāo)記的數(shù)據(jù)樣本進(jìn)行分類器迭代標(biāo)記以及輸出誤差閾值,并結(jié)合兩種算法結(jié)果進(jìn)行綜合得分計(jì)算,根據(jù)得分識(shí)別老年人群,以此提升老年用戶群的識(shí)別準(zhǔn)確率。通過數(shù)據(jù)驗(yàn)證結(jié)果可以得出老年人用戶群識(shí)別占比符合大數(shù)據(jù)統(tǒng)計(jì)結(jié)果。由此,基于中國(guó)移動(dòng)數(shù)據(jù)與各行業(yè)數(shù)據(jù)的融合互補(bǔ),提高銀發(fā)市場(chǎng)用戶識(shí)別準(zhǔn)確率,向其推薦適配的適老化服務(wù)產(chǎn)品,能夠更有利于社會(huì)養(yǎng)老結(jié)構(gòu)優(yōu)化,從而促進(jìn)社會(huì)穩(wěn)定與經(jīng)濟(jì)效益發(fā)展。

        猜你喜歡
        老年人用戶模型
        一半模型
        認(rèn)識(shí)老年人跌倒
        老年人再婚也要“談情說愛”
        老年人睡眠少怎么辦
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        越來越多老年人愛上網(wǎng)購(gòu)
        海峽姐妹(2018年1期)2018-04-12 06:44:24
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        亚洲av免费不卡在线观看| 国产精品白浆视频免费观看| 三级黄色片一区二区三区| 久99久精品视频免费观看v| 久久久久久久尹人综合网亚洲| 亚洲精品一区二区三区日韩 | 在厨房拨开内裤进入毛片| 欧美大肥婆大肥bbbbb| 无码人妻一区二区三区免费手机| 久久蜜桃一区二区三区| 韩国av一区二区三区不卡| 亚洲美腿丝袜 欧美另类| 99久久99久久久精品久久| 最全精品自拍视频在线| 最新国产精品拍自在线观看| 久久水蜜桃亚洲av无码精品麻豆 | 全免费a级毛片免费看视频 | 国产亚洲成av人片在线观看| 亚洲精品久久久久久| 国产精品日韩欧美一区二区区| 亚洲国产av一区二区三| 国产嫩草av一区二区三区| 亚洲中文久久精品无码| 国产一级毛片卡| 人妻少妇中文字幕av| 激情内射人妻1区2区3区| a级国产乱理论片在线观看| 日韩不卡av高清中文字幕| 国内精品国产三级国产| 成年女人黄小视频| 好吊妞人成免费视频观看| 国产一区二区三区涩涩涩| 999zyz玖玖资源站永久| 四虎国产精品永久在线国在线 | 久久久精品国产亚洲av网麻豆| 亚洲码欧美码一区二区三区| 少妇高潮潮喷到猛进猛出小说| 国产a级午夜毛片| 白白白色视频在线观看播放| 无码日韩精品一区二区免费暖暖| 亚洲精品国产第一区二区尤物 |