亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多分類器集成和特征融合的用戶出境預(yù)測(cè)*

        2021-05-31 03:10:46軒a許國(guó)良安a超a雒江濤
        電訊技術(shù) 2021年5期
        關(guān)鍵詞:出境分類器樣本

        張 軒a,,許國(guó)良**,魏 安a,,王 超a,,雒江濤

        (重慶郵電大學(xué) a.通信與信息工程學(xué)院;b.電子信息與網(wǎng)絡(luò)工程研究院,重慶 400065)

        0 引 言

        隨著經(jīng)濟(jì)全球化和國(guó)際化進(jìn)程的加快,出境市場(chǎng)迎來良好的發(fā)展機(jī)遇,作為出境市場(chǎng)的核心,出境用戶的畫像和行為分析研究越來越受到關(guān)注。文獻(xiàn)[1]利用調(diào)查問卷數(shù)據(jù)分析了武漢出境游客的人文屬性特征和行為特征。文獻(xiàn)[2]利用在線旅游社區(qū)的文本數(shù)據(jù)分析了中國(guó)游客購(gòu)物行為特征。文獻(xiàn)[3]利用調(diào)查問卷、訪談和在線旅游內(nèi)容對(duì)前往泰國(guó)的中國(guó)游客進(jìn)行研究,分析了游客的人文屬性特征、出境動(dòng)機(jī)以及消費(fèi)特征。文獻(xiàn)[4]利用調(diào)查問卷數(shù)據(jù),分析了香港居民的人文屬性特征、網(wǎng)絡(luò)行為特征、心理特征等,并利用網(wǎng)絡(luò)行為特征和心理特征來識(shí)別潛在出境用戶,但準(zhǔn)確率不高。以上研究存在樣本量小、數(shù)據(jù)真實(shí)性無法保證等問題,且缺乏對(duì)用戶出境前行為的分析研究。

        電信運(yùn)營(yíng)商積累了海量的用戶數(shù)據(jù),包括消費(fèi)信息、終端信息等靜態(tài)數(shù)據(jù),以及上網(wǎng)、通話、出行等行為產(chǎn)生的大量時(shí)空數(shù)據(jù),運(yùn)營(yíng)商數(shù)據(jù)因自身的數(shù)據(jù)優(yōu)勢(shì)在行業(yè)市場(chǎng)得到了廣泛應(yīng)用[5]。研究學(xué)者利用運(yùn)營(yíng)商數(shù)據(jù)進(jìn)行城市居民流動(dòng)模式和城市土地功能使用模式分析、特定行業(yè)用戶挖掘、城市交通預(yù)測(cè)[6]等,但鮮有學(xué)者利用運(yùn)營(yíng)商數(shù)據(jù)在出境領(lǐng)域展開研究。雖然運(yùn)營(yíng)商數(shù)據(jù)為出境領(lǐng)域研究帶來了新的突破口,但是如何利用運(yùn)營(yíng)商數(shù)據(jù)挖掘欲發(fā)生出境行為的用戶仍然存在著諸多挑戰(zhàn)。

        在模式識(shí)別系統(tǒng)中,特征融合方法得到了廣泛應(yīng)用,融合后的新特征更具抽象性,可提高模型的分類性能。文獻(xiàn)[7]通過串聯(lián)形式融合圖像的深淺層特征,提高了人臉識(shí)別的準(zhǔn)確率。文獻(xiàn)[8]通過加權(quán)求和、向量拼接的方式融合文本特征,顯著提高了譯文估計(jì)質(zhì)量的準(zhǔn)確性。文獻(xiàn)[9]通過多核學(xué)習(xí)法融合音頻特征,顯著提高了語音情感識(shí)別準(zhǔn)確率。

        本文提出了一種三層架構(gòu)的基于多分類器集成和特征融合的用戶出境預(yù)測(cè)模型(Three-level Model for Predict Users Whether to Leave the Country Based on Ensemble Learning and Feature Fusion,TMPBEF),首先構(gòu)建用戶多行為分析參考字段庫,利用用戶的移動(dòng)終端信息交互數(shù)據(jù)挖掘用戶的出境相關(guān)行為特征和靜態(tài)特征,然后將第一層和第二層分類器的輸出特征進(jìn)行融合,構(gòu)建交互特征輸入三層分類器進(jìn)行訓(xùn)練和預(yù)測(cè),以預(yù)測(cè)用戶近期是否出境。

        1 TMPBEF模型理論基礎(chǔ)

        1.1 分類器融合方法

        目前,主要采用兩種分類器融合方法處理分類問題。以二分類(0,1)為例,yi和pi分別為單個(gè)模型的預(yù)測(cè)類別和預(yù)測(cè)概率,fre(yi)為yi出現(xiàn)的次數(shù),M為模型的數(shù)量,wm為單個(gè)模型權(quán)重,選擇結(jié)果為H(x)。

        (1)

        (2)

        (1)投票法

        利用簡(jiǎn)單投票法(如式(1))或加權(quán)投票法(如式(2))對(duì)多個(gè)分類器的輸出結(jié)果進(jìn)行選擇,選擇結(jié)果作為最終的輸出類別。例如,文獻(xiàn)[10]利用簡(jiǎn)單投票法構(gòu)建融合模型,模型的泛化性能大幅度提升。文獻(xiàn)[11]利用加權(quán)投票法集成多個(gè)模型,實(shí)現(xiàn)越南語組合歧義的準(zhǔn)確分類。

        (2)堆棧泛化法

        堆棧泛化(Stacked Generalization)方法(以下簡(jiǎn)稱Stacking方法)采用兩層框架結(jié)構(gòu),利用多個(gè)分類器對(duì)樣本集進(jìn)行學(xué)習(xí)和預(yù)測(cè),然后將所有分類器的輸出結(jié)果作為特征,輸入最終的分類器中進(jìn)行學(xué)習(xí)[12]。例如,文獻(xiàn)[13]采用該方法融合多種基于決策樹的集成學(xué)習(xí)算法構(gòu)建釣魚網(wǎng)頁識(shí)別模型,模型準(zhǔn)確率達(dá)97.3%,優(yōu)于各單一模型。

        1.2 貝葉斯優(yōu)化算法

        貝葉斯優(yōu)化算法因搜索效率高、穩(wěn)健性好等優(yōu)點(diǎn),在科研工作中得到了廣泛的應(yīng)用[16]。假設(shè)模型參數(shù)值集合為X={x1,x2,…,xn},未知目標(biāo)函數(shù)和模型參數(shù)間有一定的映射關(guān)系g,則目標(biāo)函數(shù)可表示為g(X),算法的優(yōu)化問題轉(zhuǎn)化為求未知目標(biāo)函數(shù)g(X)的全局最優(yōu)解[14],如式(3)所示:

        (3)

        除了算法參數(shù)集合X和映射關(guān)系g,貝葉斯優(yōu)化還需要關(guān)鍵的兩個(gè)元素,即采集函數(shù)和假設(shè)模型。采集函數(shù)用于從X中確定下一次需要評(píng)估的參數(shù)x,假設(shè)模型用于模擬目標(biāo)函數(shù)的先驗(yàn)分布,然后根據(jù)此分布評(píng)估參數(shù)x的性能。

        1.3 特征選擇

        最小冗余最大相關(guān)(Minimum Redundancy Maximum Relevance,mRMR)算法是一種典型的基于空間搜索的過濾式特征選擇方法,其使用互信息與信息熵作為特征子集的搜索策略,遴選出與類別變量有最大依賴性的特征子集[15]。假設(shè)F={f1,f2,…,fk}為特征集合,C為樣本類別,I(fi;C)為特征fi與類別C之間的互信息,I(fi;fj)為特征fi與特征fj之間的互信息?;バ畔(fi;fj)最小時(shí),fi與fj相關(guān)性最??;互信息I(fi;C)最大時(shí),fi為與類別強(qiáng)相關(guān)。最小冗余指標(biāo)minR(F)定義和最大相關(guān)指標(biāo)maxD(F,C)定義如下所示:

        (4)

        (5)

        基于上述公式,mRMR算法MIQ(Mutual Information Quotient)準(zhǔn)則表示如下:

        (6)

        2 TMPBEF模型構(gòu)建

        鑒于Stacking法不僅能夠綜合降低投票法融合所產(chǎn)生的偏差和方差,還能融合各分類器的輸出結(jié)果,本文在Stacking算法基礎(chǔ)上,構(gòu)建三層框架的多分類器集成算法。TMPBEF模型的1-level分類器和2-level分類器采用邏輯回歸(Logistic Regression,LR)、k最近鄰(k-Nearest Neighbor,KNN)、高效梯度提升決策樹(Highly Efficient Gradient Boosting Decision Tree,LGB)、自適應(yīng)提升(AdaBoost)的融合模型,3-level分類器采用泛化能力強(qiáng)、訓(xùn)練數(shù)據(jù)快的隨機(jī)森林(Random Forest,RF)模型。為了提高模型的預(yù)測(cè)精度,本文選用了貝葉斯優(yōu)化方法對(duì)單一分類器進(jìn)行性能優(yōu)化,實(shí)現(xiàn)模型的分類精度最大化。

        2.1 貝葉斯優(yōu)化函數(shù)設(shè)計(jì)

        本文選擇高斯過程作為假設(shè)模型,選擇UCB函數(shù)作為采集函數(shù)。模型的最終目的是基于用戶的最優(yōu)特征,實(shí)現(xiàn)較高的分類準(zhǔn)確度。本文屬于類別不均衡問題,為了更全面評(píng)估單一模型的分類性能,采用AUC(Area Under the Curve)值作為優(yōu)化函數(shù),具體如式(7)所示:

        (7)

        式中:l為按預(yù)測(cè)概率從小到大排序時(shí)正樣本在真實(shí)樣本中的排列序號(hào),kpositive為正樣本的數(shù)目,knegative為負(fù)樣本的數(shù)目。

        2.2 TMPBEF模型設(shè)計(jì)

        圖1 TMPBEF框架

        TMPBEF模型的設(shè)計(jì)流程如下:

        Step1 為了降低模型的分類誤差,提高模型的穩(wěn)定性,對(duì)初始訓(xùn)練集的特征向量X進(jìn)行切分,將數(shù)據(jù)分為k份,采用滑動(dòng)窗口的形式將前k-1份數(shù)據(jù)作為1-level分類器的訓(xùn)練輸入,第k份數(shù)據(jù)作為1-level分類器的預(yù)測(cè)輸入,直到遍歷全部數(shù)據(jù)。數(shù)據(jù)切分重組如表1所示。

        表1 切分重組樣本

        Step2 假設(shè)1-level分類器為χ={χ1,χ2,χ3,χ4},利用Step 1中的切分重組樣本Train-input對(duì)分類器進(jìn)行訓(xùn)練,得到預(yù)測(cè)函數(shù)集合χ(x)={χ1(x),χ2(x),χ3(x),χ4(x)};利用χ(x)分別對(duì)訓(xùn)練集的特征向量Xtr和測(cè)試集特征向量Xte進(jìn)行預(yù)測(cè),得到預(yù)測(cè)結(jié)果χ(Xtr)={χ1(Xtr),χ2(Xtr),χ3(Xtr),χ4(Xtr)}和χ(Xte)={χ1(Xte),χ2(Xte),χ3(Xte),χ4(Xte)},構(gòu)建新特征集A;將χ(Xtr)添加到Xtr中,χ(Xte)添加到Xte中,構(gòu)建新特征樣本集B。

        Step3 利用Step 1中的數(shù)據(jù)劃分方法對(duì)特征向量Xtr進(jìn)行切分重組,假設(shè)2-level分類器為φ={φ1,φ2,φ3,φ4},利用切分重組后的數(shù)據(jù)Train-input對(duì)分類器進(jìn)行訓(xùn)練,得到預(yù)測(cè)函數(shù)集合φ(x)={φ1(x),φ2(x),φ3(x),φ4(x)};利用φ(x)分別對(duì)訓(xùn)練集的特征向量Xtr和測(cè)試集的特征向量Xte預(yù)測(cè),得到預(yù)測(cè)結(jié)果集φ(Xtr)={φ1(Xtr),φ2(Xtr),φ3(Xtr),φ4(Xtr)}和φ(Xte)={φ1(Xte),φ2(Xte),φ3(Xte),φ4(Xte)},構(gòu)建新特征集C。

        Step4 當(dāng)分類器存在顯著不同時(shí),分類器間會(huì)存在較強(qiáng)的互補(bǔ)性。為了增加特征的細(xì)膩和抽象性,本文考慮設(shè)計(jì)特征融合函數(shù)G(x1,x2),將特征樣本集A的特征向量χ(X)和特征樣本集C中的特征向量φ(X)進(jìn)行融合,得到融合后的特征向量G(X),用于3-level分類器的輸入。初始化集合F1=?,F2=?,特征融合函數(shù)G(x1,x2)的偽代碼如下:

        輸入:集合A,集合B

        輸出:融合后的集合C

        1.初始化集合C=?,M=len(A),N=len(B)

        2.fori=1,2,…,Mdo

        3. forj=(i+1),…,Mdo

        4. 更新集合C:C=C∪(A[i]×A[j])

        5.fori=1,2,…,Mdo

        6. forj=1,…,Ndo

        7. 更新集合C:C=C∪(A[i]×B[j])

        8.fori=1,2,…,Ndo

        9. forj=(i+1),…Ndo

        10. 更新集合C:C=C∪(B[i]×B[j])

        11.輸出集合C

        3 數(shù)據(jù)準(zhǔn)備與評(píng)估指標(biāo)

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        來源于某省占市場(chǎng)份額最大的電信運(yùn)營(yíng)商,數(shù)據(jù)周期為2019年1—3月,包括:CDR話單數(shù)據(jù)(CDR data),記錄用戶通信時(shí)所處位置、通話時(shí)長(zhǎng)、通話次數(shù)、對(duì)端號(hào)碼等信息;上網(wǎng)日志數(shù)據(jù)(Internet log data),記錄用戶上網(wǎng)的地理位置、使用的APP名稱、訪問的目的網(wǎng)頁、消耗的流量、上網(wǎng)時(shí)間等信息;信令軌跡數(shù)據(jù)(Signaling trace data),記錄用戶的出行位置、駐留時(shí)長(zhǎng)、出行時(shí)間等信息;用戶屬性數(shù)據(jù),記錄用戶的性別、年齡、月均話費(fèi)、終端品牌等屬性信息。將1—2月的樣本作為候選訓(xùn)練集,2—3月的樣本作為候選測(cè)試集(剔除訓(xùn)練集中的重復(fù)數(shù)據(jù))??紤]到用戶隱私,樣本中用戶編號(hào)、手機(jī)號(hào)碼等關(guān)鍵字段進(jìn)行數(shù)據(jù)脫敏。

        本文利用深度包解析技術(shù)和爬蟲技術(shù)構(gòu)建上網(wǎng)行為分析參考字段庫(Host_Keys)、通話行為分析參考字段庫(Port_No)、出行行為分析參考字段庫(Lac_Cell),用于從移動(dòng)大數(shù)據(jù)中識(shí)別具有出境意向且發(fā)生出境相關(guān)行為的用戶。

        3.2 特征提取和特征處理

        利用行為分析參考字段庫分別對(duì)候選訓(xùn)練集和候選測(cè)試集進(jìn)行匹配過濾(關(guān)聯(lián)條件如圖2所示,黃色部分為參考字段庫數(shù)據(jù),綠色部分為移動(dòng)大數(shù)據(jù)),得到發(fā)生過出境相關(guān)行為的潛在目標(biāo)用戶樣本集,樣本中包含正樣本和負(fù)樣本。對(duì)潛在目標(biāo)用戶樣本集進(jìn)行冗余字段過濾、異常值剔除、空缺值填充或剔除等處理,提高樣本數(shù)據(jù)的質(zhì)量。以真實(shí)的業(yè)務(wù)場(chǎng)景為參考,提取用戶的靜態(tài)特征(性別、年齡等)和特定時(shí)空行為特征(上網(wǎng)特征、出行特征、國(guó)內(nèi)通話特征、國(guó)際通話特征),如表2所示,其中fi(i=1,2,…,50)代表用戶特征。

        表2 用戶特征集合

        圖2 表間關(guān)聯(lián)條件

        考慮到性別為類別特征,本文對(duì)類別特征進(jìn)行屬性轉(zhuǎn)換處理。將每個(gè)用戶樣本構(gòu)造為<用戶編號(hào),特征,標(biāo)簽>類型,以此構(gòu)建特征訓(xùn)練集和特征測(cè)試集。特征間的量綱不同對(duì)于KNN、邏輯回歸等基于距離計(jì)算的分類算法的分類精度會(huì)有很大影響,本文采用標(biāo)準(zhǔn)化方法本對(duì)特征變量f進(jìn)行歸一化處理,將數(shù)據(jù)取值范圍縮放到[0,1],歸一化后的特征數(shù)據(jù)為f*,特征轉(zhuǎn)換公式如下:

        (8)

        式中:u和δ分別為特征變量f的均值和方差。

        3.3 評(píng)估指標(biāo)

        本文實(shí)驗(yàn)數(shù)據(jù)中,出境用戶的數(shù)量小于非出境用戶數(shù)量,屬于類別不均衡問題。為了更好地評(píng)估模型的分類性能,故采用F值(F1-score)、AUC值、算法耗時(shí)三個(gè)評(píng)價(jià)指標(biāo)。假設(shè)模型對(duì)目標(biāo)數(shù)據(jù)的預(yù)測(cè)結(jié)果為PL(Predict Label),數(shù)據(jù)的真實(shí)標(biāo)簽為AL(Actual Label),則F1-score計(jì)算公式如下:

        (9)

        (10)

        (11)

        本文中,AUC值指從真實(shí)樣本中隨機(jī)選擇一個(gè)出境用戶和一個(gè)非出境用戶,模型對(duì)出境用戶的預(yù)測(cè)概率大于對(duì)非出境用戶的預(yù)測(cè)概率的概率。

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 實(shí)驗(yàn)環(huán)境

        本文的實(shí)驗(yàn)基于Hadoop大數(shù)據(jù)平臺(tái)和Python3.6環(huán)境完成的。Hadoop的MapReduce框架可并行高效地處理大數(shù)據(jù),本文將其用于移動(dòng)大數(shù)據(jù)和行為分析參考字段庫的關(guān)聯(lián)匹配及冗余字段的過濾處理。Python的Scikit-learn中封裝了多種機(jī)器學(xué)習(xí)算法,本文利用Python環(huán)境完成特征的構(gòu)建、特征提取、模型構(gòu)建、參數(shù)調(diào)優(yōu)和模型驗(yàn)證等工作。

        4.2 輸入數(shù)據(jù)特征

        1-level分類器的輸入數(shù)據(jù)非原始的移動(dòng)數(shù)據(jù),而為3.2小節(jié)特征提取操作后的特征數(shù)據(jù)(即表3),用于模型輸入的用戶特征共計(jì)50個(gè),全部為數(shù)值型數(shù)據(jù)。用戶的50個(gè)特征值存在缺失值情況,本文針對(duì)缺失的特征值采用0填充處理。基于以上特征構(gòu)建模型輸入樣本集(包括訓(xùn)練集和測(cè)試集)。訓(xùn)練集樣本的形狀為(52 625,50),測(cè)試集樣本形狀為(32 270,50)。部分輸入數(shù)據(jù)特征如表3所示。

        表3 部分輸入數(shù)據(jù)特征

        4.3 最優(yōu)特征選擇

        經(jīng)過數(shù)據(jù)預(yù)處理后得到了50個(gè)可能與用戶出境相關(guān)的數(shù)據(jù)特征中包含許多相關(guān)性較低的特征,所以本文利用mRMR特征算法的MIQ準(zhǔn)則對(duì)訓(xùn)練集樣本進(jìn)行特征選擇,算法輸出結(jié)果為各特征的得分值。本文根據(jù)特征得分將特征由高到低排列,選擇前15個(gè)特征用于后續(xù)的模型訓(xùn)練。這15個(gè)特征達(dá)到的分類性能是50個(gè)特征達(dá)到的性能的97.9%,而且運(yùn)算效率明顯提高,故本文選擇前15個(gè)特征作為最優(yōu)特征,如表4所示。經(jīng)過特征選擇后,最終用于1-level分類器輸入的訓(xùn)練集樣本形狀為(52 625,15),測(cè)試集樣本形狀為(32 270,15)。

        表4 最優(yōu)特征

        4.4 3-level分類器學(xué)習(xí)和預(yù)測(cè)

        (1)3-level分類器輸入

        由于本文是處理二分類問題,用戶出境的類別對(duì)應(yīng)1,用戶不出境的類別對(duì)應(yīng)0,所以1-level分類器和2-level分類器的輸出值均為1或0。將前兩個(gè)level共計(jì)8個(gè)分類器的輸出值進(jìn)行拼接,得到特征向量X=[x1,x2,x3,x4,x5,x6,x7,x8],將特征兩兩之間進(jìn)行相乘構(gòu)建交互特征,共生成28個(gè)新特征。將每個(gè)用戶樣本構(gòu)造為<用戶編號(hào),新特征,標(biāo)簽>類型,標(biāo)簽采用最開始的用戶標(biāo)簽,則3-level分類器的訓(xùn)練集樣本形狀為(52 625,28),測(cè)試集樣本形狀為(32 270,28)。

        (2)3-level分類器學(xué)習(xí)與預(yù)測(cè)

        利用3-level分類器對(duì)訓(xùn)練集樣本進(jìn)行訓(xùn)練,得到預(yù)測(cè)函數(shù)f(u,X,y),利用預(yù)測(cè)函數(shù)f(u,X,y)對(duì)測(cè)試集樣本進(jìn)行預(yù)測(cè),最終得到用戶的類別標(biāo)簽(0或1)。

        4.5 模型評(píng)估

        為客觀評(píng)估TMPBEF的分類性能,本文將TMPBEF分別與LGB、KNN、LR、RF、AdaBoost五種單一模型、基于五種單一模型的兩層Stacking融合模型、基于1-level分類器的投票法融合模型進(jìn)行對(duì)比,所有對(duì)比模型如表5所示。

        表5 對(duì)比模型

        4.6 結(jié)果與分析

        本文所有實(shí)驗(yàn)均在同一環(huán)境下和同一特征數(shù)據(jù)集上進(jìn)行,TPMBIF與單一模型、Stacking兩層融合模型、投票法融合模型的對(duì)比實(shí)驗(yàn)結(jié)果見表6。

        表6 對(duì)比實(shí)驗(yàn)數(shù)據(jù)

        (1)TMPBEF與單一模型的對(duì)比

        5種單一模型中,性能最差的是RF模型,性能最好的是LR模型,模型對(duì)比詳見圖3。TMPBEF相比LR模型,F(xiàn)1分值提高8.55%,AUC值提高9.61%,耗時(shí)較高。TMPBEF相比RF模型,F(xiàn)1分值提高21.17%,AUC值提高27.79%,耗時(shí)較高。綜上,TMPBEF相比單一模型,F(xiàn)1分值提升范圍為[8.55%,21.17%],AUC值提升范圍為[9.61%,27.79%]。

        圖3 TMPBEF與單一模型、Stacking融合模型對(duì)比

        (2)TMPBEF與Stacking融合模型的對(duì)比

        5種算法中,RF算法對(duì)1-level分類器的預(yù)測(cè)結(jié)果擬合學(xué)習(xí)最好,LGB算法對(duì)1-level分類器的預(yù)測(cè)結(jié)果擬合學(xué)習(xí)最差,模型對(duì)比詳見圖3。TMPBEF相比Stacked_RF模型,F(xiàn)1分值提高5.97%,AUC值提高6.37%,耗時(shí)較高。TMPBEF相比Stacked_LGB模型,F(xiàn)1分值提高17.41%,AUC值提高21.97%,耗時(shí)較高。綜上,TMPBEF相比Stacking融合模型,F(xiàn)1分值提升范圍為[5.97%,17.4%],AUC值提升范圍為[6.37%,21.97%]。

        (3)TMPBEF與投票法融合模型的對(duì)比

        11種投票法融合模型中,Type2融合模型性能最優(yōu),Type3模型性能最差,模型對(duì)比詳見圖4。相比Type2模型,TMPBEF的F1分值提高3.65%,AUC值提高4.13%,耗時(shí)較高。相比Type3模型,TMPBEF的F1分值提高19.96%,AUC值提高25.77%,耗時(shí)較高。綜上,TMPBEF相比投票法融合模型,F(xiàn)1分值提升范圍為[3.65%,19.96%],AUC值提升范圍為[4.13%,25.77%]。

        圖4 TMPBEF與投票法融合模型對(duì)比

        如圖5所示,TMPBEF相比單一模型、投票法融合、Stacking融合在AUC值和F1值上均有所提升。相比單一模型、投票法融合、Stacking融合,AUC值提升范圍為[4.13%,27.79%],F(xiàn)1值提升范圍為[3.85%,21.17%]。綜上,本文提出的TMPBEF具有良好的分類性能,可用于用戶出境預(yù)測(cè)。

        圖5 TMPBEF與變種所有模型對(duì)比

        5 結(jié)束語

        本文提出了一種基于多層分類器集成和特征融合的用戶出境預(yù)測(cè)方法,利用用戶的移動(dòng)終端信息交互數(shù)據(jù),挖掘用戶的通話特征、上網(wǎng)特征、出行特征和靜態(tài)特征,融合貝葉斯優(yōu)化、機(jī)器學(xué)習(xí)和特征融合法構(gòu)建TMPBEF模型,實(shí)現(xiàn)用戶出境的預(yù)測(cè),彌補(bǔ)了傳統(tǒng)基于問卷數(shù)據(jù)或旅游網(wǎng)站數(shù)據(jù)進(jìn)行出境用戶行為特征分析研究的不足。通過實(shí)驗(yàn)對(duì)比分析,TMPBEF模型對(duì)用戶出境具有良好的預(yù)測(cè)性能,但因?yàn)槿龑幽P蜕婕按罅康臄?shù)據(jù)運(yùn)算,所以運(yùn)算耗時(shí)偏高。未來工作側(cè)重于增大數(shù)據(jù)量和數(shù)據(jù)周期,更加全面地提取用戶出境前的特定行為特征,增加用戶的特征維度;另外,對(duì)當(dāng)前的機(jī)器學(xué)習(xí)算法模型進(jìn)行優(yōu)化,以求進(jìn)一步提升模型的預(yù)測(cè)準(zhǔn)確性,同時(shí)降低模型的運(yùn)算耗時(shí)。

        猜你喜歡
        出境分類器樣本
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        中華人民共和國(guó)出境入境管理法
        金橋(2018年9期)2018-09-25 02:53:28
        中華人民共和國(guó)出境入境管理法
        金橋(2018年7期)2018-09-25 02:28:22
        中華人民共和國(guó)出境入境管理法
        金橋(2018年5期)2018-09-22 02:16:50
        推動(dòng)醫(yī)改的“直銷樣本”
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        В первом квартале 2016 года через КПП Маньчжоули прошли 220 международных грузовых железнодорожных составов
        中亞信息(2016年4期)2016-07-07 09:38:14
        亚洲精品国产成人久久av| 草莓视频成人| 日韩av二区三区一区| 亚洲av偷拍一区二区三区| 男女视频一区二区三区在线观看| 无遮挡很爽很污很黄的女同| 日本阿v片在线播放免费| 又湿又黄裸乳漫画无遮挡网站| 久久中文字幕日韩无码视频| 三级黄色片一区二区三区| 杨幂一区二区系列在线| 免费观看a级毛片| 五十路丰满中年熟女中出| 女性自慰网站免费看ww| 亚洲视频在线播放免费视频| 久久久精品国产亚洲av网麻豆| 天天做天天爱夜夜爽毛片毛片| 女人高潮被爽到呻吟在线观看| 两个黑人大战嫩白金发美女| 日本人妻少妇精品视频专区| 日本不卡不二三区在线看| 男吃奶玩乳尖高潮视频| 人妻丝袜av中文系列先锋影音| 狠狠躁天天躁无码中文字幕图| 久久久亚洲日本精品一区| 日本免费精品一区二区| 免费观看a级片| 又湿又黄裸乳漫画无遮挡网站| 国产成人综合久久精品推荐免费| av在线资源一区二区| 一二三四五区av蜜桃| 国产尤物av尤物在线观看| 亚洲成a人片在线网站 | 蜜桃视频中文在线观看| 日本一区二区三区高清视| 久久精品中文字幕无码绿巨人| 亚洲av永久无码国产精品久久| 人妻av一区二区三区av免费| 福利视频在线一区二区三区| 日韩乱码人妻无码系列中文字幕 | 91网红福利精品区一区二|