亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶行為特征分析的騷擾欺詐電話識別技術(shù)

        2020-11-04 02:47:44張婧旭
        文化產(chǎn)業(yè) 2020年24期
        關(guān)鍵詞:用戶模型

        ◎張婧旭

        (中國電信股份有限公司福建分公司 福建 福州 350000)

        隨著電信行業(yè)和計算機(jī)科技的迅速發(fā)展,出現(xiàn)一些團(tuán)體為了經(jīng)濟(jì)利益等,通過騷擾電話、垃圾短信等方式對目標(biāo)人群進(jìn)行騷擾;通過利用電腦設(shè)備和專用軟件,可以自動變換呼叫頻率,按照特定規(guī)則生成呼叫號碼并且實(shí)現(xiàn)高頻率呼叫。由于當(dāng)前辦理移動電話號碼的成本很低,騷擾電話發(fā)起者會經(jīng)常變換用于騷擾的電話號碼,增加對電話號碼捕捉的難度。因此,本文從實(shí)戰(zhàn)角度,介紹了一種適用于運(yùn)營商的基于用戶行為特征的騷擾欺詐電話識別技術(shù),對提高治理騷擾、欺詐電話的準(zhǔn)確度提供借鑒。

        一、電話騷擾行為的特征

        騷擾電話有三種行為,分別是直接撥打、誘導(dǎo)回?fù)芎瓦B續(xù)呼叫。直接撥打,就是騷擾人直接撥打被騷擾人電話傳播事先錄制好的語音;誘導(dǎo)回?fù)?,就是撥打電話響鈴后自動掛斷,?dāng)被騷擾人回?fù)芎髸牭津}擾語音;連續(xù)呼叫,就是通過計算機(jī)對被騷擾人連續(xù)呼叫,影響被騷擾人正常通話。三種騷擾行為共同點(diǎn)是:呼叫頻率高;單位時間內(nèi)被叫數(shù)量大;呼叫時間比較集中;響鈴時間短;騷擾號碼被呼叫時的通話時間短;被叫號碼集中度高;被叫號碼為空號的比例大。

        二、基于用戶行為特征的騷擾欺詐電話識別

        (一)數(shù)據(jù)準(zhǔn)備

        用戶在辦理業(yè)務(wù)時留下了檔案信息,包括戶名、證件號、性別、產(chǎn)品(套餐)等信息,在用戶通信過程中生成了通話詳單、上網(wǎng)詳單。對這些信息可以進(jìn)行初步的整合加工,得到我們進(jìn)行深度學(xué)習(xí)的基礎(chǔ)數(shù)據(jù)。如客戶入網(wǎng)時間、在網(wǎng)產(chǎn)品個數(shù)、套餐類別、開通時間、月通話次數(shù)、主叫通話次數(shù)、被叫號碼數(shù)、漫游地、上網(wǎng)流量等。同時為進(jìn)行深度學(xué)習(xí),還需通過人工方式獲取一定量的騷擾、欺詐、快遞、外賣、客服等真實(shí)的號碼。

        (二)數(shù)據(jù)處理

        1.標(biāo)簽字段

        將人工標(biāo)記的結(jié)果數(shù)據(jù)轉(zhuǎn)換為數(shù)值型的編碼,用于后續(xù)的算法使用。

        2.日期型字段

        用戶數(shù)據(jù)中有大量的日期型的數(shù)據(jù),如客戶入網(wǎng)時間、套餐開通時間等,該類數(shù)據(jù)真正關(guān)心的不是具體的日期,而是該日期過去了多久,距今多少天或多少月等,用戶是老用戶還是新用戶等,因此需要對日期型數(shù)據(jù)進(jìn)行處理轉(zhuǎn)換,可以在python中處理,但更建議在數(shù)據(jù)庫中處理,因?yàn)閿?shù)據(jù)庫中處理相對簡單。部分?jǐn)?shù)據(jù)因?yàn)闅v史原因存在異常,需先對異常值進(jìn)行處理,如入網(wǎng)時間的最小最大值分別為11111111、99991231。

        3.類別型字段

        用戶數(shù)據(jù)中有大量的類別型的數(shù)據(jù),如用戶星級、用戶終端廠商、用戶主套餐等,該類數(shù)據(jù)相對于數(shù)值型的數(shù)據(jù),一方面是不同取值之間不存在大小的判斷,另一方面取值存在字符數(shù)據(jù)包括中文數(shù)據(jù),因此需對這類數(shù)據(jù)進(jìn)行預(yù)處理,同時部分類別型字段的取值范圍太多(如終端型號、套餐類別等)需進(jìn)行歸類。

        4.連續(xù)型字段

        連續(xù)型字段指通話分鐘數(shù)、上網(wǎng)流量、客戶積分等數(shù)據(jù),該類數(shù)據(jù)為實(shí)數(shù)型或整數(shù)型字段,可以根據(jù)業(yè)務(wù)理解基于已有數(shù)據(jù)加工大量新的字段供機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)挖掘。

        5.綜合數(shù)據(jù)處理

        將日期型字段、類別型字段、連續(xù)型字段結(jié)合起來做一些綜合性處理,例如將以上特征(字段)選取部分做聚類,再構(gòu)造統(tǒng)計特征。

        6.內(nèi)存優(yōu)化

        內(nèi)存優(yōu)化的思路是將數(shù)值型數(shù)據(jù)的數(shù)據(jù)類型轉(zhuǎn)為最合適的,如將數(shù)據(jù)類型由'intt64'轉(zhuǎn)為'int8'類型等。由此降低數(shù)據(jù)對內(nèi)存的占用,騰出內(nèi)存供機(jī)器學(xué)習(xí)算法使用,提高模型訓(xùn)練速度。

        (三)算法實(shí)現(xiàn)

        為保障機(jī)器學(xué)習(xí)訓(xùn)練出來的模型能用來預(yù)測,前面的數(shù)據(jù)處理是將訓(xùn)練數(shù)據(jù)和需要預(yù)測的數(shù)據(jù)(應(yīng)用數(shù)據(jù))合并在一起處理的,以保證處理方式一致。因此,需將訓(xùn)練數(shù)據(jù)和應(yīng)用數(shù)據(jù)拆分出來,并需明確因變量和自變量,同時為測試模型的優(yōu)劣,需將訓(xùn)練數(shù)據(jù)中留出一定比例的數(shù)據(jù)作為測試集。

        1.算法選擇

        要預(yù)測的label字段取值有5個,因此該識別問題是個多分類問題,python中能做多分類的算法有隨機(jī) 森 林(Random Forest Classifier)、 多 分 類(One Vs Rest Classifier)、 邏 輯 回 歸(Logistic Regression),xgboost、LightGBM等,前三個Python的Scikit-learn中自帶,后兩個需下載安裝包在Python中安裝。經(jīng)過比較,xgboost、LightGBM的效果較好,LightGBM效率比xgboost高非常多,因此最終選擇了LightGBM算法。

        2.算法實(shí)現(xiàn)

        因樣本數(shù)量嚴(yán)重不均衡,需對此進(jìn)行處理,處理方式有過采樣、欠采樣、smote算法等,本次通過對訓(xùn)練模型設(shè)置權(quán)重來實(shí)現(xiàn)。

        訓(xùn)練開始:2020.02.23 10:58:26

        訓(xùn)練結(jié)束:2020.02.23 12:31:23

        訓(xùn)練耗時:1小時32分鐘57.36秒

        3.參數(shù)調(diào)優(yōu)

        可以用GridSearchCV進(jìn)行參數(shù)調(diào)優(yōu)。

        該調(diào)優(yōu)方法是對parameters中的所有參數(shù)進(jìn)行組合后逐個運(yùn)行,花費(fèi)時間較長,例如以上例子中若對max_depth,n_estimators兩個參數(shù)同時調(diào)優(yōu),需花費(fèi)的時間約為7×5*1.5小時,約兩天。因此該調(diào)優(yōu)方法只適用于小數(shù)據(jù)量情況下,對于電信的大數(shù)據(jù)量同時調(diào)優(yōu)多個參數(shù)耗時都以天為單位,盡量只對每個參數(shù)進(jìn)行逐個調(diào)優(yōu)。

        4.應(yīng)用測試集測試模型效果

        查看AUC值

        5.輸出結(jié)果

        (一)模型訓(xùn)練結(jié)束,即可用模型對數(shù)據(jù)進(jìn)行預(yù)測。

        三、結(jié)語

        騷擾欺詐電話嚴(yán)重擾亂正常的生產(chǎn)生活秩序。對于普通用戶來說,這種行為不僅擾亂了正常工作生活,還造成精神上和經(jīng)濟(jì)上的損失;對于電信運(yùn)營商來說,這種行為影響了通信網(wǎng)絡(luò)資源的正常使用,影響了企業(yè)品牌形象。本文從實(shí)戰(zhàn)角度出發(fā)介紹了騷擾欺詐電話識別的一般過程,向運(yùn)營商提供一種可以基于用戶大數(shù)據(jù)利用人工智能技術(shù)進(jìn)行騷擾、欺詐電話的預(yù)測識別辦法,有利于提高治理騷擾、欺詐電話的準(zhǔn)確度和覆蓋率。

        猜你喜歡
        用戶模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        Camera360:拍出5億用戶
        100萬用戶
        蜜桃av区一区二区三| 免费观看又污又黄的网站| 日韩精品久久久一区| 久久久亚洲精品免费视频| 国产成人一区二区三区影院| 成人免费无码视频在线网站| 久久久亚洲色| 国产黑色丝袜在线观看视频| 在线看高清中文字幕一区| 国产av无码专区亚洲a∨毛片| 思思久久96热在精品国产| 色爱无码A V 综合区| 国产猛男猛女超爽免费av| 偷拍一区二区视频播放器| 国产真人性做爰久久网站| 亚洲中文字幕久久精品蜜桃| 国产精品美女自在线观看| 久久亚洲道色综合久久| 国产一区二区在线视频| 中文人妻无码一区二区三区| 蜜桃视频一区二区三区| 4455永久免费视频| 亚洲有码转帖| 亚洲AV无码一区二区三区精神| 日韩有码在线一区二区三区合集| 无码人妻丰满熟妇区五十路| 极品熟妇大蝴蝶20p| 久久精品国产亚洲av热九九热| 亚洲av一区二区三区色多多| 精品欧洲av无码一区二区| 天天狠天天透天干天天| 在线观看中文字幕不卡二区| 中国少妇×xxxx性裸交| 国模无码人体一区二区| 一区二区三区在线视频免费观看| 亚洲av一区二区三区蜜桃| 插b内射18免费视频| 亚洲一区二区三区av链接| 精品国产色哟av一区二区三区 | 日韩精品视频一区二区三区| 84pao强力打造免费视频34|