孫靜 馮鋒
摘 要:隨著物聯(lián)網(wǎng)技術在多個領域的大規(guī)模應用,終端用戶數(shù)量呈快速上升趨勢。在享受通信便利的同時,也有個別用戶利用物聯(lián)網(wǎng)特性生成大量虛假用戶,不利于行業(yè)的健康發(fā)展。針對以上現(xiàn)象,文中采用半監(jiān)督學習的方法,通過研究相關樣本數(shù)據(jù)的特征,建立用戶識別模型,對異常用戶行為做出及時判斷,幫助相關部門、人員采取相應的措施,避免產生較大的損失,節(jié)省了大量人力物力,具有廣泛的應用前景。
關鍵詞:物聯(lián)網(wǎng);用戶識別;半監(jiān)督學習;識別模型;樸素貝葉斯分類;隨機森林
中圖分類號:TP391文獻標識碼:A文章編號:2095-1302(2020)11-0-03
0 引 言
伴隨著LoRa、NB-IoT、5G等物聯(lián)網(wǎng)通信技術的發(fā)展,我國物聯(lián)網(wǎng)終端用戶猛增。在日益增加的用戶數(shù)量中,若出現(xiàn)大量惡意的虛假用戶,則會影響物聯(lián)網(wǎng)平臺正常的工作運行。這些虛假用戶占用了大量資源,使物聯(lián)網(wǎng)平臺無法充分利用,既影響用戶的自身利益,也不利于物聯(lián)網(wǎng)行業(yè)的健康發(fā)展。
僅憑人力識別、用戶舉報等傳統(tǒng)方法監(jiān)督用戶行為,具有一定的局限性和缺陷,監(jiān)督及識別效果并不理想。本文對于物聯(lián)網(wǎng)用戶識別模型進行研究,針對不同的識別方法及分類器進行分析,幫助相關人員盡早發(fā)現(xiàn)用戶的異常行為,及時采取措施,避免造成更大損失。
1 物聯(lián)網(wǎng)平臺概述
物聯(lián)網(wǎng)的工作流程為傳感器收集數(shù)據(jù),通過網(wǎng)絡連接向云端發(fā)送數(shù)據(jù),進行數(shù)據(jù)處理,篩選有用的數(shù)據(jù)后再向終端用戶傳遞有用信息[1-2]。物聯(lián)網(wǎng)平臺主要分為服務管理器和控制中心兩部分,物聯(lián)網(wǎng)平臺組成如圖1所示。
物聯(lián)網(wǎng)卡和5G技術在未來的物聯(lián)網(wǎng)行業(yè)擁有絕對的優(yōu)勢。現(xiàn)階段物聯(lián)網(wǎng)卡具有資費便宜、無實名制等特點,依托物聯(lián)網(wǎng)應用于智能服務領域,如智能家居、智能穿戴、智慧安防等[3]。在物聯(lián)網(wǎng)平臺上,用戶群體被分為不同的身份與類型,為不同的用戶提供不同的平臺數(shù)據(jù)視圖、權限等。
2 識別模型概述
用戶識別實質上是根據(jù)用戶的特征數(shù)據(jù)對其進行分類的過程,將異常數(shù)據(jù)與正常數(shù)據(jù)拆分開來。用戶數(shù)據(jù)中既有少量的已確定虛假用戶的信息,也有占大部分的正常用戶?;谝陨咸卣鳎疚慕⒘嘶谖礃擞洏颖疽约罢龢颖镜陌氡O(jiān)督學習模型[4-5],用于識別物聯(lián)網(wǎng)用戶的類型。
解決這類問題主要有兩種方法。第一種方法是直接在正樣本中進行訓練,訓練出的分類器可以判別測試數(shù)據(jù)是否屬于訓練樣本類別。但實際情況是,現(xiàn)實數(shù)據(jù)遠比實驗復雜,且模型只會輸出“是”或“不是”兩種結果,容易出現(xiàn)被認定為“不是”的樣本并不屬于正樣本相對的另一類,出現(xiàn)誤判的情況。
第二種方法是將其分為兩步,將分類與預測分開。第一步是根據(jù)已標注的樣本,在大量未標注樣本中通過訓練找出可靠的負樣本集;第二步是通過迭代訓練得到一個分類器進行用戶識別工作。識別模型工作流程如圖2所示。
3 用戶數(shù)據(jù)處理
在處理關于用戶的原始數(shù)據(jù)時,首先進行數(shù)據(jù)核查,通過計算數(shù)據(jù)的均值、期望值、中位數(shù)、方差等了解原始數(shù)據(jù)的大致分布。根據(jù)用戶識別業(yè)務的需求遍歷所有重要字段,所需數(shù)據(jù)字段見表1~表4所列。轉換部分數(shù)據(jù)類型,便于后續(xù)處理,并利用上文得到的統(tǒng)計數(shù)據(jù)進行空值填充。將處理好的數(shù)據(jù)進行打標簽操作后隨機排序,分為訓練集和測試集,再將測試集中的一小部分數(shù)據(jù)分離出可靠的正樣本,用于訓練分類器。
4 模型選擇與搭建
4.1 兩步法
在本文所研究的兩步法模型中,第一步使用的模型為樸素貝葉斯分類器,其優(yōu)勢在于算法數(shù)學模型穩(wěn)定、學習簡單,分類效果較理想[6-7]。該分類器所需參數(shù)很少,對于缺失的數(shù)據(jù)不太敏感,比較符合實際數(shù)據(jù)情況,可解釋性強。理論上來說,相較于其他模型,它的誤差率最小。
貝葉斯基本公式為:
假設數(shù)據(jù)的每個樣本有m維特征向量,描述其m個屬性的值,即A={x1, x2, ..., xm}。數(shù)據(jù)類別可分為n類,即n={y1, y2, ..., yn}。給定未知樣本集X,使用樸素貝葉斯分類方法將樣本按類別n={y1, y2, ..., yn}分開。
代入貝葉斯理論,可得給定的某用戶A屬于某分類yn的概率為:
對于給定用戶A屬于某一分類yn的概率,可由A在每個給定的分類yn的概率得出,需要計算每個分類用戶A在其中的概率。即
假設集合T為正樣本集合,集合U為未標記樣本集合。模型訓練過程如下:
(1)將集合T、U中的樣本類別標記為1、0;
(2)分別使用數(shù)據(jù)集T和U進行訓練,得到理想的分類器;
(3)使用上述分類器將未標記樣本進行分類。
第二步使用的模型為隨機森林算法?!吧帧庇啥鄠€決策樹組成,采用隨機有放回的選擇模式訓練數(shù)據(jù)模型,引入隨機屬性選擇,通過組合模型來提升學習效果[8]?!吧帧敝械拿恳豢脴涠紩鶕?jù)自己分類選擇進行“投票”,最終的結果是“票數(shù)”最多的屬性。其計算公式如下:
式中:H(x)表示隨機森林分類模型最終結果;hi(x)表示每棵決策樹的單獨分類結果;Y表示需要分類的對象。通過投票策略將得票數(shù)最多的分類結果進行輸出[9]。
模型搭建需要根據(jù)數(shù)據(jù)進行特征選擇,本文主要針對一周之內的操作行為、流量、短信等信息進行統(tǒng)計。對數(shù)據(jù)首先進行數(shù)據(jù)清洗預處理,過濾掉某些異常的數(shù)據(jù),并根據(jù)后期的需求對關鍵字段進行處理。根據(jù)其用戶ID找到對應的
SIM ID,并關聯(lián)其操作記錄表、流量表、信息表。物聯(lián)網(wǎng)卡的流量監(jiān)控為重要指標,根據(jù)時間記錄對最近七天的短信使用量和數(shù)據(jù)流量使用量求和。對操作行為表進行預處理,根據(jù)操作時間及SIM ID對最近七天的操作次數(shù)求和。將七天的數(shù)據(jù)以第一天為基準進行內關聯(lián),最終得到每一張卡在七天中的操作行為、短信、流量的情況。對于已標注的虛假用戶數(shù)據(jù)的處理與以上流程一致。
將30%數(shù)據(jù)作為測試集,70%數(shù)據(jù)作為訓練集。在訓練集上建立模型,第一步使用樸素貝葉斯模型,第二步使用隨機森林模型。調整模型參數(shù),找到在訓練集上表現(xiàn)結果最優(yōu)的模型,最后使用測試集進行測試。對預測結果的評判不能只按照傳統(tǒng)的精確率、召回率等,因為除已標記的虛假用戶外,對于未知用戶類型并沒有確切的判斷。這里的判斷標準采用,其中代表樣本為正樣本的概率,r代表召回率,p代表精確率。使用這個公式來判斷分類器的性能。兩步法模型預測結果見表5所列。
4.2 一步法
上文提到的直接法是在正樣本上進行訓練,比較經(jīng)典的單分類方法為one-class SVM模型。 在識別一個新的“點”(用戶數(shù)據(jù))時,若落在該超平面內,說明屬于正樣本集,若不是則屬于其他類,但無法判斷出具體屬于哪一類[10]。one-class SVM模型的訓練樣本只有一類,與二分類問題有一定差別,本文只對物聯(lián)網(wǎng)用戶的正樣本數(shù)據(jù)進行訓練,最終訓練結果中挑出不屬于正常用戶的數(shù)據(jù)即可。
5 結 語
本文從物聯(lián)網(wǎng)角度出發(fā)分析了用戶識別模型,根據(jù)物聯(lián)網(wǎng)的特性使用機器學習方法建立模型,并進行分類操作。通過實驗可以看出一步法的準確率遠低于兩步法。盡管理論上現(xiàn)有模型可以達到較好的效果,但還有繼續(xù)改善之處:兩步法分類模型嘗試使用更多不同分算法組合進行訓練,以達到更為精準的結果;對于字段的提取,根據(jù)實際情況增加或減少,調整不同特性的權重比例,不斷完善,提高預測準確率。
參考文獻
[1]胡向東.物聯(lián)網(wǎng)研究與發(fā)展綜述[J].數(shù)字通信,2010,37(2):17-21.
[2]李榮.物聯(lián)網(wǎng)用戶界面如何工作[J].計算機與網(wǎng)絡,2019,45(12):38-39.
[3]王曉菊,田立勤,趙競雄.基于物聯(lián)網(wǎng)的用戶行為認證機制與分析[J].南京理工大學學報,2015,39(1):70-77.
[4]張溶芳,許丹丹,王元光,等.機器學習在物聯(lián)網(wǎng)虛假用戶識別中的運用[J].電信科學,2019,35(7):136-144.
[5]譚侃,高旻,李文濤,等.基于雙層采樣主動學習的社交網(wǎng)絡虛假用戶檢測方法[J].自動化學報,2017,43(3):441-460.
[6]張步良.基于分類概率加權的樸素貝葉斯分類方法[J].重慶理工大學學報(自然科學),2012,26(7):81-83.
[7]張璠.多種策略改進樸素貝葉斯分類器[J].微機發(fā)展,2005,15(4):35-36.
[8]徐少成,李東喜. 基于隨機森林的加權特征選擇算法[J]. 統(tǒng)計與決策,2018,34(18):25-28.
[9]方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2011,26(3):32-38.
[10]丁世飛,齊丙娟,譚紅艷.支持向量機理論與算法研究綜述[J].電子科技大學學報,2011,53(1):2-10.