吳志峰 黃若塵 魏昕 黃榮谞 周 亮
(1.南京郵電大學(xué)通信與信息工程學(xué)院, 南京,210003; 2.中國(guó)電信江蘇分公司, 南京,210017)
伴隨著多媒體通信技術(shù)的迅猛發(fā)展,以寬帶互聯(lián)網(wǎng)為基礎(chǔ)的交互式網(wǎng)絡(luò)電視(Internet protocol television, IPTV) 極大便利了普通居民在家中享受交互式、個(gè)性化、自由定制的視頻服務(wù)與增值應(yīng)用服務(wù)[1]。在視頻傳輸過程中,傳統(tǒng)的網(wǎng)絡(luò)服務(wù)質(zhì)量(Quality of service, QoS),如帶寬、丟包、延遲和抖動(dòng)等,在一定程度上影響用戶的觀看體驗(yàn)[2-4],但這些網(wǎng)絡(luò)參數(shù)無法精準(zhǔn)描述IPTV業(yè)務(wù)的傳輸狀況能否真實(shí)滿足觀看者的需求,同樣也不能準(zhǔn)確預(yù)測(cè)用戶有無投訴報(bào)障[5-6]。而精確分類預(yù)測(cè)報(bào)障用戶,便于提前改善服務(wù),提高用戶滿意程度,增加用戶黏度。
如今IPTV服務(wù)提供商不斷將關(guān)注點(diǎn)從網(wǎng)絡(luò)QoS轉(zhuǎn)變?yōu)橛脩趔w驗(yàn)質(zhì)量(Quality of experience,QoE)[7]。正是因?yàn)橛脩趔w驗(yàn)是一種主觀的情感變化和個(gè)體化的感受,它的諸多因素很難量化和具體化。在文獻(xiàn)[8]中闡述了量化 QoE 的方法有兩類別法和MOS評(píng)分法[9],然而從大量已知的IPTV用戶報(bào)障反饋中不難看出,高 MOS值并不能很好地降低用戶報(bào)障率[10]。
不僅如此,在IPTV技術(shù)日益成熟的趨勢(shì)下,報(bào)障的用戶占整體用戶的比例也日益下降。因此,用戶數(shù)據(jù)將不可避免地成為非均衡數(shù)據(jù)集,且非均衡比例將持續(xù)增大。如今,如何從龐大的非均衡的數(shù)據(jù)集中成功對(duì)少數(shù)類進(jìn)行分類也成為不少學(xué)者研究的熱點(diǎn)[11]。為了解決該問題,文獻(xiàn)[12]從數(shù)據(jù)層面上闡述了眾多關(guān)于過采樣和欠采樣的方法,如合成少數(shù)類過采樣(Synthetic minority oversampling technique,SMOTE)、Borderline-SMOTE(BSMOTE)等算法和隨機(jī)欠采樣、Informed 欠采樣等欠采樣算法。文獻(xiàn)[13]也提出了利用泰森多邊形來改善非均衡數(shù)據(jù)集的分類性能。
在分類預(yù)測(cè)算法方面,傳統(tǒng)的算法和大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法也在不斷更新[14]以適應(yīng)日益復(fù)雜的應(yīng)用場(chǎng)景。其中由Vapnik等人提出的支持向量機(jī)(Support vector machine, SVM) 借助最優(yōu)化方法來解決機(jī)器學(xué)習(xí)中不少“維數(shù)災(zāi)難”和“過學(xué)習(xí)”等困難。文獻(xiàn)[15]提出的基于ODR和BSMOTE結(jié)合的SVM分類算法能夠在非均衡數(shù)據(jù)下取得不錯(cuò)的效果。
本文針對(duì)傳統(tǒng)單一QoS或 QoE在預(yù)測(cè)用戶報(bào)障時(shí)存在的固有缺陷,將二者結(jié)合起來進(jìn)行預(yù)測(cè),可以顯著提升預(yù)測(cè)分類性能。分類結(jié)果可用于IPTV服務(wù)提供商提前改善服務(wù)質(zhì)量的重要參考指標(biāo)。
本文的實(shí)驗(yàn)數(shù)據(jù)來源于江蘇省電信用戶的IPTV觀看數(shù)據(jù),其中包含著少部分的用戶報(bào)障信息。縱觀全省IPTV數(shù)據(jù),用戶報(bào)障所占比例不大,故實(shí)驗(yàn)數(shù)據(jù)源是一個(gè)典型的非均衡數(shù)據(jù)集。同時(shí),本文在深入理解傳統(tǒng)非均衡數(shù)據(jù)處理與支持向量機(jī)等相關(guān)理論的基礎(chǔ)上,引入了 ODR-BSMOTE-TOMEK和自適應(yīng)變SVM核參數(shù)相結(jié)合的集成算法(OBT-Adaptive-SVM)。該方法在均衡用戶報(bào)障與非報(bào)障數(shù)據(jù)基礎(chǔ)之上,重點(diǎn)清除了人工生成樣本點(diǎn)在SVM分類邊界上難以分類的雜質(zhì)點(diǎn)。在運(yùn)用SVM分類用戶報(bào)障的同時(shí)自適應(yīng)調(diào)整核參數(shù)sigma 以尋找最佳的分類效果。本文提出的OBT-Adaptive-SVM算法比傳統(tǒng)的分類算法在預(yù)測(cè)精度上有顯著提高,因而成功地應(yīng)用于預(yù)測(cè)IPTV用戶報(bào)障與否的實(shí)例中。
本文系統(tǒng)由清洗及特征提取、數(shù)據(jù)均衡與建模預(yù)測(cè)3個(gè)模塊構(gòu)成,如圖1所示。
清洗及特征提取模塊負(fù)責(zé)清洗原始數(shù)據(jù)、特征提取等功能;數(shù)據(jù)均衡模塊負(fù)責(zé)均衡清洗后的原始數(shù)據(jù)集;建模預(yù)測(cè)模塊擬采用支持向量機(jī)SVM完成對(duì)均衡后的數(shù)據(jù)進(jìn)行預(yù)測(cè)分類。
圖1 系統(tǒng)架構(gòu)
Fig.1 System architecture
作為一種二值分類模型,SVM可以利用核技巧將輸入空間轉(zhuǎn)換到高維特征空間,使之在本質(zhì)上具有間隔最大特性的非線性分類器。在間隔最大化策略下,SVM可以等效為求解凸二次規(guī)劃的最優(yōu)化算法。算法描述如下。
在處理非線性回歸的問題中,輸入訓(xùn)練數(shù)據(jù)集為
T={(x1,y1),(x2,y2),…,(xN,yN)}
其中xi∈Χ=Rn,yi∈Y={-1,+1},i=1,2,…,N,xi為第 i 個(gè)特征向量,也稱為實(shí)例,yi為xi的類標(biāo)記,當(dāng) yi=+1時(shí),稱xi為正例;當(dāng)yi=-1時(shí),稱xi為負(fù)例。
輸出:分類決策函數(shù)f(x)
Step1選取適當(dāng)?shù)暮撕瘮?shù)K(x,z)和適當(dāng)?shù)膮?shù)C,構(gòu)造并求解最優(yōu)化問題
(1)
(2)
0≤αi≤C,i=1,2,…,N
(3)
(4)
Step3構(gòu)造決策函數(shù)
(5)
當(dāng)K(x,z)是正定核函數(shù)時(shí),問題 (1~3) 是凸二次規(guī)劃問題,理論上存在解。其中,常用核函數(shù)有高斯徑向基核函數(shù)、多項(xiàng)式核函數(shù)、sigmoid核函數(shù)及字符串核函數(shù)等,本文選用高斯徑向基核函數(shù)K(x,z)=exp(-‖x-z‖2/2σ2) 作為核函數(shù),因?yàn)樗谠S多典型應(yīng)用中具有良好的效果[16-17]。對(duì)應(yīng)的支持向量機(jī)是高斯徑向基函數(shù) (Radial basis function) 分類器,在此情形下,分類決策函數(shù)為
(6)
為了減少非均衡數(shù)據(jù)集對(duì)分類的不利影響,通??梢允褂眠^采樣算法與欠采樣算法處理非均衡數(shù)據(jù)集。 本文采用已有的邊界人工少數(shù)類過采樣算法(Borderline synthetic minority oversampling technique, BSMOTE)和逐級(jí)優(yōu)化遞減欠采樣算法(Optimization of decreasing reduction, ODR)。其中BSMOTE算法在克服傳統(tǒng) SMOTE 算法固有盲目性缺陷的基礎(chǔ)之上,僅復(fù)制加大分類邊界少數(shù)樣本點(diǎn)的數(shù)量,通過提高少數(shù)類樣本點(diǎn)中對(duì)SVM算法分類貢獻(xiàn)率大的樣本點(diǎn)的使用率,進(jìn)而改善SVM分類器的性能。
因?yàn)樵诙鄶?shù)類樣本中存在噪聲樣本和大量冗余樣本,它們不僅會(huì)降低分類效率,還會(huì)嚴(yán)重干擾 SVM 分類器決策過程。而ODR 算法是通過 KNN算法判斷多數(shù)類樣本對(duì)鄰域內(nèi)樣本分類影響的好壞程度、優(yōu)先清除對(duì)分類效果有負(fù)面影響的樣本,然后再刪除影響不大的樣本。
當(dāng)前處理非均衡數(shù)據(jù)集下的 SVM 通常包含兩種主要的方法:一是數(shù)據(jù)樣本的改善;二是算法層面的改進(jìn)[18]。傳統(tǒng)ODR-BSMOTE-SVM算法的缺點(diǎn)是沒有重新審視BSMOTE算法所生成人工樣本點(diǎn)的質(zhì)量好壞。因?yàn)槠渲杏行┤斯颖军c(diǎn)可能會(huì)干擾SVM分類器決策的過程,同時(shí)原算法中應(yīng)用SVM的分類結(jié)果往往不是全局最優(yōu)解。故本文提出如下改進(jìn)以克服傳統(tǒng)算法的固有缺陷。
在BSMOTE算法作用下增加邊界的少數(shù)類樣本點(diǎn),雖然這樣能通過增大支持向量的個(gè)數(shù)從而提升SVM 的分類性能,但是不可避免地又會(huì)在BSMOTE人工生成的樣本點(diǎn)過程中重新生成一些SVM難以分辨的雜質(zhì)點(diǎn),這反過來造成SVM分類性能下降。本文在非均衡數(shù)據(jù)經(jīng)過ODR-BSMOTE算法之后,引入了數(shù)據(jù)清洗TOMEK過程。算法描述如下:
Step1隨機(jī)從樣本集合S中抽取出樣本點(diǎn)xi∈S。在樣本集S中尋找與xi最近鄰的點(diǎn)xj∈S。
Step2樣本集S中尋找與xj最近鄰的點(diǎn)xk∈S。
Step3判斷xi==xk是否成立,若成立則跳轉(zhuǎn)Step4,否則xi=xj,xj=xk,然后跳轉(zhuǎn)Step2。
Step4判斷xi與xk的類別是否一致,若一致,則將這兩個(gè)點(diǎn)保存至新的樣本集Snew,然后從樣本集S中刪除這兩點(diǎn)。若不一致,則直接從樣本集S中刪除這兩點(diǎn)。
圖2 自適應(yīng)變核參數(shù)SVM算法流程圖Fig.2 Flow chart of SVM algorithm with adaptive variable kernel parameters
Step5判斷樣本集S中的個(gè)數(shù)是否為大于0的偶數(shù),若為偶數(shù)則重復(fù) Step 1,否則結(jié)束退出。
最終輸出的樣本集Snew則是改進(jìn)SVM算法的輸入數(shù)據(jù)集的來源。
相對(duì)于核函數(shù),真正決定SVM性能的因素其實(shí)是核參數(shù)。目前國(guó)內(nèi)外也有很多成熟的算法來尋找合適的核參數(shù)值[19-20]。但是本文的數(shù)據(jù)源來自全省用戶數(shù)據(jù),體量較大,從算法的執(zhí)行效率、時(shí)間成本與系統(tǒng)負(fù)載均衡等多方面角度考慮,最終本文在算法層面上的改進(jìn)是在深入研究傳統(tǒng)標(biāo)準(zhǔn)SVM的基礎(chǔ)之上,采用改進(jìn)的自適應(yīng)變核參數(shù)SVM算法 (Adaptive-SVM) 尋找最優(yōu)值,算法流程如圖2所示。
圖3 OBT-Adaptive-SVM 集成算法流程圖Fig.3 Flow chart of OBT-Adaptive-SVM algorithm
圖2中,在初始化高斯核參數(shù)sigma的同時(shí)也設(shè)定好sigma的最大上限值max_sigma。出于減輕程序運(yùn)行負(fù)荷的考慮,算法優(yōu)先使用粗步長(zhǎng),如0.1,先將sigma值從初始值按粗步長(zhǎng)逐漸增大,然后計(jì)算粗步長(zhǎng)下各個(gè)sigma值所對(duì)應(yīng)的預(yù)測(cè)分類效果,同時(shí)僅存儲(chǔ)當(dāng)前最佳分類效果所對(duì)應(yīng)的參數(shù)sigma值作為最佳局部點(diǎn)。當(dāng)sigma值大于max_sigma值時(shí),算法停止粗步長(zhǎng)搜索。
緊接著算法根據(jù)粗步長(zhǎng)搜索得到的最佳局部點(diǎn),將參數(shù)sigma值自動(dòng)定位到該最佳局部點(diǎn)的左側(cè)附近,在限定好細(xì)步長(zhǎng)變化范圍后,改用細(xì)步長(zhǎng)改變參數(shù)sigma值。本文選取的細(xì)步長(zhǎng)與粗步長(zhǎng)比例取1∶10,計(jì)算細(xì)步長(zhǎng)下各個(gè)sigma值所對(duì)應(yīng)的預(yù)測(cè)分類效果,同時(shí)存儲(chǔ)當(dāng)前最佳分類效果所對(duì)應(yīng)的參數(shù)sigma值作為全局最佳點(diǎn)。
因?yàn)樵撟赃m應(yīng)變核參數(shù)SVM算法所改變的步長(zhǎng)不是連續(xù)型數(shù)值,而是間隔較小的離散值,故無法收斂于真正最大值。因此該算法在實(shí)際運(yùn)行中僅需在離散值中找到最合適的結(jié)果。這種做法的優(yōu)勢(shì)在于用較小分類精度損失為代價(jià),換取SVM算法在大數(shù)據(jù)下訓(xùn)練與測(cè)試時(shí)運(yùn)行效率的大幅提高,把在步長(zhǎng)足夠小情況下所計(jì)算出的局部最優(yōu)值近似為最優(yōu)值,并在算法結(jié)束前同時(shí)輸出最佳的分類效果。
以往在處理非均衡數(shù)據(jù)下的分類時(shí),單一的數(shù)據(jù)層面上的改進(jìn)或算法層面上的改進(jìn)在一定程度上可以提高分類精度,但是效果不夠理想[21-22]。故本文將改進(jìn)的ODR-BSMOTE-TOMEK 數(shù)據(jù)均衡算法和改進(jìn)的自適應(yīng)變核參數(shù)SVM算法有機(jī)地結(jié)合成適用于用戶報(bào)障預(yù)測(cè)的OBT-Adaptive-SVM 集成算法,算法流程如圖3所示。算法的基本思想是:首先設(shè)參數(shù)α是需要?jiǎng)h除的多數(shù)類樣本個(gè)數(shù)與多數(shù)類和少數(shù)類樣本之間的差值的比值。首先確定一個(gè)合適的α,然后利用ODR和BSMOTE算法,按照預(yù)定值分別減少多數(shù)類樣本,增加少數(shù)類樣本,再將處理后的訓(xùn)練集經(jīng)過3.1節(jié)所設(shè)計(jì)的TOMEK 數(shù)據(jù)清洗技術(shù),刪除那些BSMOTE產(chǎn)生的和現(xiàn)有數(shù)據(jù)構(gòu)成的對(duì)SVM分類性能不良影響的噪聲點(diǎn),從而將處理后的訓(xùn)練集利用 SVM 進(jìn)行分類。最后,根據(jù)3.2節(jié)所提出的算法自適應(yīng)調(diào)整SVM核參數(shù)sigma使之達(dá)到最佳的預(yù)測(cè)分類效果。
表1 機(jī)頂盒上傳數(shù)據(jù)各字段含義
本文的原始數(shù)據(jù)源自于江蘇電信全省IPTV用戶家中機(jī)頂盒上傳的數(shù)據(jù),且已分類出報(bào)障用戶和非報(bào)障用戶,接著進(jìn)行如下處理。
(1) 特征參數(shù)的選取
原始數(shù)據(jù)集含有 24個(gè)字段,但是很多字段是非數(shù)值型,無法參與SVM計(jì)算。因此,本文最終選擇10個(gè)字段作為SVM算法的特征參數(shù),最后1個(gè)特征 CLASS是區(qū)分該用戶是否報(bào)障,用“+1”表示報(bào)障用戶, “-1” 表示非報(bào)障用戶,如表1所示。
(2) 相同用戶數(shù)據(jù)合并取平均
本文選用的原始數(shù)據(jù)集含有 4 723 101條IPTV用戶記錄數(shù)據(jù),其中報(bào)障記錄有48 172條,占1.02%,非報(bào)障記錄有4 674 929條,占98.98%, 即報(bào)障記錄與非報(bào)障記錄的比例約為1∶97。現(xiàn)將相同用戶所有IPTV觀看記錄進(jìn)行求平均值作為該用戶的記錄。經(jīng)過處理后的數(shù)據(jù)總量為 439 050條,其中報(bào)障用戶有 4 871 個(gè),占1.11%,非報(bào)障用戶有434 179個(gè),占98.89%,即報(bào)障用戶與非報(bào)障用戶的比例約為1∶89,由此可知,數(shù)據(jù)集的不平衡程度還是相當(dāng)大,若不經(jīng)過數(shù)據(jù)層面算法的處理,很難對(duì)用戶報(bào)障與否進(jìn)行很準(zhǔn)確的預(yù)測(cè)。
表2測(cè)試集中分類樣本集的混淆矩陣
Tab.2Classificationconfusionmatrixofsamplesetsintestsets
分類預(yù)測(cè)為不報(bào)障預(yù)測(cè)為報(bào)障用戶不報(bào)障(多數(shù)類)TNFP用戶報(bào)障(少數(shù)類)FNTP
在評(píng)測(cè)非均衡樣本集的分類器性能時(shí),傳統(tǒng)的性能評(píng)估指標(biāo)是從整體分類情況角度看待多數(shù)類和少數(shù)類的準(zhǔn)確率,有時(shí)并不適用于非均衡數(shù)據(jù)集。測(cè)試集中分類樣本集的混淆矩陣如表2所示。正因?yàn)槿绱?,越來越多的學(xué)者在研究非均衡數(shù)據(jù)分類時(shí)采用如下評(píng)判標(biāo)準(zhǔn)[23],本文也采用這些評(píng)價(jià)標(biāo)準(zhǔn)。
(1)訓(xùn)練集總體準(zhǔn)確率:算法分類器在訓(xùn)練集中正確預(yù)測(cè)出用戶報(bào)障和不報(bào)障的總個(gè)數(shù)與訓(xùn)練集總數(shù)的比值。
(2)測(cè)試集用戶報(bào)障召回率Recall_Min,表達(dá)式為
(3)測(cè)試集用戶報(bào)障查準(zhǔn)率Precision_Min,表達(dá)式為
(4)測(cè)試集用戶不報(bào)障召回率Recall_Maj,表達(dá)式為
(5)用戶報(bào)障分類精度和用戶不報(bào)障分類精度的測(cè)試集幾何平均值G_mean[24],表達(dá)式為
G_mean是保持用戶報(bào)障、用戶不報(bào)障分類精度平衡的情況下最大化它們的精度,也就是說只有當(dāng)Recall_Min和Recall_Maj同時(shí)都最高的時(shí)候,G_mean的值才最大。
(6)測(cè)試集用戶報(bào)障的F_measure,表達(dá)式為
F_measure指標(biāo)是一種綜合考慮查全率和查準(zhǔn)率的分類評(píng)價(jià)指標(biāo),能綜合體現(xiàn)出分類器對(duì)用戶報(bào)障和用戶不報(bào)障的分類效果,但更加側(cè)重于用戶報(bào)障樣本的分類效果。
因?yàn)閳?bào)障用戶與非報(bào)障用戶的比例約為1∶89,所以本文在測(cè)試數(shù)據(jù)集中取得報(bào)障與非用戶報(bào)障比例也是1∶89。
為了驗(yàn)證本文提出的 OBT-Adaptive-SVM 算法的性能,根據(jù)表3 中的數(shù)據(jù)集進(jìn)行3次實(shí)驗(yàn),分別計(jì)算傳統(tǒng)標(biāo)準(zhǔn) SVM、ODR-BSMOTE-SVM算法和OBT-Adaptive-SVM 算法的最終分類情況。算法中涉及到k-NN 算法時(shí)k一律取值為5,同時(shí)為了更直觀地表示最終結(jié)果,SVM的核函數(shù)一律選擇高斯徑向基函數(shù),懲罰因子C=1 000,核參數(shù)sigma從0.1開始并以0.1為步長(zhǎng)遞增到2.0,以搜索最佳分類的大致位置。核寬度sigma之所以最大取2.0,這是因?yàn)樗惴ǚ诸愋阅茉诤藚?shù)達(dá)到特定值后,受sigma的影響急劇減小。而OBT-Adaptive-SVM 算法在大致搜索到最優(yōu)局部點(diǎn)后,在其附近以0.01為步長(zhǎng)遞增尋找近似全局最優(yōu)點(diǎn)。
表3 數(shù)據(jù)集的基本信息表
此外為了公平比較算法性能,ODR-BSMOTE-SVM算法與OBT-Adaptive-SVM 算法中的某些參數(shù)設(shè)置相同,在ODR算法中均固定刪除系數(shù)α為0.3,取BSMOTE算法中的k=5 近鄰,然后5近鄰中選擇s=3的隨機(jī)少數(shù)點(diǎn)。3個(gè)算法的分類結(jié)果具體如下:
(1)采用表3中的數(shù)據(jù),對(duì)SVM算法進(jìn)行Matlab仿真,得到結(jié)果如圖4,5所示。從圖4,5中可以看出,不對(duì)原始數(shù)據(jù)進(jìn)行任何數(shù)據(jù)層面算法的處理,SVM算法得到的最佳點(diǎn)將會(huì)在核參數(shù)sigma 為0.3 附近。此時(shí)的報(bào)障與不報(bào)障的召回率在65%左右,但此時(shí)的G_mean和F_measure的值普遍都很低,均在0.1 以下。因此,該算法分類效果并不太明顯。
(2)采用表3中的數(shù)據(jù),對(duì)ODR-BSMOTE-SVM算法進(jìn)行Matlab仿真,得到結(jié)果如圖6,7所示。由圖6,7可以看出,數(shù)據(jù)集在經(jīng)過ODR-BSMOTE算法處理后,再經(jīng)過SVM得到分類結(jié)果明顯優(yōu)于不做任何數(shù)據(jù)均衡處理的標(biāo)準(zhǔn)SVM 算法,且高斯核寬度sigma在0.2以前可以獲得不錯(cuò)的G_mean和F_measure。因此,該算法的分類效果較標(biāo)準(zhǔn)SVM算法有所提高。
(3)采用表3中的數(shù)據(jù),對(duì)OBT-Adaptive-SVM算法進(jìn)行Matlab仿真,當(dāng)核參數(shù)sigma=0.1時(shí)得到結(jié)果如圖8,9所示。由圖8,9 大致可以看出,數(shù)據(jù)集在經(jīng)過ODR-BSMOTE-TOMEK算法處理后的分類結(jié)果明顯優(yōu)于ODR-BSMOTE-SVM算法,且高斯核寬度sigma在0.2以前可以獲得非常好的G_mean和F_measure。
接下來,再經(jīng)過改進(jìn)的自適應(yīng)變核參數(shù)SVM算法處理后,核參數(shù)自動(dòng)調(diào)整到最優(yōu)局部點(diǎn)的左側(cè)附近,即起始點(diǎn)0.01,這是受到核參數(shù)sigma必須大于0的要求,然后算法以步長(zhǎng)為0.01遞增改變核參數(shù),最終得到細(xì)步長(zhǎng)下的分類結(jié)果,如圖10,11所示。
圖4 標(biāo)準(zhǔn)SVM的召回率 圖5 標(biāo)準(zhǔn) SVM算法的G和F指標(biāo) Fig.4 Recall rate of standard SVM Fig.5 G_mean and F_measure of standard SVM
圖6 ODR-BSMOTE-SVM算法的召回率圖7 ODR-BSMOTE-SVM算法G和F指標(biāo) Fig.6 Recall rate of ODR-BSMOTE-SVM Fig.7 G_mean and F_measure of ODR-BSMOTE-SVM
圖8 OBT-Adaptive-SVM算法的召回率 圖9 OBT-Adaptive-SVM算法G和F指標(biāo) Fig.8 Recall rate of OBT-Adaptive-SVM Fig.9 G_mean and F_measure of OBT-Adaptive-SVM
圖10 細(xì)步長(zhǎng)下OBT-Adaptive-SVM算法的召回率 圖11 細(xì)步長(zhǎng)OBT-Adaptive-SVM算法G和F指標(biāo) Fig.10 Recall rate of OBT-Adaptive-SVM Fig.11 G_mean and F_measure of OBT-Adaptive- under the fine step SVM under the fine step
圖12 三種算法的召回率比較 Fig.12 Comparison of recall rotte of three algorithms
由圖10,11 可以看出,改進(jìn)的自適應(yīng)變核參數(shù)SVM算法在核參數(shù)sigma=0.21處得到近似最優(yōu)分類效果,預(yù)測(cè)用戶報(bào)障召回率高達(dá)92.6%,預(yù)測(cè)用戶不報(bào)障召回率也高達(dá)93.08%,本文提出的OBT-
Adaptive-SVM算法分類效果分別和標(biāo)準(zhǔn)SVM算法、ODR-BSMOTE-SVM算法進(jìn)行比較,用戶報(bào)障準(zhǔn)確率顯著提高。圖12為本實(shí)驗(yàn)中3種算法最佳召回率的比較。由圖12可明顯看出,ODR-BSMOTE-TOMEK算法在經(jīng)過數(shù)據(jù)處理后,分類性能較標(biāo)準(zhǔn)SVM有所提高。而本文提出的OBT-Adaptive-SVM集成算法分類性能相比前兩個(gè)算法顯著地提升,說明本文所提方法在預(yù)測(cè)IPTV用戶報(bào)障與否的應(yīng)用中具有可行性。盡管報(bào)障用戶與非報(bào)障用戶的比例為1∶89,但是改變報(bào)障用戶與非報(bào)障用戶的比例僅會(huì)整體改變這3個(gè)算法準(zhǔn)確率的具體數(shù)值,而不改變最終結(jié)論。同樣,本文在k-NN 算法中k的取值一律為5,降低了計(jì)算復(fù)雜度,也不影響最終結(jié)論。
本文方法在數(shù)據(jù)層面上一方面削弱噪聲點(diǎn)和冗余點(diǎn)對(duì)報(bào)障預(yù)測(cè)的干擾,另一方面加強(qiáng)少數(shù)有效樣本點(diǎn)對(duì)正確分類的貢獻(xiàn),同時(shí)再加入TOMEK算法以清除BSMOTE算法生成的在SVM分類邊界上難以區(qū)分判斷的雜質(zhì)點(diǎn)。在算法層面上本文方法不僅引入了自適應(yīng)改變SVM核函數(shù)的參數(shù)sigma的算法,還將OBT算法和自適應(yīng)變核參數(shù)SVM算法二者結(jié)合成一種行之有效的集成學(xué)習(xí)系統(tǒng)。在預(yù)測(cè)分類報(bào)障用戶問題上,實(shí)驗(yàn)結(jié)果顯示本文所提的OBT-Adaptive-SVM 集成算法的預(yù)測(cè)準(zhǔn)確率比傳統(tǒng)的SVM和ODR-BSMOTE-SVM算法都高,在IPTV用戶預(yù)測(cè)的應(yīng)用中取得比傳統(tǒng)算法更佳的性能效果。此外,如何同時(shí)自適應(yīng)改變SVM的懲罰參數(shù)以提高用戶報(bào)障預(yù)測(cè)效果將是下一步研究的目標(biāo)。
[1] 史志明. 網(wǎng)絡(luò)視頻質(zhì)量評(píng)估方法與測(cè)試技術(shù)研究[D]. 北京: 北京郵電大學(xué), 2013.
Shi Zhiming. Research on network video quality assessment method and measure technology[D]. Beijing: Beijing University of Posts and Telecommunications, 2013.
[2] Zhou L, Hu R, Qian Y, et al. Energy-spectrum efficiency tradeoff for video streaming over mobile ad hoc networks[J]. Selected Areas in Communications, IEEE Journal on, 2013, 31(5): 981-991.
[3] Zhou L, Yang Z, Wang H, et al. Impact of execution time on adaptive wireless video scheduling[J]. Selected Areas in Communications, IEEE Journal on, 2014, 32(4): 760-772.
[4] 古強(qiáng). 直播型IPTV QoS若干關(guān)鍵技術(shù)的研究[D]. 北京: 北京郵電大學(xué), 2010.
Gu Qiang. On some live IPTV QoS key techniques[D]. Beijing: Beijing University of Posts and Telecommunications, 2010.
[5] 李海林,郭崇慧,楊麗彬. 基于時(shí)間序列數(shù)據(jù)挖掘的故障檢測(cè)方法[J]. 數(shù)據(jù)采集與處理, 2016, 31(4): 782-790.
Li Hailin, Guo Chonghui, Yang Libin. Fault detection algorithm based on time series data mining[J]. Journal of Data Acquisition and Processing, 2016, 31(4): 782-790.
[6] 周賽賽. IPTV系統(tǒng)QoS關(guān)鍵技術(shù)研究與改進(jìn)[D]. 長(zhǎng)沙: 中南大學(xué), 2008.
Zhou Saisai. Research and improvement on QoS key technology in IPTV system[D]. Changsha: Central South University, 2008.
[7] 張大陸,祝嘉麒. 網(wǎng)絡(luò)傳輸中IPTV的QoE評(píng)估模型的研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2013, 49(20): 71-76,135.
Zhang Dalu, Zhu Jiaqi. QoE evaluation model for IPTV in network transmission[J]. Journal of Computer Engineering and Applications, 2013, 49(20): 71-76,135.
[8] 林闖,胡杰,孔祥震. 用戶體驗(yàn)質(zhì)量(QoE)的模型與評(píng)價(jià)方法綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2012, 35(1): 1-15.
Lin Chuang, Hu Jie, Kong Xiangzhen. Survey on models and evaluation of quality of experience[J]. Chinese Journal of Computers, 2012, 35(1): 1-15.
[9] Balachandran A, Sekar V, Akella A, et al. Developing a predictive model of quality of experience for internet video[C]//ACM SIGCOMM Computer Communication Review, 2013, 43(4): 339-350.
[10] Sun S, Wei X, Wang L, et al. Association analysis and prediction for IPTV service data and user′s QoE[C]//Wireless Communications & Signal Processing (WCSP), 2015 International Conference on. Nanjing, China: IEEE, 2015: 1-5.
[11] Jeatrakul P, Wong K W. Enhancing classification performance of multi-class imbalanced data using the OAA-DB algorithm[C]//Neural Networks (IJCNN), The 2012 International Joint Conference on. Brisbane, QLD: IEEE, 2012: 1-8.
[12] He H, Garcia E A. Learning from imbalanced data[J]. Knowledge and Data Engineering, IEEE Transactions on, 2009, 21(9): 1263-1284.
[13] Young W A, Nykl S L, Weckman G R, et al. Using Voronoi diagrams to improve classification performances when modeling imbalanced datasets[J]. Neural Computing and Applications, 2015, 26(5): 1041-1054.
[14] 何清,李寧,羅文娟,等. 大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J]. 模式識(shí)別與人工智能, 2014, 27(4): 327-336.
He Qing, Li Ling, Luo Wenjun, et al. A survey of machine learning algorithms for big data[J]. Journal of Pattern Recognition and Artificial Intelligence, 2014, 27(4): 327-336.
[15] 陶新民,童智靖,劉玉,等. 基于ODR和BSMOTE結(jié)合的不均衡數(shù)據(jù)SVM分類算法[J]. 控制與決策, 2011, 26(10): 1535-1541.
Tao Xinmin, Tong Zhijing, Liu Yu, et al. SVM classifier for unbalanced data based on combination of ODR and BSMOTE[J]. Journal of Control and Decision, 2011, 26(10): 1535-1541.
[16] 李忠國(guó),侯杰,王凱,等. 模糊支持向量機(jī)在路面識(shí)別中的應(yīng)用[J]. 數(shù)據(jù)采集與處理, 2014, 29(1): 146-151.
Li Zhongguo, Hou Jie, Wang Kai, et al. Application of fuzzy support vector machine on road type recognition[J]. Journal of Data Acquisition and Processing, 2014, 29(1): 146-151.
[17] 汪友生,胡百樂,張麗杰,等. 基于支持向量機(jī)的動(dòng)脈硬化斑塊識(shí)別[J]. 數(shù)據(jù)采集與處理, 2012, 27(3): 283-286.
Wang Yousheng, Hu Baile, Zhang Lijie, et al. Recognition of atherosclerotic plaque based on support vector machine[J]. Journal of Data Acquisition and Processing, 2012, 27(3): 283-286.
[18] 陶新民,郝思媛,張冬雪,等. 不均衡數(shù)據(jù)分類算法的綜述[J]. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 25(1): 101-110,121.
Tao Xinmin, Hao Siyuan, Zhang Dongxue, et al. Overview of classification algorithms for unbalanced data[J]. Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition), 2013, 25(1): 101-110,121.
[19] 董國(guó)君,哈力木拉提·買買提,余輝. 基于RBF核的SVM核參數(shù)優(yōu)化算法[J]. 新疆大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009, 26(3): 355-358,363.
Dong Guojun, Halmurat Maimait, Yu Hui. Algorithms of optimizing SVM′s kernel parameters with RBF kernel[J]. Journal of Xinjiang University(Natural Science Edition), 2009, 26(3): 355-358,363.
[20] 劉俊芳. 粒子群和人工蜂群的混合優(yōu)化算法優(yōu)化SVM參數(shù)及應(yīng)用[D]. 太原: 太原理工大學(xué), 2012.
Liu Junfang. A hybrid algorithm of PSO and ABC used to optimize the parameters of SVM and its application [D]. Taiyuan: Taiyuan University of Technology, 2012.
[21] Chawla N V, Lazarevic A, Hall L O, et al. SMOTEBoost: Improving prediction of the minority class in boosting[M]. Berlin Heidelberg:Springer, 2003: 107-119.
[22] Sun Y, Kamel M S, Wong A K C, et al. Cost-sensitive boosting for classification of imbalanced data[J]. Pattern Recognition, 2007, 40(12): 3358-3378.
[23] 林智勇,郝志峰,楊曉偉. 若干評(píng)價(jià)準(zhǔn)則對(duì)不平衡數(shù)據(jù)學(xué)習(xí)的影響[J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2010, 38(4): 147-155.
Lin Zhiyong, Hao Zhifeng, Yang Xiaowei. Effects of serveral evaluation metrics on imbalanced data learning [J]. Journal of South China University of Technology (Natural Science Edition), 2010, 38(4): 147-155.
[24] Chawla N V, Japkowicz N, Kotcz A. Editorial: Special issue on learning from imbalanced data sets[J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 1-6.