亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        隨機(jī)森林在運(yùn)營(yíng)商大數(shù)據(jù)補(bǔ)全中的應(yīng)用

        2016-02-08 03:56:20王錚任華方燕萍
        電信科學(xué) 2016年12期
        關(guān)鍵詞:日志運(yùn)營(yíng)商森林

        王錚,任華,方燕萍

        (中國(guó)電信股份有限公司上海研究院,上海 200122)

        隨機(jī)森林在運(yùn)營(yíng)商大數(shù)據(jù)補(bǔ)全中的應(yīng)用

        王錚,任華,方燕萍

        (中國(guó)電信股份有限公司上海研究院,上海 200122)

        電信運(yùn)營(yíng)商有大量數(shù)據(jù),但是鑒于多種原因,數(shù)據(jù)的質(zhì)量不夠理想,出現(xiàn)大量數(shù)據(jù)不完整甚至缺失。對(duì)于已有數(shù)據(jù)的挖掘,必須在數(shù)據(jù)滿足質(zhì)量要求且達(dá)到足夠采樣比例的前提下開(kāi)展。依托現(xiàn)有的全國(guó)日志留存系統(tǒng),設(shè)計(jì)完整數(shù)據(jù)的模板樣庫(kù),鑒別不能滿足質(zhì)量要求的數(shù)據(jù),使用隨機(jī)森林算法,找到最符合的相同或相關(guān)數(shù)據(jù),補(bǔ)全數(shù)據(jù)并提升數(shù)據(jù)質(zhì)量;用回溯反饋的方法優(yōu)化并擴(kuò)充模板樣庫(kù)。在全國(guó)日志留存系統(tǒng)中構(gòu)建數(shù)據(jù)補(bǔ)全子系統(tǒng),實(shí)現(xiàn)端到端的數(shù)據(jù)質(zhì)量保障和提升,補(bǔ)全并改善歷史數(shù)據(jù)甚至實(shí)時(shí)數(shù)據(jù)的質(zhì)量,最終滿足數(shù)據(jù)處理和挖掘的要求,提升運(yùn)營(yíng)商數(shù)據(jù)質(zhì)量和價(jià)值。

        大數(shù)據(jù);隨機(jī)森林;機(jī)器學(xué)習(xí);數(shù)據(jù)補(bǔ)全

        1 引言

        電信運(yùn)營(yíng)商是天然的大數(shù)據(jù)擁有者,擁有著基于用戶的信令、上網(wǎng)、位置等多種類(lèi)型的數(shù)據(jù)。隨著近年大數(shù)據(jù)技術(shù)發(fā)展和應(yīng)用推廣,電信運(yùn)營(yíng)商也愈發(fā)重視數(shù)據(jù)這一戰(zhàn)略資產(chǎn),研發(fā)了多種基于大數(shù)據(jù)技術(shù)的平臺(tái)和系統(tǒng),用來(lái)收集、存儲(chǔ)、處理、開(kāi)放和應(yīng)用電信運(yùn)營(yíng)商的數(shù)據(jù),體現(xiàn)電信運(yùn)營(yíng)商的數(shù)據(jù)價(jià)值。但由于歷史的原因,電信運(yùn)營(yíng)商的各種設(shè)備和系統(tǒng),設(shè)計(jì)和建設(shè)的年代不同、承建的廠商不同、不同省份的需求不同、后期的升級(jí)狀況不同等,造成了數(shù)據(jù)質(zhì)量參差不齊。最常出現(xiàn)數(shù)據(jù)缺失、數(shù)據(jù)不全等現(xiàn)象,導(dǎo)致存儲(chǔ)和收集的數(shù)據(jù)質(zhì)量不高,甚至出現(xiàn)因?yàn)榭刹蓸訑?shù)據(jù)比例過(guò)低,造成大批量的數(shù)據(jù)不可用。

        在運(yùn)營(yíng)商全國(guó)日志留存系統(tǒng)的大數(shù)據(jù)集約運(yùn)營(yíng)應(yīng)用中,數(shù)據(jù)采集、匯聚、上傳在省一級(jí)實(shí)現(xiàn),數(shù)據(jù)接收、關(guān)聯(lián)入庫(kù)、查詢(xún)和開(kāi)放共享則在全國(guó)一級(jí)實(shí)現(xiàn),在接收后關(guān)聯(lián)入庫(kù)前會(huì)對(duì)收集的數(shù)據(jù)預(yù)做完整性檢驗(yàn)。但是由于較多數(shù)據(jù)完整性不足,導(dǎo)致可用數(shù)據(jù)不多。本文從解決全國(guó)日志留存系統(tǒng)當(dāng)前面臨的數(shù)據(jù)完整性不夠、數(shù)據(jù)質(zhì)量差的問(wèn)題出發(fā),提出將隨機(jī)森林算法引入數(shù)據(jù)補(bǔ)全中,以提升數(shù)據(jù)完整性的技術(shù)方案。

        2 基于大數(shù)據(jù)架構(gòu)的全國(guó)日志留存系統(tǒng)

        用戶網(wǎng)絡(luò)行為信息是電信運(yùn)營(yíng)商數(shù)據(jù)信息的主要部分,也是進(jìn)行用戶行為畫(huà)像的主要數(shù)據(jù)源,支持輔導(dǎo)預(yù)測(cè)、評(píng)估、決策等多項(xiàng)管理或商務(wù)行為,具有豐富價(jià)值和潛力。電信運(yùn)營(yíng)商的全國(guó)日志留存系統(tǒng)就是對(duì)相關(guān)信息進(jìn)行收集、存儲(chǔ)、挖掘和服務(wù)共享的系統(tǒng),為基于電信運(yùn)營(yíng)商的大數(shù)據(jù)開(kāi)展服務(wù)提供數(shù)據(jù)挖掘、共享等數(shù)據(jù)增值服務(wù)。

        2.1 總體功能概述

        (1)數(shù)據(jù)采集

        各省數(shù)據(jù)采集機(jī)需要采集上網(wǎng)日志數(shù)據(jù)以及業(yè)務(wù)網(wǎng)絡(luò)數(shù)據(jù)并提供緩存,上網(wǎng)日志數(shù)據(jù)包括WLAN方式下,在固網(wǎng)AAA平臺(tái)的DPI設(shè)備(或者類(lèi)似設(shè)備)上取得的認(rèn)證信息;分組域DPI上取得的認(rèn)證信息和互聯(lián)網(wǎng)訪問(wèn)信息;WAP網(wǎng)關(guān)上取得的認(rèn)證信息和互聯(lián)網(wǎng)訪問(wèn)信息;WAP網(wǎng)關(guān)防火墻、融合防火墻上取得的NAT信息;4G DPI上取得的認(rèn)證信息和互聯(lián)網(wǎng)訪問(wèn)信息。本期工程只采集上網(wǎng)日志數(shù)據(jù),業(yè)務(wù)網(wǎng)絡(luò)平臺(tái)及其他平臺(tái)的數(shù)據(jù)采集未來(lái)逐步擴(kuò)展增加。

        (2)數(shù)據(jù)傳輸

        數(shù)據(jù)采集機(jī)定時(shí)掃描各數(shù)據(jù)源相關(guān)目錄的數(shù)據(jù),進(jìn)行壓縮傳輸?shù)炔僮鳎ㄈ绻呀?jīng)壓縮不必再次壓縮,如果沒(méi)有壓縮,則進(jìn)行壓縮),并配有重傳機(jī)制。

        (3)數(shù)據(jù)接收

        全國(guó)接口機(jī)對(duì)上傳的日志數(shù)據(jù)進(jìn)行校驗(yàn)、稽核、去冗、清洗等操作后裝載入HDFS(Hadoop distributed file system,Hadoop分布式文件系統(tǒng))。

        (4)數(shù)據(jù)關(guān)聯(lián)入庫(kù)

        對(duì)采集機(jī)上傳的全量日志數(shù)據(jù)根據(jù)規(guī)則要求進(jìn)行關(guān)聯(lián)入庫(kù),以供查詢(xún)和共享。

        (5)查詢(xún)功能

        通過(guò)頁(yè)面的方式提供相關(guān)數(shù)據(jù)查詢(xún)操作。

        (6)數(shù)據(jù)共享

        根據(jù)各共享數(shù)據(jù)需求平臺(tái)的需求,通過(guò)特定接口方式提供數(shù)據(jù)共享功能。

        2.2 系統(tǒng)架構(gòu)

        2.2.1 邏輯架構(gòu)

        全國(guó)日志留存系統(tǒng)從邏輯上可分為數(shù)據(jù)采集與傳輸層、數(shù)據(jù)接收層、數(shù)據(jù)處理層、數(shù)據(jù)服務(wù)層以及系統(tǒng)管理層,如圖1所示。

        數(shù)據(jù)采集與傳輸層采集各個(gè)數(shù)據(jù)源(DPI、WAP網(wǎng)關(guān)、WAP網(wǎng)關(guān)防火墻、融合防火墻、業(yè)務(wù)網(wǎng)絡(luò)數(shù)據(jù))上的原始數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行壓縮(已經(jīng)壓縮過(guò)的數(shù)據(jù)不用再壓縮)、上傳,并提供重傳、緩存等功能。

        數(shù)據(jù)接收層接收各省采集機(jī)的數(shù)據(jù)后對(duì)數(shù)據(jù)格式、規(guī)范性、關(guān)聯(lián)性、完整性進(jìn)行校驗(yàn)、稽核、去冗、清洗等操作并裝載到HDFS中。接口機(jī)還可以將采集到的原始數(shù)據(jù)進(jìn)行共享。

        數(shù)據(jù)處理層對(duì)原始數(shù)據(jù)進(jìn)行加工處理,包括數(shù)據(jù)管理、數(shù)據(jù)統(tǒng)計(jì)匯總、數(shù)據(jù)關(guān)聯(lián)入庫(kù)等功能。

        數(shù)據(jù)服務(wù)層提供數(shù)據(jù)統(tǒng)一訪問(wèn)和共享服務(wù),包括數(shù)據(jù)查詢(xún)、數(shù)據(jù)共享、業(yè)務(wù)統(tǒng)計(jì)分析報(bào)表等功能。

        系統(tǒng)管理層提供統(tǒng)一的接入訪問(wèn)管理、系統(tǒng)訪問(wèn)和數(shù)據(jù)安全管理、資源監(jiān)控和分配管理、任務(wù)調(diào)度和監(jiān)控管理、系統(tǒng)的運(yùn)維、監(jiān)控和日志管理等功能。

        2.2.2 技術(shù)架構(gòu)

        全國(guó)日志留存系統(tǒng)從技術(shù)上可分為數(shù)據(jù)接收層、數(shù)據(jù)處理層、數(shù)據(jù)服務(wù)層以及系統(tǒng)管理層,如圖2所示。

        (1)數(shù)據(jù)接收層

        通過(guò)FTP/SFTP實(shí)現(xiàn)對(duì)數(shù)據(jù)的采集和傳輸,接收數(shù)據(jù)后進(jìn)行文件的校驗(yàn)稽核、合并、切分等功能并裝載到HDFS。

        (2)數(shù)據(jù)處理層

        提供海量數(shù)據(jù)的存儲(chǔ)、查詢(xún)、分析匯總等功能,用于支持業(yè)務(wù)的需求場(chǎng)景和應(yīng)用。

        ·HDFS:采用HDFS存儲(chǔ)原始文件,讀寫(xiě)吞吐量高。HDFS存儲(chǔ)包括原始入庫(kù)數(shù)據(jù) (DPI、AAA、NAT等)、業(yè)務(wù)實(shí)時(shí)數(shù)據(jù)(HBase)、海量數(shù)據(jù)清洗和分析匯總(Hive)數(shù)據(jù)等。

        圖1 系統(tǒng)邏輯架構(gòu)

        圖2 系統(tǒng)技術(shù)架構(gòu)

        ·MapReduce/Yarn:為Hadoop存儲(chǔ)下的海量數(shù)據(jù)進(jìn)行清洗、分析、關(guān)聯(lián)和匯總的計(jì)算框架和資源管理。通過(guò)MapReduce并行運(yùn)算框架實(shí)現(xiàn)日志關(guān)聯(lián)任務(wù)的統(tǒng)一調(diào)度處理,充分利用集群內(nèi)資源進(jìn)行高性能處理;保持以省為單位進(jìn)行日志關(guān)聯(lián)處理。

        ·HBase:是一個(gè)針對(duì)結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動(dòng)態(tài)模式數(shù)據(jù)庫(kù)。采用批量裝載(BulkLoad)或文件復(fù)制的方式將關(guān)聯(lián)后數(shù)據(jù)輸出為HBase的內(nèi)部數(shù)據(jù)格式,直接裝載到HBase中,性能高,占用CPU、網(wǎng)絡(luò)資源少,用于提供日志留存系統(tǒng)的對(duì)外數(shù)據(jù)實(shí)時(shí)查詢(xún)。

        ·Hive:基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供簡(jiǎn)單的SQL查詢(xún)功能,可以將SQL語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。

        (3)數(shù)據(jù)服務(wù)層

        提供系統(tǒng)的對(duì)外服務(wù)接口,包括數(shù)據(jù)的文件共享、服務(wù)查詢(xún)、數(shù)據(jù)分析等功能。

        ·支持通過(guò)SFTP/FTP的批量數(shù)據(jù)的文件共享,包括HBase中實(shí)時(shí)查詢(xún)數(shù)據(jù)文件接口方式的數(shù)據(jù)共享。

        ·支持通用的Web services的消息接口,用于數(shù)據(jù)的訪問(wèn)、業(yè)務(wù)查詢(xún)、數(shù)據(jù)分析等功能。

        ·支持通過(guò)訂閱方式進(jìn)行數(shù)據(jù)共享(訂閱接口需根據(jù)不同的應(yīng)用開(kāi)發(fā))。

        (4)系統(tǒng)管理層

        ·服務(wù)管理:用于針對(duì)服務(wù)的接入管理、服務(wù)統(tǒng)計(jì)報(bào)表等功能。

        ·安全管理:管理用戶和服務(wù)在數(shù)據(jù)平臺(tái)的安全管理,包括用戶管理、訪問(wèn)授權(quán)、管理授權(quán)、數(shù)據(jù)授權(quán)等,支持對(duì)用戶訪問(wèn)和數(shù)據(jù)的安全管理。

        ·資源管理:管理Hadoop平臺(tái)下的資源分配和資源使用監(jiān)控等。

        ·任務(wù)管理:維護(hù)和監(jiān)控服務(wù)發(fā)布任務(wù)的執(zhí)行情況,支持任務(wù)的依賴(lài)、關(guān)聯(lián)執(zhí)行。

        ·系統(tǒng)管理:包括平臺(tái)的基本配置信息、服務(wù)和平臺(tái)的日志信息、系統(tǒng)平臺(tái)的監(jiān)控和維護(hù)、平臺(tái)告警、工單管理等功能。

        ·數(shù)據(jù)管理:提供統(tǒng)一的前臺(tái)數(shù)據(jù)管理功能,管理數(shù)據(jù)平臺(tái)的數(shù)據(jù)全生命周期。

        2.3 當(dāng)前存在的問(wèn)題

        全國(guó)日志留存系統(tǒng)在清洗、處理收集的數(shù)據(jù)時(shí),會(huì)檢查數(shù)據(jù)的完整性。數(shù)據(jù)完整性檢查,經(jīng)常會(huì)發(fā)現(xiàn)一些關(guān)鍵數(shù)據(jù)不全,部分字段數(shù)據(jù)丟失(為空),導(dǎo)致數(shù)據(jù)檢查不符合系統(tǒng)閾值,無(wú)法入庫(kù),最終導(dǎo)致入庫(kù)數(shù)據(jù)過(guò)少,采樣數(shù)據(jù)過(guò)少,影響到后繼的數(shù)據(jù)分析、挖掘等工作。

        根據(jù)現(xiàn)有全國(guó)日志留存系統(tǒng)發(fā)現(xiàn)的問(wèn)題,重點(diǎn)要解決以下2個(gè)方面問(wèn)題。

        ·對(duì)于一些缺失但非關(guān)鍵數(shù)據(jù)字段,在清洗使用時(shí),做一定的填充,提高數(shù)據(jù)完整性。

        ·對(duì)于一些關(guān)鍵但不完整的數(shù)據(jù)字段,通過(guò)一些經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行補(bǔ)全,提升數(shù)據(jù)完整性和質(zhì)量。

        3 隨機(jī)森林技術(shù)及應(yīng)用

        隨機(jī)森林 (random forest,RF)是由Leo Breiman于2001年提出來(lái)的,是一個(gè)可處理高維度和非線性樣本的分類(lèi)器組合模型,并在眾多領(lǐng)域得到了廣泛應(yīng)用[1]。隨機(jī)森林是一種綜合性的分類(lèi)方法,分類(lèi)的準(zhǔn)確率高[2]。其實(shí)質(zhì)是一個(gè)組合分類(lèi)器,其中決策樹(shù)是其核心。它不僅可以用來(lái)做分類(lèi),還可以用來(lái)做回歸。隨機(jī)森林相關(guān)的理論及應(yīng)用實(shí)例極多,在此僅做簡(jiǎn)單介紹分析。

        隨機(jī)森林核心是隨機(jī)樣本、隨機(jī)特征、決策樹(shù)搭建、隨機(jī)森林分類(lèi)四大部分。其中,隨機(jī)性體現(xiàn)在前兩類(lèi):即在每次建樹(shù)時(shí),在樣本全集中隨機(jī)取樣,訓(xùn)練集呈現(xiàn)的隨機(jī)性[3];在每個(gè)節(jié)點(diǎn)分裂時(shí),從全集M個(gè)屬性中選取x個(gè)屬性,呈現(xiàn)特征屬性的隨機(jī)性[4]。

        (1)隨機(jī)樣本

        給定一個(gè)訓(xùn)練樣本集,數(shù)量為N,本文使用有放回采樣到N個(gè)樣本,構(gòu)成一個(gè)新的訓(xùn)練集。注意這里是有放回的采樣,所以會(huì)采樣到重復(fù)的樣本。詳細(xì)來(lái)說(shuō),就是采樣N次,每次采樣一個(gè),放回,繼續(xù)采樣。即得到了N個(gè)樣本。然后把這個(gè)樣本集作為訓(xùn)練集,進(jìn)入下一步。

        (2)隨機(jī)特征

        在構(gòu)建決策樹(shù)的時(shí)候,主要就是在一個(gè)節(jié)點(diǎn)上,計(jì)算所有特征的ID3(information gain)或者C4.5(gain ratio),然后選擇一個(gè)最大增益的特征作為劃分下一個(gè)子節(jié)點(diǎn)的走向。但是,在隨機(jī)森林中,本文不計(jì)算所有特征的增益,而是從總量為M的特征向量中,隨機(jī)選擇m個(gè)特征,其中m可以等于sqrt(M),然后計(jì)算m個(gè)特征的增益,選擇最優(yōu)特征(屬性)。注意,這里的隨機(jī)選擇特征是無(wú)放回的選擇!

        (3)決策樹(shù)搭建

        根據(jù)樣本集,搭建決策樹(shù)。用隨機(jī)特征選擇方法進(jìn)行節(jié)點(diǎn)最優(yōu)分類(lèi)特征的計(jì)算。一般用ID3或者C4.5等作為選擇特征的標(biāo)準(zhǔn)。

        例如:集合Y包含i個(gè)類(lèi)別的記錄,那么其Gini指標(biāo)為:

        其中,qi為類(lèi)別i出現(xiàn)的頻率。

        如果集合T分成n部分M1,M2,…,Mn。那么這個(gè)分割的Gini為:

        一般采用選擇具有最小Gini的屬性為分裂屬性的選擇規(guī)則。

        (4)隨機(jī)森林分類(lèi)

        重復(fù)上述過(guò)程N(yùn)次,就得到了N棵決策樹(shù)。輸入一個(gè)測(cè)試樣本,用已有的每顆決策樹(shù)對(duì)它分類(lèi),得到N個(gè)分類(lèi)結(jié)果。最后,使用簡(jiǎn)單的投票機(jī)制獲取平均值,得到最終分類(lèi)結(jié)果[5]。簡(jiǎn)單投票機(jī)制包括一票否決、一致表決、閾值表決、貝葉斯投標(biāo)機(jī)制等。

        隨機(jī)森林是一個(gè)用隨機(jī)方式建立的,包含多個(gè)決策樹(shù)的分類(lèi)器。其輸出的類(lèi)別是由各個(gè)樹(shù)輸出的類(lèi)別的眾數(shù)而定。當(dāng)前,隨機(jī)森林在各個(gè)領(lǐng)域都有應(yīng)用,主要應(yīng)用方法則偏向于模型建立、回歸等。

        4 采用隨機(jī)森林算法的全國(guó)日志留存系統(tǒng)數(shù)據(jù)補(bǔ)全解決方案

        最理想的情況是,數(shù)據(jù)補(bǔ)全應(yīng)該在數(shù)據(jù)源頭進(jìn)行數(shù)據(jù)上傳時(shí)進(jìn)行,這樣既可以保證上級(jí)系統(tǒng)匯集的數(shù)據(jù)都是高質(zhì)量的有效數(shù)據(jù),又可以減少無(wú)用數(shù)據(jù)的傳輸和存儲(chǔ),且降低并分擔(dān)數(shù)據(jù)匯聚系統(tǒng)的數(shù)據(jù)處理量。但考慮到運(yùn)營(yíng)商現(xiàn)網(wǎng)已有系統(tǒng)的改造量大,且初期需要盡量保證數(shù)據(jù)匯聚平臺(tái)中數(shù)據(jù)的原始性,所以數(shù)據(jù)補(bǔ)全可以在數(shù)據(jù)匯聚平臺(tái)進(jìn)行。

        在現(xiàn)有全國(guó)日志留存系統(tǒng)中,當(dāng)務(wù)之急是解決歷史數(shù)據(jù)的完整性問(wèn)題,通過(guò)篩選系統(tǒng)定義數(shù)據(jù)的關(guān)鍵和非關(guān)鍵字段,建立正確的模板作為采樣集,并通過(guò)訓(xùn)練集和決策樹(shù)構(gòu)建和分類(lèi),最終選取最適當(dāng)?shù)男问綄?duì)數(shù)據(jù)進(jìn)行補(bǔ)全。

        隨機(jī)森林進(jìn)行數(shù)據(jù)補(bǔ)全技術(shù)解決方案包括隨機(jī)森林補(bǔ)全數(shù)據(jù)、不影響結(jié)果的反饋回歸驗(yàn)證以及與現(xiàn)有平臺(tái)的融合。

        4.1 隨機(jī)森林處理數(shù)據(jù)補(bǔ)全技術(shù)解決方案

        在現(xiàn)有全國(guó)日志留存系統(tǒng)中或在整體體系架構(gòu)中,定義數(shù)據(jù)補(bǔ)全子系統(tǒng),如圖3所示。其中,數(shù)據(jù)檢測(cè)與修復(fù)模塊中采用隨機(jī)森林算法。

        圖3 數(shù)據(jù)補(bǔ)全子系統(tǒng)邏輯架構(gòu)

        數(shù)據(jù)源通過(guò)數(shù)據(jù)讀取模塊讀入,數(shù)據(jù)檢測(cè)與修復(fù)模塊根據(jù)數(shù)據(jù)源的類(lèi)型讀入數(shù)據(jù)質(zhì)量庫(kù)中相關(guān)的數(shù)據(jù)執(zhí)行表,并執(zhí)行檢測(cè)與修復(fù)任務(wù),執(zhí)行完畢保存到數(shù)據(jù)存儲(chǔ)器。

        數(shù)據(jù)質(zhì)量庫(kù)由數(shù)據(jù)統(tǒng)計(jì)表和數(shù)據(jù)執(zhí)行表組成,數(shù)據(jù)統(tǒng)計(jì)表內(nèi)存儲(chǔ)每種業(yè)務(wù)歷史數(shù)據(jù)的統(tǒng)計(jì)情況,數(shù)據(jù)執(zhí)行表由具體業(yè)務(wù)需求確定,從數(shù)據(jù)統(tǒng)計(jì)表內(nèi)抽取相關(guān)日期或相關(guān)種類(lèi)業(yè)務(wù)數(shù)據(jù)統(tǒng)計(jì)表,生成數(shù)據(jù)執(zhí)行表,執(zhí)行數(shù)據(jù)檢測(cè)和修復(fù)任務(wù)。

        在與現(xiàn)有系統(tǒng)融合時(shí),數(shù)據(jù)補(bǔ)全子系統(tǒng)可以以Spark架構(gòu)作為功能模塊載入全國(guó)日志留存系統(tǒng)中,實(shí)現(xiàn)數(shù)據(jù)處理部分的功能。

        4.2 數(shù)據(jù)補(bǔ)全效果反饋回歸子系統(tǒng)技術(shù)方案

        一般來(lái)說(shuō),隨機(jī)森林算法通過(guò)現(xiàn)成的回歸處理,可以對(duì)算法本身的正確性進(jìn)行驗(yàn)證和測(cè)試。但是,電信運(yùn)營(yíng)商數(shù)據(jù)補(bǔ)全的最終目的,是提升數(shù)據(jù)采樣率以及數(shù)據(jù)的質(zhì)量,最后進(jìn)行商用。所以,對(duì)于數(shù)據(jù)補(bǔ)全的效果反饋進(jìn)行回歸。本回歸的目的,初期是解決當(dāng)前數(shù)據(jù)采樣率的問(wèn)題,補(bǔ)全的數(shù)據(jù)不求提升大數(shù)據(jù)應(yīng)用的效果或命中率。所以在回歸的效果評(píng)定閾值,應(yīng)該設(shè)置為100%。其含義為,數(shù)據(jù)補(bǔ)全后百分百不影響數(shù)據(jù)應(yīng)用的結(jié)果。簡(jiǎn)單的說(shuō),就是數(shù)據(jù)補(bǔ)全后,用更多的數(shù)據(jù)構(gòu)建的模型計(jì)算出來(lái)的結(jié)果與不補(bǔ)全時(shí)計(jì)算的結(jié)果是一樣的。

        具體實(shí)現(xiàn)就是讀取若干批次相同業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)應(yīng)用結(jié)果統(tǒng)計(jì)表,采用融合權(quán)重且自適應(yīng)的算法(式(3))計(jì)算出數(shù)據(jù)結(jié)果執(zhí)行表的各執(zhí)行參數(shù),并據(jù)此驗(yàn)證數(shù)據(jù)補(bǔ)全后的效果。

        這樣既可以避免造成補(bǔ)全決策錯(cuò)誤造成數(shù)據(jù)完整度高,但效果反而更差的情況;也盡量不要因?yàn)閿?shù)據(jù)完整度高而效果提高,造成的決策正確的假象??偠灾?,在數(shù)據(jù)補(bǔ)全的初期,先求數(shù)據(jù)利用率和價(jià)值的提升、不求數(shù)據(jù)應(yīng)用結(jié)果的提升。

        在數(shù)據(jù)補(bǔ)全任務(wù)結(jié)束后,效果回歸子系統(tǒng)評(píng)估修復(fù)效果,與這批數(shù)據(jù)的無(wú)瑕疵部分的數(shù)據(jù)應(yīng)用結(jié)果進(jìn)行比較,越接近越優(yōu)。針對(duì)靜態(tài)數(shù)據(jù)可通過(guò)調(diào)整相關(guān)參數(shù)多次實(shí)驗(yàn),針對(duì)流式數(shù)據(jù)可間隔一定時(shí)間重新生成數(shù)據(jù)執(zhí)行表投入使用,以此不斷完善數(shù)據(jù)質(zhì)量庫(kù)。

        5 結(jié)束語(yǔ)

        隨機(jī)森林用于數(shù)據(jù)補(bǔ)全,優(yōu)點(diǎn)是相當(dāng)明顯的,對(duì)于如全國(guó)日志留存系統(tǒng)這類(lèi)數(shù)據(jù)噪聲小的系統(tǒng)中,實(shí)現(xiàn)簡(jiǎn)單、效率高。但是,對(duì)電信運(yùn)營(yíng)商而言,在全國(guó)層面數(shù)據(jù)過(guò)多,且當(dāng)數(shù)據(jù)應(yīng)用實(shí)例擴(kuò)充后,這樣的數(shù)據(jù)補(bǔ)全及效果反饋回歸子系統(tǒng)會(huì)導(dǎo)致更多的計(jì)算量和資源開(kāi)銷(xiāo)。所以,在數(shù)據(jù)補(bǔ)全系統(tǒng)逐步演進(jìn)的過(guò)程中,對(duì)于初級(jí)的數(shù)據(jù)補(bǔ)全和效果反饋回歸可以在升級(jí)數(shù)據(jù)上傳時(shí)進(jìn)行,而在全國(guó)層面則可以開(kāi)展多系統(tǒng)融合、內(nèi)外數(shù)據(jù)關(guān)聯(lián)后的數(shù)據(jù)補(bǔ)全及效果反饋回歸。這樣既可以分擔(dān)全國(guó)系統(tǒng)的工作壓力提高效率,又可以全國(guó)和省兩級(jí)的數(shù)據(jù)補(bǔ)全聯(lián)動(dòng)、質(zhì)量提升分工。當(dāng)然,在今后的數(shù)據(jù)補(bǔ)全中,不僅僅是隨機(jī)森林,其他的分類(lèi)聚類(lèi)等各種算法都可以逐步引入,以適應(yīng)不同的需求和場(chǎng)景。

        [1]BREIMAN L.Random forests[J].Machine Learning,2001,45(1): 5-32.

        [2]李慧.一種改進(jìn)的隨機(jī)森林并行分類(lèi)方法在運(yùn)營(yíng)商大數(shù)據(jù)的應(yīng)用[D].成都:電子科技大學(xué),2015.LI H.An improved random forest parallel classification method and its application to big data of telecom operators[D]. Chengdu:University of Electronic Science and Technology of China,2015.

        [3]BREIMAN L.Bagging predictors[J].Machine Learning,1996, 24(1):123-140.

        [4]DIETTERICH T.An experimental comparison of three methods for constructing ensembles of decision trees:bagging boosting and randomization[J].Machine Learning,2000(40): 139-157.

        [5]方匡南,吳見(jiàn)彬,朱建平,等.隨機(jī)森林方法研究綜述 [J].統(tǒng)計(jì)與信息論壇.2011(3):32-38. FANG K N,WU J B,ZHU J P,et al.A review of technologies on random forests[J].Statistics&Information Forum,2011(3): 32-38.

        [6]曹正鳳.隨機(jī)森林算法優(yōu)化研究 [D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2014. CAO Z F.Study on optimization of random forests algorithm[D]. Beijing:Capital University of Economics and Business,2014.

        [7] 黃師師,黃哲學(xué).隨機(jī)森林理論淺析[J].集成技術(shù),2013,2(1): 1-7. HUANG S S,HUANG Z X.A brief theoretical overview of random forests[J].Journal of Integration Technology,2013,2(1):1-7.

        王錚(1973-),男,中國(guó)電信股份有限公司上海研究院工程師,主要研究方向?yàn)榇髷?shù)據(jù)平臺(tái)、應(yīng)用及業(yè)務(wù)網(wǎng)絡(luò)。

        任華(1977-),女,中國(guó)電信股份有限公司上海研究院工程師,主要研究方向?yàn)榇髷?shù)據(jù)平臺(tái)和業(yè)務(wù)平臺(tái)。

        方燕萍(1981-),女,中國(guó)電信股份有限公司上海研究院工程師,主要研究方向?yàn)榇髷?shù)據(jù)和移動(dòng)互聯(lián)網(wǎng)領(lǐng)域。

        Application of random forest in big data completion

        WANG Zheng,REN Hua,FANG Yanping
        Shanghai Research Institute of China Telecom Co.,Ltd.,Shanghai 200122,China

        Telecom operators have a lot of data,but in view of a variety of reasons,the quality of the data is not ideal,there are a lot of data is not complete or even missing.For existing data mining,it is necessary to carry out the data to meet the quality of the data and to achieve sufficient sampling proportion.Relying on the country’s existing log retention system,template library design data integrity,authentication could not meet the quality requirements of the data,using the random forest algorithm,the same data with or related data was found,data was completed and data quality was improved,and the template library was extended by optimization of feedback.The construction of completion data subsystem in the system log retained end-to-end data quality guaranteed and improved quality,completed and improved the real-time data and historical data,and ultimately met the requirements of data processing and mining operators,improved data quality and value.

        big data,random forest,machine learning,data completion

        TN919.5

        A

        10.11959/j.issn.1000-0801.2016317

        2016-11-08;

        2016-12-13

        猜你喜歡
        日志運(yùn)營(yíng)商森林
        一名老黨員的工作日志
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        游學(xué)日志
        哈Q森林
        哈Q森林
        哈Q森林
        取消“漫游費(fèi)”只能等運(yùn)營(yíng)商“良心發(fā)現(xiàn)”?
        哈Q森林
        第一章 在腐敗火上烤的三大運(yùn)營(yíng)商
        三大運(yùn)營(yíng)商換帥不是一個(gè)簡(jiǎn)單的巧合
        精品乱码一区内射人妻无码| 日韩精品一区二区三区免费观影| 杨幂一区二区系列在线| 精品国产偷窥一区二区| 亚洲精品字幕在线观看| www.久久av.com| 久久精品国产精品亚洲艾| 国产乱子伦精品无码专区| 真实单亲乱l仑对白视频| 国内自拍偷拍亚洲天堂| 东京热加勒比国产精品| 国产私人尤物无码不卡| 老妇肥熟凸凹丰满刺激| 无码AⅤ最新av无码专区| 国内自拍视频一区二区三区| 狠狠精品久久久无码中文字幕| 欧美丰满大爆乳波霸奶水多| 日本精品一区二区在线看| 风韵人妻丰满熟妇老熟女视频| 无码国产福利av私拍| 国产一级毛片卡| 国产av午夜精品一区二区入口| 欧美又大粗又爽又黄大片视频| 国产va在线观看免费| 国产成人精品曰本亚洲| 亚洲一区二区懂色av| 国产精品久久久久高潮| 免费的成年私人影院网站| 亚洲一区极品美女写真在线看| 国产精品视频自拍在线| 性一交一乱一伦一色一情孩交| 精品少妇人妻成人一区二区| 国产成人亚洲系列毛片| 高潮潮喷奶水飞溅视频无码| 久久99国产亚洲高清观看韩国| 台湾自拍偷区亚洲综合| 四虎永久在线精品免费一区二区 | 亚洲女同免费在线观看| 色天使综合婷婷国产日韩av | 天天夜碰日日摸日日澡| 成人无码视频在线观看网站|