亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DPI和大數據分析的寬帶家庭畫像

        2018-12-20 01:56:58劉馨璐張麗娜
        計算機技術與發(fā)展 2018年12期
        關鍵詞:手機號碼畫像寬帶

        劉 超,劉馨璐,王 攀,張麗娜

        (1.江蘇大學 電氣信息工程學院,江蘇 鎮(zhèn)江 212013;2.南京郵電大學 物聯(lián)網學院,江蘇 南京 210003)

        0 引 言

        近年來,以海量數據處理為目標的大數據技術成為新的研究熱點。所謂“大數據”,是指其大小超出了典型數據庫軟件的采集、儲存、管理和分析等能力的數據集合[1]。伴隨著Facebook、Google、微博、APP等網絡服務的蓬勃發(fā)展,對網絡用戶行為的分析和研究引起了眾多研究者的興趣?,F代生活中,網絡行為成為人們日常生活的主要成分,其中蘊含了許多用戶社交關系、用戶日常行為習慣以及個人興趣喜好等諸多有價值的信息[2]。但僅僅分析每個用戶的個體需求是遠遠不夠的,在這個高速發(fā)展的時代,每個家庭都是社會的一部分,把家庭看作一個單獨的整體來分析家庭的整體需求,將家庭用戶的行為偏好相關聯(lián),完善成一幅家庭畫像,從整體上洞悉用戶的需求,強化客戶關懷,做到精準營銷,將會從另一個層面改善用戶的體驗質量,增加運營商的業(yè)務效率。

        1 相關研究

        國外的各大企業(yè)紛紛提出大數據的規(guī)劃和政策,以推動大數據的發(fā)展。目前,Google、Facebook等企業(yè)正在應用大數據技術來發(fā)展云端服務和社交軟件。亞馬遜公司很早就對用戶的瀏覽信息實施數據分析,根據用戶的瀏覽信息等數據,推算出用戶的行為偏好,從而對用戶實施精準推送[3]。相對于國外較成熟的大數據分析技術,國內目前還處于發(fā)展初期,對應的市場規(guī)模較小[4]。阿里巴巴會根據用戶網購時瀏覽的商品信息和停留時間,交易行為可以進一步了解消費者的喜好,從而為用戶推薦感興趣的產品。

        有學者對用戶行為開展了許多有意義的分析與研究,并取得了大量極具影響力的研究成果[5]。劉海等[6]基于4C理論構建了“用戶畫像”數據庫,通過對數據庫的挖掘來進行消費者群體細分。在此基礎上,從營銷的角度構建了精準營銷細分模型,重構消費者的需求、精準定位消費者群體。應曉敏等[7]提出了一種面向個性化服務的客戶端細粒度用戶興趣建模方法,并且將用戶興趣不再簡單地分為用戶感興趣的類和用戶不感興趣的類,而是按照人們通常對興趣的理解劃分為不同的興趣類。宋竹等[8]提取了電信數據中手機通話與上網的基本特征,對通話和上網行為的頻率分布進行曲線擬合,通過對通話和上網時間的歸一化,定義了用戶的使用偏好。

        可以看出,目前的研究并沒有涉及對家庭中的手機號碼和終端類型做精準提取和分析,尤其是絕大多數的分析和研究僅僅針對個體用戶,而非家庭用戶。對于運營商而言,僅僅分析個體用戶的行為特點是不夠全面的,在寬帶家庭賬號下,根據整個家庭的日常上網情況可以分析整個家庭的行為習慣??梢苑治龀鲈摷彝ベ~號下用戶總數及年齡結構層次、網絡接入設備、手機品牌型號以及其他終端設備,根據分析結果可以得到一幅家庭畫像,如圖1所示。

        圖1 家庭畫像

        通過對整個家庭數據流量的分析處理,能夠從整體上把握家庭所有用戶的需求,從而借助互聯(lián)網推送平臺等方式更加精準地給所有家庭用戶推薦更合適的產品和服務。

        文中在利用運營商合法獲取的數據基礎之上,采用DPI(deep packet inspection,深度分組檢測)、Hadoop框架、分布式爬蟲等技術,提取家庭寬帶下手機號碼并對不用的用戶終端進行識別,最終構建出反映家庭用戶特征和行為興趣的家庭畫像。

        2 相關技術

        2.1 DPI技術

        DPI是相對普通報文檢測的一種全新的檢測技術,即對第七層應用層的內容進行深度分析,從而根據應用層的凈荷特征識別其應用類型或內容[9]。DPI技術的核心點在于維護一個高準確性、高實時性的應用特征庫,從而保障應用特征識別的準確性、實時性,進而保障運營商對應用的管控準確性和實時性。

        2.2 Hadoop框架

        Hadoop是一個能夠對大量數據進行分布式處理的軟件框架[10]。它以一種可靠、有效、可伸縮的方式進行數據處理,具有高可靠性、高擴展性、高效性、高容錯性、低成本等優(yōu)點。HDFS和MapReduce是Hadoop框架的核心設計。HDFS為海量的數據提供了存儲,MapReduce為海量的數據提供了計算。

        Hive是基于Hadoop的數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的SQL查詢功能,能夠將SQL語句轉換為MapReduce任務進行運行。

        2.3 網絡爬蟲WebMagic技術

        WebMagic項目代碼分為核心和擴展兩部分[11]。核心部分(webmagic-core)是一個精簡的、模塊化的爬蟲實現,而擴展部分則包括一些便利的、實用性的功能。

        WebMagic的結構分為Downloader、PageProcessor、Scheduler、Pipeline四大組件,Downloader負責從互聯(lián)網上下載頁面,以便后續(xù)處理;PageProcessor負責解析頁面,抽取有用信息以及發(fā)現新的鏈接;Scheduler負責管理帶抓取的URL以及去重工作;Pipeline負責抽取結果的處理,包括計算、持久化到文件或數據庫等。

        3 基于DPI和大數據分析的寬帶家庭畫像塑造方法

        塑造一個完善并全面的家庭畫像,首先需要確定家庭的唯一標識,即寬帶賬號,因為每個家庭的寬帶賬號是唯一的。家庭中用戶的手機號碼和終端類型是家庭畫像的關鍵屬性。其中終端類型包括終端的品牌、型號及上市時間等。通過數據包提取到以上數據后,必須對其進行去噪處理,以確保提取出的信息是真實、有效、完整的??傮w技術路線包括確定家庭畫像唯一標識,確定家庭畫像屬性、號碼和終端提取和去除噪聲數據。通過分析得到,在塑造家庭畫像的過程中,手機號碼的提取和終端類型的識別尤為重要。

        3.1 用戶手機號碼的提取

        為了提升用戶手機號碼提取的準確率,文中采用Hyperscan進行匹配。采集家庭寬帶下的網絡流量,采用DPI中凈荷特征匹配技術對采集到的數據進行清洗,過濾掉無關流量后,再利用Hyperscan高速匹配,提取出數據包中疑似手機號的關鍵字。在獲取大量關鍵字后,將通過DPI處理后的數據和關鍵字導入Hadoop,對數據分類存儲,進行數據匹配,最終提取出較為準確的用戶手機號碼。

        3.2 用戶終端的識別

        移動用戶終端的識別起初是根據HTTP報文的User-Agent報文頭獲取終端性能信息。對UA解析獲取終端信息時,通常采用的是基于字符串匹配的方法。該方法實現較簡單。隨著用戶數據的迅猛增加,終端匹配效率逐漸降低。文中采用一種改進的用戶終端的識別方法,首先對UA進行分詞,然后采用正則表達式過濾掉不代表用戶終端信息的字符串,最后通過正則表達式獲取特定位置的字符串。家庭寬帶下的用戶使用終端類型較多,有手機、平板、PC、電視機、盒子等,通過統(tǒng)計不同終端類型,寫出不同的正則表達式進行匹配,從而得到一個正則表達式的配置文件。同時采用分布式爬蟲WebMagic獲取電商上各種終端型號的相關信息作終端庫信息。最終根據Hadoop/Hive分布式快速處理大數據量的特點對用戶終端進行準確識別。

        4 技術方案

        反映家庭畫像的主要元素是家庭寬帶下對用戶的手機號碼的提取和終端類型的識別。主要由數據采集、數據清洗、數據提取及數據挖掘與分析共四個部分組成。

        4.1 數據采集層

        家庭寬帶用戶的HTTP上行流量從分流平臺以千兆電口形式實時輸出到高速采集服務器;對于已經建成固網寬帶DPI大數據平臺的運營商,無需配置數據采集服務器,將DPI日志文件直接輸送到數據清洗系統(tǒng),即可完成數據采集工作。

        該系統(tǒng)數據流量的采集采用Libpcap[12]。Libpcap采用基于網卡的原理捕獲數據包,支持所有基于Unix的操作系統(tǒng),能夠快速采集和過濾網絡流量。Libpcap可以根據用戶已經設定好的過濾規(guī)則對數據進行逐一匹配,匹配成功則放入內核緩沖區(qū),并傳遞給用戶緩沖區(qū),匹配失敗則直接丟棄。

        4.2 數據清洗層

        為了獲取用戶的真實點擊量,保證數據挖掘的準確性和高效性,在數據分析前必須對數據進行清洗,過濾掉非用戶點擊的流量,如圖片流量、腳本流量、廣告以及框架等無效數據。

        利用DPI數據清洗系統(tǒng),去除采集到的流量數據中的大量冗余信息,再將數據傳遞給Hadoop分析平臺,以保證所獲取數據的準確性和分析的高效性。數據清洗首先過濾非TCP/IP或者非Http/get流量,然后過濾后綴為jpg、gif、css等圖片和腳本流量,再過濾帶有指定特征字符串如廣告、框架類型的流量,最后過濾自刷新頁面和存儲過濾后剩下的數據。

        通過DPI技術深度挖掘數據包,提取相關信息后判斷數據包的協(xié)議類型,進行首次過濾,去除非TCP/IP和非HTTP/GET流量。然后在剩余的數據包中對應用層進行解析,進行再次過濾,丟棄無效數據,例如uri后綴為jpg、gif、png等圖片、腳本及框架類型的流量和自刷新頁面等,這些數據中不包含用戶的相關信息,最后存儲二次過濾后剩余的有效數據。

        4.3 數據提取層

        將經過DPI清洗后的數據結果導入Hadoop平臺的Hive數據庫中。借助Hive提供的SQL快捷接口可以方便用戶在插入和查詢數據時書寫代碼,快速處理海量數據。

        清洗過后的完整數據包基本上都包含uri、UA、host等字段。手機號碼多來自同一個數據包的host和UA字段,而終端類型則存在于UA字段中。數據提取過程包括Http字段提取、AAA賬號匹配、統(tǒng)一解碼和特征字符串匹配,然后輸入到手機號碼報文特征庫或者終端信息庫。

        通過采用DPI深度報文監(jiān)測技術和Hyperscan高速匹配技術過濾清洗后,記錄結果包含時間戳信息、用戶IP、寬帶賬號、手機號、手機關鍵字、cookie終端緩存數據、host主機名、UA用戶代理等內容項。對采集到的報文做關鍵信息提取后,再利用特征字符串匹配的方法提取準號碼清單。利用WebMagic爬蟲框架對終端信息進行爬取,生成終端型號庫,爬取結果部分數據如表1所示。通過對用戶數據含有UA字段進行分析,找出最常出現的UA字符串,根據這些UA字符串編寫正則表達式生成正則表達式庫。編寫MapReduce代碼通過正則表達式庫去UA字段提取出UA中的終端型號,測試通過后打包成jar包,通過Hadoop集群中的Hadoop jar命令提取出數據中所有UA字段中的終端。

        表1 終端類型爬蟲信息庫

        4.4 數據挖掘與分析

        為了獲取更加準確的信息,需要對清洗后的數據進行分析驗證。

        首先通過號碼正則表達式提取出所有的手機號碼,通過號碼出現的天數和頻率,以及號碼所對應的終端數量,找到該賬號下出現頻率和天數較高的以及號碼對應終端數較少的識別為該賬號下的手機號碼。其次,通過爬蟲獲取到如中介、商戶、熱線等號碼,進行“偽號碼”過濾,去除非真實用戶的手機號碼。

        對剩余的數據再進行決策樹分析[13-14],通過對某一手機號碼的歸屬地、出現頻次以及出現的時間段進行分析,判別號碼清單中挖掘出的手機號碼是否真實活躍在其出現的家庭寬帶下[15]。具體決策過程如圖2所示。

        圖2 決策樹分析圖

        5 實驗與結果分析

        5.1 實驗環(huán)境

        為了驗證手機號碼和終端信息獲取的準確性,以固網寬帶下的家庭用戶為基礎搭建實驗環(huán)境,利用該系統(tǒng)獲取到的信息和實際用戶信息進行對比,通過號碼提取與終端識別的準確率來判斷信息獲取的準確性。實驗環(huán)境結構圖包括數據存儲器、Hadoop處理服務器、采集服務器、家庭路由器和家庭用戶等部分,其中包含對用戶網絡數據的采集,DPI數據清洗和Hadoop數據分析。

        5.2 實驗結果

        選取1 000個友好家庭用戶,采取問卷調查等方式事先采集家庭用戶的基本數據,包含家庭的人口情況、手機號碼及使用的終端類型等。通過與運營商合作,利用該系統(tǒng)采取分光方式獲取用戶的上網流量數據。對獲取的數據進行清洗、提取、分析后可以得到信息輸出表,包含用戶寬帶賬號、手機號碼、終端品牌、終端型號、上市時間、QQ號、用戶使用郵箱賬號等信息。

        對以上信息進行整理與分析,可以獲得手機號碼和終端類型的識別率曲線圖,如圖3所示。

        圖3 手機號碼和終端類型的識別率曲線

        終端類型的特征信息較為單一準確,而手機特征關鍵字包含的類型和數量遠大于終端類型的特征信息,導致終端類型的識別率高于手機號碼提取的識別率。長期觀察后可以發(fā)現兩者的識別率均有所提高,其中手機號碼的識別率達到84%左右,終端類型的識別率則達到92%左右。

        參照問卷調查的結果,與信息輸出表進行比對,可以進一步獲得手機號碼提取和終端類型識別的準確性曲線圖,如圖4所示。

        圖4 手機號碼和終端類型的準確率曲線

        由于識別出的手機號碼中有部分號碼非該家庭用戶的固有號碼,導致終端類型識別的準確率仍然高于手機號碼提取的準確率。隨著時間的遞增,兩者的準確率均逐漸上升并趨于穩(wěn)定,手機號碼識別的準確率維持在80%左右,而終端類型的準確率則達到95%左右。

        在識別率與準確率分析的基礎上,對信息輸出表做進一步分析,包含單個IP接入用戶數和用戶手機型號等,具體分析結果如圖5、圖6所示。

        圖5 單IP接入用戶數分析

        圖6 手機型號分析

        分析結果表明,單個IP下接入人數以2人居多,其次是3人和1人,即在統(tǒng)計的絕大部分單個家庭用戶中,使用2部手機的情況較多,同時使用蘋果手機的用戶較多,其次是小米和華為。

        6 結束語

        利用DPI深度報文檢測技術、Hyperscan高速匹配、Hadoop和WebMagic爬蟲技術能夠以較高的識別率和準確率快速精準地識別家庭寬帶下用戶的手機號碼和終端類型,高效地構建固網寬帶下的家庭畫像。下一步工作將會對用戶信息進行全方位提取,包括接入終端信息、用戶行為偏好等,并對以上信息進行行為建模、深度挖掘和知識發(fā)現,具體分析家庭每個用戶的網絡行為習慣和興趣愛好,從整體上洞悉用戶的需求、強化客戶關懷,為運營商提供更加豐富、準確、完善的固網寬帶下的家庭畫像。

        猜你喜歡
        手機號碼畫像寬帶
        本月來信之最
        威猛的畫像
        “手機號碼”繼承公證的可行性及路徑
        法制博覽(2021年4期)2021-11-24 15:03:12
        “00后”畫像
        畫像
        裝寬帶的人
        文苑(2020年7期)2020-08-12 09:36:04
        基于Tesseract-OCR的快遞單中手機號碼識別應用的實現
        電子測試(2018年22期)2018-12-19 05:11:56
        一種新穎的寬帶大功率分配器
        可否把寬帶作為社會福利
        潛行與畫像
        中文字幕日韩人妻在线视频| 国产黄色精品高潮播放| 精品蜜桃在线观看一区二区三区| 国产剧情一区二区三区在线 | 美女性色av一区二区三区| 亚洲精品国产第一区二区| 性色做爰片在线观看ww| 日韩在线不卡免费视频| 国产精品成人久久一区二区| 午夜国产视频一区二区三区| 久久久无码精品亚洲日韩按摩| 精品久久综合亚洲伊人| 亚洲av偷拍一区二区三区| 亚洲av成熟国产一区二区| 国产精品亚洲αv天堂无码| 日韩爱爱网站| 国产在线精彩自拍视频| 久久精品国产亚洲av麻豆瑜伽| 国产97在线 | 亚洲| 亚洲一区sm无码| 久久精品国产亚洲av沈先生| 丁香五月亚洲综合在线| 国产成人一区二区三区在线观看| 天堂中文官网在线| 亚洲日韩精品国产一区二区三区| 久久久调教亚洲| 国产一区二区三区在线大屁股| 天堂8在线天堂资源bt| 无码 制服 丝袜 国产 另类| 91精品综合久久久久m3u8| 极品少妇高潮在线观看| 亚洲精品无码av人在线观看| 国产av日韩a∨亚洲av电影| 国内色精品视频在线网址| 最新中文字幕一区二区| 日本xxxx色视频在线播放| mm在线精品视频| 在线播放国产自拍av| 国产福利精品一区二区| 亚洲中文欧美日韩在线人| 日本成人精品一区二区三区|