中國(guó)電信大數(shù)據(jù)應(yīng)用實(shí)踐
Application of big data in China Telecom
張宇中(1969-),男,中國(guó)電信股份有限公司云計(jì)算分公司首席數(shù)據(jù)分析師、大數(shù)據(jù)分析顧問,主要研究方向?yàn)橄M(fèi)者研究、互聯(lián)網(wǎng)網(wǎng)民行為分析和數(shù)據(jù)挖掘、新媒體傳播及媒介價(jià)值研究、網(wǎng)絡(luò)營(yíng)銷效果評(píng)估優(yōu)化、汽車數(shù)字營(yíng)銷。
李名洋(1983-),男,中國(guó)電信股份有限公司云計(jì)算分公司數(shù)據(jù)分析師,主要負(fù)責(zé)大數(shù)據(jù)分析、模型搭建應(yīng)用、行業(yè)大數(shù)據(jù)研究等工作。
* 本文為2015中國(guó)大數(shù)據(jù)技術(shù)大會(huì)(BDTC)演講約稿
大數(shù)據(jù)的應(yīng)用隨著計(jì)算技術(shù)的進(jìn)步、互聯(lián)網(wǎng)的爆發(fā)、科學(xué)計(jì)算的需求而高速發(fā)展。各類互聯(lián)網(wǎng)巨頭公司積累了大量運(yùn)營(yíng)、用戶和交易數(shù)據(jù),并籌建了大量的運(yùn)算資源。它們的各類商業(yè)目的推動(dòng)了大數(shù)據(jù)處理技術(shù)的發(fā)展。
對(duì)中國(guó)電信運(yùn)營(yíng)商而言,三網(wǎng)總的活躍移動(dòng)連接超過10億,其中超六成終端為智能終端,每天各類應(yīng)用和業(yè)務(wù)被使用,持續(xù)產(chǎn)生大量的數(shù)據(jù)流。用戶通過智能終端的通信和數(shù)據(jù)業(yè)務(wù)使用各類應(yīng)用,使移動(dòng)網(wǎng)絡(luò)成為大數(shù)據(jù)存儲(chǔ)、流動(dòng)的天然載體。運(yùn)營(yíng)商不僅擁有傳統(tǒng)的用戶基礎(chǔ)信息、網(wǎng)絡(luò)數(shù)據(jù),還有通過管道功能獲取的用戶互聯(lián)網(wǎng)活動(dòng)數(shù)據(jù),用戶信息全面真實(shí)。
而這些數(shù)據(jù)的利用面臨著諸多的問題。從數(shù)據(jù)的歸屬權(quán)和隱私控制方面看,數(shù)據(jù)擁有權(quán)和使用權(quán)的劃分、用戶授權(quán)方式、法律風(fēng)險(xiǎn)的防控等,對(duì)大數(shù)據(jù)行業(yè)的發(fā)展方向有較大的影響;從數(shù)據(jù)的有效性看,在大量數(shù)據(jù)中尋找關(guān)聯(lián)信息并驗(yàn)證其有效性,是非常巨大的工作量;從業(yè)務(wù)邏輯看,對(duì)于運(yùn)營(yíng)商來講,將原本用于經(jīng)營(yíng)的數(shù)據(jù)產(chǎn)生機(jī)制用于大數(shù)據(jù)領(lǐng)域,需要從硬件、軟件、人才諸方面進(jìn)行調(diào)整,甚至可能面臨大的變革。
大數(shù)據(jù)的應(yīng)用問題不僅僅是一個(gè)企業(yè)內(nèi)部的事情,也是整個(gè)行業(yè)乃至跨行業(yè)的事情。從軟硬件方面看,大數(shù)據(jù)應(yīng)用涉及硬件設(shè)施、基礎(chǔ)軟件、應(yīng)用軟件和信息服務(wù)等方面;從數(shù)據(jù)生產(chǎn)流程看,大數(shù)據(jù)應(yīng)用涉及數(shù)據(jù)生成與采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用。在運(yùn)營(yíng)商核心數(shù)據(jù)資源的外圍,聚集著大量各類型、各行業(yè)的支撐公司、上下游企業(yè)和合作伙伴。
2.1 中國(guó)電信的大數(shù)據(jù)業(yè)務(wù)
中國(guó)電信大數(shù)據(jù)業(yè)務(wù)的開展依托于中國(guó)電信云計(jì)算分公司,由集團(tuán)市場(chǎng)部直接管理。中國(guó)電信2014年開始啟動(dòng)全國(guó)大數(shù)據(jù)的集約化運(yùn)營(yíng),著力推進(jìn)全集團(tuán)數(shù)據(jù)匯集和發(fā)掘應(yīng)用,實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用產(chǎn)業(yè)化、規(guī)?;l(fā)展。根據(jù)集團(tuán)規(guī)劃,云計(jì)算分公司作為大數(shù)據(jù)運(yùn)營(yíng)支撐單位,承擔(dān)大數(shù)據(jù)產(chǎn)品集約開發(fā)、運(yùn)營(yíng)、銷售、服務(wù)和經(jīng)營(yíng)支撐工作。
2.2 云計(jì)算分公司大數(shù)據(jù)工作的主要內(nèi)容
中國(guó)電信大數(shù)據(jù)數(shù)量巨大、來源分散、格式多樣,對(duì)系統(tǒng)的數(shù)據(jù)處理能力和分析挖掘能力提出了巨大挑戰(zhàn),需要新技術(shù)將龐雜無序的數(shù)據(jù)進(jìn)行清洗、處理、分析和集成,變成有用的信息,與行業(yè)應(yīng)用融合產(chǎn)生價(jià)值。目前這主要涉及以下4個(gè)方面的工作內(nèi)容。
● 建設(shè)大數(shù)據(jù)能力平臺(tái)。實(shí)現(xiàn)全網(wǎng)數(shù)據(jù)集約(接入、計(jì)算、存儲(chǔ))及數(shù)據(jù)資產(chǎn)集中管理維護(hù)。
● 建設(shè)海量數(shù)據(jù)處理所需的五大基礎(chǔ)能力。包括數(shù)據(jù)傳導(dǎo)(被動(dòng)/主動(dòng)接入能力、數(shù)據(jù)傳導(dǎo)、數(shù)據(jù)開放)、存儲(chǔ)(結(jié)構(gòu)化、非結(jié)構(gòu))、計(jì)算(批量、流式)、安全運(yùn)營(yíng)(提供對(duì)數(shù)據(jù)、系統(tǒng)安全運(yùn)營(yíng)保障的手段)、資源調(diào)度(協(xié)同協(xié)調(diào)、資源隔離、能力配額)。
● 數(shù)據(jù)生產(chǎn)線技術(shù)架構(gòu)設(shè)計(jì)。適應(yīng)電信大數(shù)據(jù)兩種業(yè)務(wù)數(shù)據(jù)模型,包括批量—調(diào)度系統(tǒng):基礎(chǔ)表、母表、子表、基礎(chǔ)服務(wù)層;實(shí)時(shí)—消息系統(tǒng):基礎(chǔ)拓?fù)?、融合拓?fù)洹⒒A(chǔ)服務(wù)層。
● 產(chǎn)品應(yīng)用體系設(shè)計(jì)。選擇市場(chǎng)需求明確、市場(chǎng)規(guī)模大、應(yīng)用模式清晰、適合電信大數(shù)據(jù)特點(diǎn)的領(lǐng)域建設(shè)產(chǎn)品應(yīng)用平臺(tái)。
中國(guó)電信大數(shù)據(jù)能力產(chǎn)品與應(yīng)用體系如圖1所示。
3.1 電信大數(shù)據(jù)的構(gòu)成與特點(diǎn)
(1)中國(guó)電信大數(shù)據(jù)的構(gòu)成
中國(guó)電信的數(shù)據(jù)優(yōu)勢(shì)在于數(shù)據(jù)的廣度和深度。中國(guó)電信具有海量數(shù)據(jù)基數(shù),包括2億手機(jī)用戶和1.5億寬帶用戶(覆蓋了全國(guó)70%的寬帶用戶上網(wǎng)份額)產(chǎn)生的數(shù)據(jù)。此外,還有IPTV、Wi-Fi熱點(diǎn)數(shù)據(jù)。這些數(shù)據(jù)涵蓋運(yùn)營(yíng)商全業(yè)務(wù)形態(tài)。同時(shí),中國(guó)電信還擁有大量第三方基礎(chǔ)合作數(shù)據(jù)。中國(guó)電信自有數(shù)據(jù)主要包括IT類數(shù)據(jù)、網(wǎng)絡(luò)類數(shù)據(jù)、信令數(shù)據(jù)和終端數(shù)據(jù)。合作數(shù)據(jù)包括地圖POI(興趣點(diǎn))數(shù)據(jù)、金融征信類數(shù)據(jù)、行業(yè)數(shù)據(jù)等。
(2)電信大數(shù)據(jù)的特點(diǎn)
中國(guó)電信擁有大量真實(shí)的用戶。真實(shí)有效的數(shù)據(jù)能夠支撐可信度高的分析與結(jié)論,還可進(jìn)行多維度精細(xì)用戶群體分析。中國(guó)電信作為互聯(lián)網(wǎng)接入服務(wù)提供商,承載了國(guó)內(nèi)電信用戶各類業(yè)務(wù)數(shù)據(jù),涵蓋通信數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、信令數(shù)據(jù)等方面,提供全方位的服務(wù),數(shù)據(jù)應(yīng)用的可靠性高。同時(shí),中國(guó)電信用戶本身樣本的覆蓋具有無偏差的特點(diǎn),可以有效保證分析的準(zhǔn)確度。
3.2 電信大數(shù)據(jù)的開發(fā)原則
完善的隱私保護(hù)、提供安全可靠的服務(wù)、平臺(tái)級(jí)的開發(fā)能力、支撐行業(yè)企業(yè)發(fā)展、構(gòu)建健康大數(shù)據(jù)生態(tài)環(huán)境,是電信大數(shù)據(jù)開發(fā)與利用的基本原則。
(1)保護(hù)用戶隱私是大數(shù)據(jù)開發(fā)的前提
保護(hù)隱私是國(guó)家和法律對(duì)公共基礎(chǔ)設(shè)施提供者的硬性約束,也是電信行業(yè)的基本要求。在大數(shù)據(jù)開發(fā)過程中,采用行業(yè)內(nèi)最高的安全等級(jí)存儲(chǔ)和處理用戶數(shù)據(jù),將原始數(shù)據(jù)對(duì)外全方位屏蔽,不會(huì)針對(duì)個(gè)體進(jìn)行分析,所有結(jié)果僅進(jìn)行狀態(tài)匹配和標(biāo)簽輸出,而且所有的數(shù)據(jù)分析都在中國(guó)電信自有平臺(tái)上進(jìn)行。
圖1 中國(guó)電信大數(shù)據(jù)能力產(chǎn)品與應(yīng)用體系
(2)為公眾和社會(huì)服務(wù)是中國(guó)電信的理念
作為一個(gè)大型央企,廣泛促進(jìn)社會(huì)福利水平,保護(hù)公眾隱私不受侵犯,為企業(yè)和個(gè)人提供高效數(shù)據(jù)服務(wù),提升數(shù)據(jù)社會(huì)價(jià)值,是中國(guó)電信在大數(shù)據(jù)開發(fā)主要考慮的方面。
(3)建設(shè)專有的大數(shù)據(jù)應(yīng)用平臺(tái)進(jìn)行開發(fā)
集約地整合、處理、分析所有電信端數(shù)據(jù),通過搭建自有服務(wù)器資源,保證電信團(tuán)隊(duì)、合作企業(yè)有足夠的資源在電信的平臺(tái)上做深入的數(shù)據(jù)分析。能夠?yàn)槠髽I(yè)級(jí)應(yīng)用提供從數(shù)據(jù)整合,到計(jì)算能力、發(fā)布平臺(tái)全流程的服務(wù)。
(4)廣泛的業(yè)務(wù)合作,支撐行業(yè)內(nèi)產(chǎn)業(yè)鏈企業(yè)的發(fā)展
電信大數(shù)據(jù)的工作任務(wù)是提升數(shù)據(jù)的應(yīng)用價(jià)值,通過打造大數(shù)據(jù)平臺(tái),吸引行業(yè)內(nèi)的各類企業(yè)共同開發(fā)利用,并與各自的數(shù)據(jù)資源進(jìn)行融合。業(yè)務(wù)定位是提供大數(shù)據(jù)基礎(chǔ)能力支撐,與產(chǎn)業(yè)鏈各方一起促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,共同成長(zhǎng)。
(5)營(yíng)造健康發(fā)展環(huán)境,建設(shè)大數(shù)據(jù)應(yīng)用生態(tài)
中國(guó)電信致力于建設(shè)開放、合作的大數(shù)據(jù)應(yīng)用生態(tài)。與產(chǎn)業(yè)鏈各方共同營(yíng)造安全、合規(guī)的數(shù)據(jù)使用環(huán)境,有助于未來電信數(shù)據(jù)能夠更好地對(duì)外服務(wù)。如圖2所示,在面向最終客戶提供大數(shù)據(jù)應(yīng)用服務(wù)時(shí),產(chǎn)業(yè)鏈各方充分發(fā)揮各自在數(shù)據(jù)、產(chǎn)品建模、平臺(tái)技術(shù)、解決方案提供方面的作用,實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ),合作共贏。
圖2 共建大數(shù)據(jù)應(yīng)用生態(tài)
4.1 天翼大數(shù)據(jù)“4+1”產(chǎn)品體系
中國(guó)電信天翼大數(shù)據(jù)現(xiàn)有“4+1”的產(chǎn)品體系,包括兩大類型:數(shù)據(jù)型產(chǎn)品和平臺(tái)型產(chǎn)品。
(1)數(shù)據(jù)型產(chǎn)品
數(shù)據(jù)型產(chǎn)品主要依托中國(guó)電信的數(shù)據(jù)資源,同時(shí)整合外部數(shù)據(jù)資源(如金融、電商等行業(yè)),開展分析、挖掘類數(shù)據(jù)業(yè)務(wù),服務(wù)形態(tài)主要包括:標(biāo)簽、報(bào)告以及SaaS應(yīng)用。其中,“星圖”系列以用戶畫像和分析為主,分別是風(fēng)險(xiǎn)防控及精準(zhǔn)營(yíng)銷2類產(chǎn)品;“鯤鵬”系列以區(qū)域分析、群體趨勢(shì)分析、群體畫像為主,分別是咨詢報(bào)告及區(qū)域洞察2類產(chǎn)品。
做數(shù)據(jù)型產(chǎn)品的目的是更好地從非運(yùn)營(yíng)商業(yè)務(wù)的視角來理解數(shù)據(jù),了解數(shù)據(jù)如何更好地為行業(yè)服務(wù),如何有效地與產(chǎn)業(yè)鏈合作伙伴協(xié)同。
(2)平臺(tái)型產(chǎn)品
平臺(tái)型產(chǎn)品為合作而生。“飛龍”系列大數(shù)據(jù)云PaaS提供資源托管、數(shù)據(jù)處理分析、產(chǎn)品孵化3類服務(wù)。
大數(shù)據(jù)離不開云計(jì)算基礎(chǔ)設(shè)施,依托中國(guó)電信“8+2+X”的云資源布局,通過構(gòu)建云計(jì)算PaaS平臺(tái)產(chǎn)品,提供比基礎(chǔ)設(shè)施層更高、更豐富的平臺(tái)服務(wù),降低用戶使用大數(shù)據(jù)挖掘門檻,使得開展大數(shù)據(jù)業(yè)務(wù)的企業(yè)無需擔(dān)憂技術(shù)實(shí)現(xiàn)問題,而是將更多的精力和資源投入對(duì)需求的挖掘、分析和滿足上;讓傳統(tǒng)企業(yè)能更快、更高效地通過分布式計(jì)算框架、完善的數(shù)據(jù)分析工具組件,實(shí)現(xiàn)大數(shù)據(jù)時(shí)代的IT升級(jí)換代、同時(shí),通過PaaS平臺(tái)能力開放以及平臺(tái)敏捷可靠的開發(fā)環(huán)境,越來越多的應(yīng)用開發(fā)者、越來越豐富的數(shù)據(jù)能力為整個(gè)產(chǎn)業(yè)鏈提供了有力的生態(tài)保證。
4.2 電信大數(shù)據(jù)產(chǎn)品應(yīng)用
(1)終端咨詢報(bào)告
利用中國(guó)電信擁有的完整終端自注冊(cè)信息以及終端用戶數(shù)據(jù),判斷用戶終端的使用狀態(tài)、使用行為特征、消費(fèi)能力以及偏好等數(shù)據(jù),通過數(shù)據(jù)整合與能力封裝,提供終端分布、終端使用行為分析等分析報(bào)告服務(wù)。
針對(duì)終端廠商,提供查詢自有品牌終端及競(jìng)爭(zhēng)伙伴終端的相關(guān)數(shù)據(jù)及趨勢(shì)分析,分析本產(chǎn)品和競(jìng)爭(zhēng)產(chǎn)品的市場(chǎng)份額、終端網(wǎng)齡、終端生命周期、換機(jī)流向,助力終端設(shè)計(jì)生產(chǎn)。針對(duì)終端銷售渠道,提供銷售終端份額、終端規(guī)模增速、價(jià)格構(gòu)成、價(jià)值貢獻(xiàn)等信息查詢和分析功能,提升銷售渠道快速掌握銷售市場(chǎng)動(dòng)向、調(diào)整銷售策略的能力。針對(duì)應(yīng)用開發(fā)商,提供應(yīng)用滲透率、應(yīng)用的終端市場(chǎng)占比、應(yīng)用的使用周期等信息的實(shí)時(shí)查詢,幫助開發(fā)商更快、更準(zhǔn)確地了解應(yīng)用市場(chǎng)動(dòng)向。
(2)精準(zhǔn)營(yíng)銷產(chǎn)品
基于運(yùn)營(yíng)商多維數(shù)據(jù)的交織分析,通過關(guān)聯(lián)挖掘海量電信數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù),對(duì)用戶進(jìn)行標(biāo)簽化處理;與傳統(tǒng)互聯(lián)網(wǎng)標(biāo)識(shí)不同,電信標(biāo)識(shí)體系能更精準(zhǔn)識(shí)別自然人,通過結(jié)合興趣標(biāo)簽和用戶屬性標(biāo)簽,更好地服務(wù)行業(yè)客戶;并通過“用戶行為—興趣—產(chǎn)品”的關(guān)聯(lián)標(biāo)簽,結(jié)合電信各種新式媒體和觸點(diǎn),將企業(yè)營(yíng)銷信息推送到比較準(zhǔn)確的受眾群體中,為企業(yè)節(jié)省營(yíng)銷成本,為用戶找到合適的需求點(diǎn),達(dá)到ROI(投資回報(bào)率)最大化的效果。
(3)區(qū)域洞察商業(yè)選址
在中國(guó)電信的海量數(shù)據(jù)中,還有一類最有價(jià)值的數(shù)據(jù)就是海量用戶的位移數(shù)據(jù)。依托中國(guó)電信移動(dòng)網(wǎng)絡(luò)的蜂窩模型及用戶的位移,鯤鵬—商業(yè)選址產(chǎn)品提供了更有效的數(shù)據(jù)分析能力,通過海量的用戶樣本更精準(zhǔn)地實(shí)現(xiàn)對(duì)區(qū)域商業(yè)價(jià)值的評(píng)估,改變了傳統(tǒng)依托“公開數(shù)據(jù)+掃街調(diào)查”,通過少量樣本進(jìn)行商業(yè)選址的傳統(tǒng)區(qū)域價(jià)值評(píng)估模式。
依托中國(guó)電信大數(shù)據(jù),通過用戶的區(qū)域通信行為,結(jié)合POI信息,提供區(qū)域常住人口特征分析、車流人流分析、各類商業(yè)業(yè)態(tài)分布和區(qū)域競(jìng)爭(zhēng)信息,讓商業(yè)選址更智能,真正從行業(yè)的視角,以數(shù)據(jù)的方法幫助客戶以最優(yōu)的性價(jià)比選擇線下商鋪的地址,支撐商鋪的運(yùn)營(yíng)。
(4)人口流動(dòng)分析
隨著人們生活水平的改善,越來越多的人在節(jié)假日選擇出行、旅游。公安、旅游等部門都面臨如何有效地在人群聚集的狀態(tài)進(jìn)行及時(shí)的安全監(jiān)控預(yù)警和高效地進(jìn)行區(qū)域人員的分析和預(yù)測(cè),避免公共場(chǎng)所群體安全事件發(fā)生的問題。
中國(guó)電信多樣化的數(shù)據(jù)、政府相關(guān)部門的數(shù)據(jù)、合作伙伴的數(shù)據(jù)等多源數(shù)據(jù),實(shí)現(xiàn)了以移動(dòng)用戶的實(shí)時(shí)數(shù)據(jù)為基礎(chǔ),有效地對(duì)區(qū)域人流進(jìn)行信息化監(jiān)控預(yù)警、分析及服務(wù),讓政府的管理機(jī)構(gòu)可以以科學(xué)的技術(shù)手段實(shí)現(xiàn)對(duì)關(guān)注區(qū)域的人流密集程度、流動(dòng)方向、人流群體的結(jié)構(gòu)、人流特征等多個(gè)維度信息的及時(shí)掌控。通過實(shí)時(shí)/準(zhǔn)實(shí)時(shí)的數(shù)據(jù)匯聚、清洗、分析,各類人流熱圖的呈現(xiàn),開發(fā)了多種可視化手段。
人口流動(dòng)類宏觀產(chǎn)品已經(jīng)在流動(dòng)人口分析、疾病防控、京津冀一體化規(guī)劃等進(jìn)行了有益的嘗試。在2015年廣西東盟博覽會(huì)上,中國(guó)電信與合作伙伴一起為大會(huì)主辦方提供了包括互聯(lián)網(wǎng)專線、IPTV、Wi-Fi及大數(shù)據(jù)安全預(yù)警在內(nèi)的會(huì)展解決方案。通過對(duì)手機(jī)用戶數(shù)據(jù)、信令位置數(shù)據(jù)和現(xiàn)場(chǎng)視頻數(shù)據(jù)的關(guān)聯(lián),運(yùn)用大數(shù)據(jù)建模和可視化組件,為展會(huì)提供了實(shí)時(shí)人流監(jiān)控和人群結(jié)構(gòu)分析服務(wù),做到了及時(shí)、準(zhǔn)確、可靠的安全預(yù)警,有效降低了安保成本和風(fēng)險(xiǎn)。
4.3 電信大數(shù)據(jù)應(yīng)用推廣
(1)不斷深化產(chǎn)業(yè)鏈合作
中國(guó)電信始終秉承“合作共贏”的經(jīng)營(yíng)理念,在大數(shù)據(jù)領(lǐng)域不斷加強(qiáng)與產(chǎn)業(yè)鏈的開放合作。經(jīng)過一年多的開發(fā)以及與大量廠商的合作開發(fā),電信大數(shù)據(jù)產(chǎn)品一系列產(chǎn)品已經(jīng)能夠滿足海量業(yè)務(wù)的調(diào)用,能夠提供高性能的平臺(tái)運(yùn)算能力。
2015年11月中國(guó)電信正式發(fā)布了“天翼大數(shù)據(jù)”品牌,推出精準(zhǔn)營(yíng)銷、風(fēng)險(xiǎn)防控、區(qū)域洞察、咨詢報(bào)告4類數(shù)據(jù)型產(chǎn)品和大數(shù)據(jù)云平臺(tái)型產(chǎn)品,重點(diǎn)服務(wù)于旅游、金融、廣告、交通、政府等行業(yè)和部門。其中,風(fēng)險(xiǎn)防控產(chǎn)品基于中國(guó)電信用戶標(biāo)簽數(shù)據(jù)建立用戶信用模型,主要服務(wù)于銀行、保險(xiǎn)、征信、P2P等金融機(jī)構(gòu);區(qū)域洞察產(chǎn)品基于中國(guó)電信用戶位置標(biāo)簽數(shù)據(jù),為道路交通、區(qū)域人流分析、商業(yè)選址分析、智慧城市建設(shè)、智慧旅游建設(shè)等領(lǐng)域提供數(shù)據(jù)服 務(wù)。
在發(fā)布會(huì)現(xiàn)場(chǎng),中國(guó)電信與浪潮集團(tuán)、全聯(lián)房地產(chǎn)商會(huì)、東方國(guó)信科技股份有限公司、中誠(chéng)信征信有限公司、中智誠(chéng)征信有限公司、華為技術(shù)有限公司、中興通訊股份有限公司、神州泰岳軟件股份有限公司等10余家合作伙伴簽署了戰(zhàn)略合作協(xié)議。中國(guó)電信將與戰(zhàn)略合作伙伴在大數(shù)據(jù)產(chǎn)品和解決方案等領(lǐng)域持續(xù)開展深度合作。
(2)積極推動(dòng)中國(guó)企業(yè)大數(shù)據(jù)聯(lián)盟(BDU)發(fā)展
通過建立數(shù)據(jù)標(biāo)準(zhǔn)、交換規(guī)則,推動(dòng)跨界合作,創(chuàng)新商業(yè)模式,提升參與各方大數(shù)據(jù)應(yīng)用的整體水平,提升產(chǎn)業(yè)競(jìng)爭(zhēng)力;匯聚各方力量,吸收國(guó)內(nèi)外先進(jìn)經(jīng)驗(yàn),使聯(lián)盟成為推動(dòng)技術(shù)進(jìn)步、應(yīng)用創(chuàng)新的中堅(jiān)力量,為大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展做出貢獻(xiàn)。
(3)推出大數(shù)據(jù)成長(zhǎng)計(jì)劃
該計(jì)劃旨在構(gòu)建有影響力的大數(shù)據(jù)生態(tài)圈,以中國(guó)電信大數(shù)據(jù)開放平臺(tái)、高價(jià)值數(shù)據(jù)為支撐,面向行業(yè)伙伴提供數(shù)據(jù)、產(chǎn)品、銷售3種合作模式,快速形成聚合效應(yīng),促進(jìn)中國(guó)大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展,拉動(dòng)信息消費(fèi),為推動(dòng)社會(huì)轉(zhuǎn)型升級(jí)做出貢獻(xiàn)。立足于現(xiàn)有平臺(tái)和未來發(fā)展,聯(lián)合各類企業(yè)、科研單位、高校單位等,共同成長(zhǎng)。同時(shí)中國(guó)電信主辦了大數(shù)據(jù)分析競(jìng)賽,推動(dòng)大數(shù)據(jù)分析在未來人群中的認(rèn)知、發(fā)展和人才儲(chǔ)備等。
業(yè)務(wù)需求:分析某省份省會(huì)城市轄區(qū)中流動(dòng)人口的比例、構(gòu)成以及人群的特點(diǎn),推演出其在醫(yī)療衛(wèi)生方面的需求,為政府和組織的服務(wù)提供參考。
將需求分為兩個(gè)部分,第一部分為如何盡可能準(zhǔn)確地描述流動(dòng)人口,盡可能多地將真實(shí)的流動(dòng)人口提取出來,提高準(zhǔn)確率;第二部分為對(duì)確認(rèn)的流動(dòng)人口進(jìn)行人口學(xué)特征、網(wǎng)絡(luò)使用偏好、居住信息、活動(dòng)區(qū)域、家庭情況、工作情況方面的分析,支撐政府醫(yī)療衛(wèi)生服務(wù)方面的措施推進(jìn)。
(1)明確流動(dòng)人口的定義
根據(jù)項(xiàng)目的需求,將從省內(nèi)非省會(huì)城市遷徙而來、時(shí)間高于1個(gè)月的用戶設(shè)定為研究對(duì)象,其中將居住時(shí)間超過3個(gè)月(可調(diào))的用戶定義為流動(dòng)人口。分別從時(shí)間、位置方面初步區(qū)分流動(dòng)人口群體。
(2)人群初步區(qū)分
分析前提:所有“在用”狀態(tài)的用戶,將設(shè)定幾個(gè)用于區(qū)分人群的標(biāo)準(zhǔn),見表1,綜合如下。
由于不知道戶籍方面的信息,單純從電信數(shù)據(jù)看,A部分是最有可能產(chǎn)生流動(dòng)人口的群體;其次為B部分,即流動(dòng)人口在居住地?fù)Q本地號(hào)碼的情況;第C部分需要根據(jù)戶籍信息是否變動(dòng)、居住時(shí)間等條件判斷,根據(jù)輔助條件,少量歸入流動(dòng)人口的群體;第D部分為當(dāng)?shù)鼐用竦目赡苄愿撸J(rèn)為非流動(dòng)人口群體。
然而以上分類較粗,錯(cuò)誤率會(huì)較高,因此加入了其他的輔助篩選條件,如進(jìn)入本市時(shí)長(zhǎng)、是否有省內(nèi)漫游、是否有省內(nèi)長(zhǎng)途電話。
根據(jù)就近和信息有效的原則,從開始研究的月份之前倒推6個(gè)月開始積累數(shù)據(jù),對(duì)每月居住時(shí)長(zhǎng)達(dá)到某一閾值的用戶,折算為居住一個(gè)月。
有省內(nèi)漫游和省內(nèi)長(zhǎng)途通話的用戶將比無省內(nèi)漫游和省內(nèi)長(zhǎng)途通話的用戶為流動(dòng)人口的可能性更高。
通過以上條件篩選,最終篩選出可能性最大的流動(dòng)人口的人群,總計(jì)約10萬(wàn)人。根據(jù)電信用戶的比例計(jì)算,符合需求的流動(dòng)人口總量應(yīng)為70萬(wàn)~80萬(wàn)人。
(3)通過模型進(jìn)一步擴(kuò)大流動(dòng)人口篩選的范圍
根據(jù)與需求方的深度溝通,在以上篩選方法的基礎(chǔ)上,將流動(dòng)人口與非流動(dòng)人口進(jìn)行對(duì)比測(cè)試,從相關(guān)數(shù)百個(gè)字段中挑選出了30多個(gè)最相關(guān)變量和衍生變量,將相關(guān)變量分為核心變量、輔助變量,并對(duì)核心變量進(jìn)行權(quán)重劃分。
經(jīng)過各類模型分析結(jié)果對(duì)比,選擇了人工神經(jīng)網(wǎng)絡(luò)作為最終的模型。初步的結(jié)果顯示,基本上能夠?qū)⒛壳皵?shù)據(jù)樣本中絕大部分疑似流動(dòng)人口的用戶識(shí)別出來,并應(yīng)用于具體的數(shù)據(jù)分析工作。
(4)部分分析結(jié)果舉例
通過每月數(shù)據(jù)的監(jiān)測(cè),對(duì)每月流動(dòng)人口的變動(dòng)進(jìn)行描述,得到了一段時(shí)間內(nèi)人口流動(dòng)的波動(dòng)信息和人口的基本信息,如圖3、圖4所示。
通過可視化方法,在地圖上顯示出流動(dòng)人口的分布、每日流向等信息,還能以動(dòng)態(tài)的方式展示。結(jié)合POI等信息,還可以分析出流動(dòng)人口生活環(huán)境狀況等。
表1 根據(jù)人和手機(jī)號(hào)的歸屬地劃分人群
圖3 流動(dòng)人口月數(shù)量分布
圖4 流動(dòng)人口年齡占比情況比較
利用組合模型,可以分析出特定人群的分布、人群特征、活動(dòng)特征等信息,例如通過對(duì)用戶網(wǎng)絡(luò)行為和位置行為建模分析,能夠區(qū)分出育齡婦女人群以及她們大體所處的孕育階段,能夠更加精準(zhǔn)地為政府決策、公共衛(wèi)生服務(wù)提供參考。
大數(shù)據(jù)開發(fā)的最終目標(biāo)是行業(yè)應(yīng)用,它依托于大量的數(shù)據(jù)、強(qiáng)大的分析資源、各類優(yōu)秀的業(yè)務(wù)模型以及對(duì)垂直領(lǐng)域的洞察。中國(guó)電信作為運(yùn)營(yíng)商級(jí)別的大數(shù)據(jù)開發(fā)者,能夠在數(shù)據(jù)、平臺(tái)、合作等方面為全社會(huì)提供基礎(chǔ)資源,促進(jìn)各行業(yè)大數(shù)據(jù)的開發(fā)、融合、應(yīng)用。
中國(guó)電信已經(jīng)開發(fā)了“4+1”的產(chǎn)品體系,并將開發(fā)更多的大數(shù)據(jù)產(chǎn)品、更多的接口,與更多的企業(yè)合作。大數(shù)據(jù)的深度利用,將成為社會(huì)經(jīng)濟(jì)發(fā)展的重要推動(dòng)力。
[1] 童曉渝, 張?jiān)朴? 房秉毅, 等.大數(shù)據(jù)時(shí)代電信運(yùn)營(yíng)商的機(jī)遇[J].信息通信技術(shù),2013(1):5-9.TONG X Y, ZHANG Y Y, FANG B Y, et al.Opportunities for Telecom operators in the big data age[J].Information and Communications Technology, 2013(1):5-9.
[2] 黃勇軍, 馮明, 丁圣勇, 等.電信運(yùn)營(yíng)商大數(shù)據(jù)發(fā)展策略探討[J].電信科學(xué), 2013, 29(3): 6-11.HUANG Y J, FENG M, DING S Y, et al.Big data development strategy for telecom operators[J].Telecommunications Science, 2013, 29(3): 6-11.
[3] HORNIK K, STINCHCOMBE M, WHITE H.Multilayer feed forward networks are universal approximators[J].Neural networks, 1989, 2(5): 359-366. □
TP399
A
10.11959/j.issn.2096-0271.2016036