亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于異構(gòu)關(guān)聯(lián)的大數(shù)據(jù)價(jià)值密度提升方法

        2018-01-08 05:35:23汪少敏王錚
        電信科學(xué) 2017年12期
        關(guān)鍵詞:手機(jī)號(hào)碼關(guān)鍵字異構(gòu)

        汪少敏,王錚

        ?

        基于異構(gòu)關(guān)聯(lián)的大數(shù)據(jù)價(jià)值密度提升方法

        汪少敏,王錚

        (中國(guó)電信股份有限公司上海研究院,上海 200122)

        電信大數(shù)據(jù)通常分散存儲(chǔ)在DPI、OIDD、CRM等多個(gè)系統(tǒng)中,且格式、表述和規(guī)則在各系統(tǒng)中互不相同;因而,同一對(duì)象在不同系統(tǒng)中的多類(lèi)數(shù)據(jù)很難被有效識(shí)別及完整利用,大數(shù)據(jù)分析的樣本規(guī)模和特征維度嚴(yán)重受限,導(dǎo)致分析結(jié)果可信度和準(zhǔn)確率下降。提出了電信大數(shù)據(jù)的異構(gòu)關(guān)聯(lián)方法與實(shí)現(xiàn)架構(gòu),并進(jìn)行了方法的流程舉例和驗(yàn)證,從用戶維度實(shí)現(xiàn)了多系統(tǒng)間的數(shù)據(jù)融合,優(yōu)化了諸如用戶畫(huà)像等應(yīng)用的數(shù)據(jù)樣本空間,從而大幅提升電信大數(shù)據(jù)價(jià)值密度。

        大數(shù)據(jù);電信大數(shù)據(jù);多源異構(gòu);異構(gòu)關(guān)聯(lián)

        1 引言

        大數(shù)據(jù)已在各行業(yè)開(kāi)展廣泛應(yīng)用,其中電信行業(yè)由于其天然的數(shù)據(jù)基礎(chǔ)和應(yīng)用需求,是大數(shù)據(jù)應(yīng)用的重點(diǎn)領(lǐng)域。電信大數(shù)據(jù)是指基于運(yùn)營(yíng)商豐富的大數(shù)據(jù)資源進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)挖掘分析及應(yīng)用[1]。這些數(shù)據(jù)包括:互聯(lián)網(wǎng)及移動(dòng)互聯(lián)網(wǎng)的用戶行為數(shù)據(jù)、用戶位置數(shù)據(jù)、用戶電信業(yè)務(wù)數(shù)據(jù)、網(wǎng)絡(luò)信令數(shù)據(jù)等。隨著大數(shù)據(jù)與人工智能技術(shù)的飛速發(fā)展,作為蘊(yùn)含巨大社會(huì)價(jià)值和商業(yè)價(jià)值的電信大數(shù)據(jù),已被運(yùn)營(yíng)商列為重點(diǎn)應(yīng)用課題[2]。

        然而,由于運(yùn)營(yíng)商的架構(gòu)特點(diǎn),運(yùn)營(yíng)商的這些數(shù)據(jù)分散存儲(chǔ)在不同的系統(tǒng)中,例如,用戶的上網(wǎng)行為數(shù)據(jù)、位置數(shù)據(jù)和信令數(shù)據(jù)、業(yè)務(wù)信息數(shù)據(jù)分別存儲(chǔ)在DPI(deep packet inspect,深度報(bào)文識(shí)別)系統(tǒng)、OIDD(open information of dynamic data,開(kāi)放信息動(dòng)態(tài)數(shù)據(jù))系統(tǒng)、ODMS(operation data management system,運(yùn)營(yíng)數(shù)據(jù)管理系統(tǒng))中。其造成了運(yùn)營(yíng)商豐富的大數(shù)據(jù)多源異構(gòu)的現(xiàn)狀。運(yùn)營(yíng)商對(duì)這些數(shù)據(jù)進(jìn)行挖掘處理時(shí),多采用系統(tǒng)內(nèi)部分析處理的方式,不能進(jìn)行多系統(tǒng)間數(shù)據(jù)融合、交叉分析[3]。在大數(shù)據(jù)應(yīng)用,特別是用戶畫(huà)像方面,數(shù)據(jù)的準(zhǔn)確性、全面性都大打折扣,使得數(shù)據(jù)價(jià)值密度受到限制。解決電信大數(shù)據(jù)多源異構(gòu)問(wèn)題與提升電信大數(shù)據(jù)價(jià)值密度的需求越來(lái)越迫切。

        本文分析了電信大數(shù)據(jù)多源異構(gòu)問(wèn)題,提出了電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)方法和異構(gòu)關(guān)聯(lián)實(shí)現(xiàn)架構(gòu),并進(jìn)行了方法的流程舉例和驗(yàn)證。該方法基于運(yùn)營(yíng)商最有價(jià)值且數(shù)量龐大的用戶數(shù)據(jù),根據(jù)不同來(lái)源數(shù)據(jù)的業(yè)務(wù)邏輯,通過(guò)可關(guān)聯(lián)的字段,實(shí)現(xiàn)了多數(shù)據(jù)源的數(shù)據(jù)之間以用戶維度的關(guān)聯(lián)匹配規(guī)則。以自然人識(shí)別ID為主鍵將不同數(shù)據(jù)源、不同業(yè)務(wù)邏輯的數(shù)據(jù)進(jìn)行串聯(lián),實(shí)現(xiàn)不同數(shù)據(jù)間的內(nèi)容匹配。本文提出的方法能有效解決電信大數(shù)據(jù)多源異構(gòu)所造成的同一用戶的多類(lèi)數(shù)據(jù)無(wú)法關(guān)聯(lián)、數(shù)據(jù)分析維度及樣本規(guī)模降低等問(wèn)題,不僅能擴(kuò)大用戶維度的數(shù)據(jù)一次性挖掘分析可涉及的數(shù)據(jù)范圍,還可以實(shí)現(xiàn)分散在不同系統(tǒng)中的數(shù)據(jù)源在用戶維度的緊耦合,從而實(shí)現(xiàn)電信業(yè)務(wù)數(shù)據(jù)的收斂和交叉融合,使數(shù)據(jù)信息更完整,挖掘價(jià)值更大。

        2 電信大數(shù)據(jù)的多源異構(gòu)問(wèn)題

        電信大數(shù)據(jù)包含的數(shù)據(jù)種類(lèi)繁多,從數(shù)據(jù)載體角度,分為用戶數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)和運(yùn)維數(shù)據(jù)。用戶數(shù)據(jù)包括個(gè)人用戶和行業(yè)用戶的信息、業(yè)務(wù)及行為等數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)包括電信3G、4G移動(dòng)網(wǎng)絡(luò)及寬帶網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù),如信令數(shù)據(jù)等。運(yùn)維數(shù)據(jù)包括電信網(wǎng)絡(luò)運(yùn)維過(guò)程中產(chǎn)生的數(shù)據(jù),如設(shè)備日志數(shù)據(jù)等。其中,較為有價(jià)值且常被用來(lái)分析挖掘的數(shù)據(jù)是用戶數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)中的位置數(shù)據(jù)。這些數(shù)據(jù)多為結(jié)構(gòu)化數(shù)據(jù)[4],易于分析處理,可用于分析用戶興趣偏好、用戶行為追蹤等,從而為電信提供基于用戶畫(huà)像的策略分析、精準(zhǔn)營(yíng)銷(xiāo)和客戶關(guān)懷,以減少客戶流失、增加市場(chǎng)收入、提升客戶感知及忠誠(chéng)度。并且,這些數(shù)據(jù)的數(shù)據(jù)量巨大,例如,省級(jí)4G網(wǎng)絡(luò)DPI數(shù)據(jù),每天的數(shù)據(jù)增量為T(mén)B級(jí)別。巨大的數(shù)據(jù)量為大數(shù)據(jù)分析的準(zhǔn)確性提供了基礎(chǔ)。所以,電信大數(shù)據(jù),特別是用戶數(shù)據(jù)和位置數(shù)據(jù),有很高的分析價(jià)值[5]。

        然而,電信大數(shù)據(jù)分散存儲(chǔ)在電信網(wǎng)絡(luò)中的不同系統(tǒng)上。如圖1所示,用戶的寬帶上網(wǎng)行為數(shù)據(jù)存儲(chǔ)在寬帶DPI設(shè)備中;移動(dòng)上網(wǎng)行為數(shù)據(jù)存儲(chǔ)在移動(dòng)DPI設(shè)備中;用戶的業(yè)務(wù)信息數(shù)據(jù)存在ODMS中;用戶的計(jì)費(fèi)和基本信息數(shù)據(jù)存儲(chǔ)在CRM(customer relationship management,客戶關(guān)系管理)系統(tǒng)中;位置數(shù)據(jù)和信令數(shù)據(jù)存儲(chǔ)在OIDD系統(tǒng)中。這些系統(tǒng)對(duì)數(shù)據(jù)的解釋、數(shù)據(jù)的表述、數(shù)據(jù)的格式均不相同,系統(tǒng)間數(shù)據(jù)互不關(guān)聯(lián),相互割裂。這形成了電信大數(shù)據(jù)多源異構(gòu)的現(xiàn)狀。

        圖1 電信大數(shù)據(jù)多源異構(gòu)現(xiàn)狀

        電信大數(shù)據(jù)的多源異構(gòu)造成了豐富的大數(shù)據(jù)資源被分散,價(jià)值密度降低,體現(xiàn)在以下方面。

        (1)同一用戶的多類(lèi)數(shù)據(jù)無(wú)法關(guān)聯(lián)

        由于數(shù)據(jù)的多源異構(gòu),同一用戶的多種數(shù)據(jù)存儲(chǔ)在不同系統(tǒng)中,例如用戶的移動(dòng)DPI數(shù)據(jù)、固網(wǎng)寬帶DPI數(shù)據(jù)、用戶話單數(shù)據(jù)分散在3個(gè)獨(dú)立系統(tǒng)中。這些系統(tǒng)中的數(shù)據(jù)相互獨(dú)立、互不關(guān)聯(lián),數(shù)據(jù)規(guī)范不一致,導(dǎo)致這些數(shù)據(jù)無(wú)法對(duì)應(yīng)到同一用戶,從而無(wú)法結(jié)合這3種數(shù)據(jù)分析用戶行為特征,不能繪制出較為完整的用戶畫(huà)像,使得數(shù)據(jù)價(jià)值受到限制。

        (2)數(shù)據(jù)分析維度降低

        進(jìn)行大數(shù)據(jù)挖掘分析時(shí),只能挖掘某單一系統(tǒng)的數(shù)據(jù),不能結(jié)合多系統(tǒng)的數(shù)據(jù)進(jìn)行分析挖掘,造成數(shù)據(jù)分析的維度降低,反映事物特性的特征減少,從而導(dǎo)致大數(shù)據(jù)挖掘分析的準(zhǔn)確性、全面性降低。

        (3)數(shù)據(jù)分析的樣本規(guī)模被限制

        由于大數(shù)據(jù)分析是基于數(shù)據(jù)樣本學(xué)習(xí),所以數(shù)據(jù)樣本數(shù)量越大,數(shù)據(jù)分析結(jié)果的準(zhǔn)確率越高。當(dāng)只能通過(guò)單一系統(tǒng)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析挖掘時(shí),分析樣本的數(shù)據(jù)量和豐富程度被限制。所以,電信大數(shù)據(jù)的多源異構(gòu)特點(diǎn),限制了數(shù)據(jù)分析的樣本規(guī)模,降低了分析結(jié)果的準(zhǔn)確率。

        3 電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)方法

        為了提升電信大數(shù)據(jù)價(jià)值密度,解決電信大數(shù)據(jù)多源異構(gòu)所造成的問(wèn)題,本文提出電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)方法。該方法在數(shù)據(jù)匯聚后的數(shù)據(jù)處理層實(shí)現(xiàn),對(duì)采集的數(shù)據(jù)清洗后,對(duì)所有數(shù)據(jù)進(jìn)行自然人識(shí)別和標(biāo)識(shí),標(biāo)識(shí)后的數(shù)據(jù)可實(shí)現(xiàn)多系統(tǒng)數(shù)據(jù)間的關(guān)聯(lián)分析,從而實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)和拼接,解決多源異構(gòu)造成的同一用戶的多類(lèi)數(shù)據(jù)無(wú)法關(guān)聯(lián)、數(shù)據(jù)分析維度降低等問(wèn)題。

        本文提出電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)方法主要包括以下3步,如圖2所示。

        步驟1 面向身份信息的關(guān)鍵字提取。對(duì)各系統(tǒng)的數(shù)據(jù)進(jìn)行字段分析,提取其中反映用戶身份的ID信息,形成該條數(shù)據(jù)的關(guān)鍵字,如手機(jī)號(hào)碼、寬帶賬號(hào)、各社交UID、MAC地址等。提取的數(shù)據(jù)關(guān)鍵字用于下一步查找自然人ID映射表,同時(shí)也可用于生成和維護(hù)自然人ID映射表。

        圖2 電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)關(guān)鍵技術(shù)

        步驟2 基于自然人ID映射表的數(shù)據(jù)識(shí)別。本文提出了自然人識(shí)別ID和自然人ID映射表。一個(gè)自然人可以擁有手機(jī)號(hào)碼、寬帶賬號(hào)、社交網(wǎng)絡(luò)身份ID等多種用戶ID,所以需要在所有用戶標(biāo)識(shí)ID之上,建立一套全網(wǎng)統(tǒng)一的自然人識(shí)別ID,自然人識(shí)別ID是不同系統(tǒng)數(shù)據(jù)間用戶的唯一性標(biāo)識(shí)。通過(guò)自然人識(shí)別ID這個(gè)唯一標(biāo)識(shí),將不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行關(guān)聯(lián)。自然人ID映射表保存用戶的各種ID,包括自然人識(shí)別ID、手機(jī)號(hào)碼、寬帶賬號(hào)、各社交UID等。將數(shù)據(jù)提取的關(guān)鍵字在自然人ID映射表中查找匹配的ID(手機(jī)號(hào)碼、寬帶賬號(hào)和各社交UID等),匹配ID對(duì)應(yīng)的自然人識(shí)別ID即為該條數(shù)據(jù)的自然人識(shí)別ID。

        步驟3 對(duì)數(shù)據(jù)進(jìn)行自然人標(biāo)簽標(biāo)識(shí)。通過(guò)對(duì)所有系統(tǒng)的數(shù)據(jù)加上自然人識(shí)別ID標(biāo)簽的方式進(jìn)行數(shù)據(jù)的自然人標(biāo)識(shí)。不同數(shù)據(jù)源的數(shù)據(jù)加上全網(wǎng)統(tǒng)一的自然人識(shí)別ID之后,在進(jìn)一步的數(shù)據(jù)挖掘分析時(shí),可通過(guò)自然人識(shí)別ID進(jìn)行關(guān)聯(lián)分析,從而實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)融合。例如,移動(dòng)DPI數(shù)據(jù)、固網(wǎng)DPI數(shù)據(jù)和話單數(shù)據(jù)加上自然人識(shí)別ID后,可通過(guò)自然人識(shí)別ID區(qū)別出同一用戶的移動(dòng)DPI數(shù)據(jù)、固網(wǎng)DPI數(shù)據(jù)和話單數(shù)據(jù),這樣可以結(jié)合用戶的移動(dòng)上網(wǎng)行為和固網(wǎng)上網(wǎng)行為以及電話呼叫行為等多種類(lèi)型的數(shù)據(jù),更全面地繪制出該用戶的用戶畫(huà)像。

        電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)關(guān)鍵技術(shù)有以下幾種。

        (1)面向身份信息的關(guān)鍵字提取

        本文提出的電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)方法中,通過(guò)對(duì)數(shù)據(jù)關(guān)鍵字的提取和比對(duì),識(shí)別數(shù)據(jù)所對(duì)應(yīng)的自然人,所以,關(guān)鍵字和用戶身份強(qiáng)相關(guān),如手機(jī)號(hào)碼、寬帶賬號(hào)、用戶社交UID等。由于不同來(lái)源的數(shù)據(jù)格式和數(shù)據(jù)內(nèi)容互不相同,所以不同來(lái)源的數(shù)據(jù)具有不同的關(guān)鍵字,表1列舉了固網(wǎng)DPI數(shù)據(jù)、移動(dòng)DPI數(shù)據(jù)、話單數(shù)據(jù)、ODMS數(shù)據(jù)、OIDD數(shù)據(jù)和ODS數(shù)據(jù)的關(guān)鍵字。

        表1 電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)關(guān)鍵字舉例

        關(guān)鍵字可以通過(guò)解析數(shù)據(jù)中的字段獲得,例如:解析固網(wǎng)DPI數(shù)據(jù)的AD賬號(hào)字段,可獲得用戶的寬帶賬號(hào)關(guān)鍵字;解析寬帶和移動(dòng)DPI數(shù)據(jù),從HTTP業(yè)務(wù)用戶訪問(wèn)記錄中的DestinationURL字段中提取微博、騰訊社交網(wǎng)絡(luò)UID,可獲得用戶的社交UID關(guān)鍵字;解析話單數(shù)據(jù)中的主叫號(hào)碼、被叫號(hào)碼字段,可獲得手機(jī)號(hào)碼關(guān)鍵字。

        當(dāng)從數(shù)據(jù)中提取關(guān)鍵字后,在自然人ID映射表中查找關(guān)鍵字,若在自然人ID映射表中找到了關(guān)鍵字匹配的條目,則從自然人ID映射表中獲得此關(guān)鍵字的自然人識(shí)別ID,即此條數(shù)據(jù)的自然人識(shí)別ID,從而實(shí)現(xiàn)此條數(shù)據(jù)的自然人識(shí)別;若沒(méi)有找到匹配條目,將更新自然人ID映射表中的條目。所以,提取的關(guān)鍵字有兩種用途:一是用于生成和維護(hù)自然人ID映射表,二是有效識(shí)別數(shù)據(jù)的自然人身份。

        (2)自然人ID映射表

        本文提出了自然人識(shí)別ID和自然人ID映射表。通過(guò)數(shù)據(jù)中的關(guān)鍵字查找自然人ID映射表,能夠獲得此條數(shù)據(jù)的自然人識(shí)別ID。所以,自然人ID映射表保存了用戶的各種ID和映射關(guān)系,包括自然人識(shí)別ID、手機(jī)號(hào)碼、寬帶賬號(hào)以及各社交UID等。自然人ID映射表的鍵值ID為自然人識(shí)別ID,它為全網(wǎng)統(tǒng)一的標(biāo)注和識(shí)別該用戶的ID。自然人ID映射表還包含了用戶自然人識(shí)別ID和用戶其他各種ID的映射關(guān)系。自然人ID映射表舉例如圖3所示。

        圖3 自然人ID映射表舉例

        ①自然人ID映射表的生成

        自然人ID映射表中的內(nèi)容通過(guò)從移動(dòng)DPI數(shù)據(jù)、固網(wǎng)DPI數(shù)據(jù)、ODS數(shù)據(jù)和終端自注冊(cè)數(shù)據(jù)等數(shù)據(jù)中提取的關(guān)鍵字生成和更新。例如:通過(guò)提取ODS數(shù)據(jù)的關(guān)鍵字,獲取自然人的手機(jī)號(hào)碼、寬帶賬號(hào)并分配自然人識(shí)別ID,寫(xiě)入自然ID映射表;通過(guò)終端自注冊(cè)平臺(tái)數(shù)據(jù)的關(guān)鍵字獲取手機(jī)MAC地址、MEID;通過(guò)移動(dòng)DPI數(shù)據(jù)的關(guān)鍵字獲取微博UID、QQ空間UID等社交UID。

        自然人ID映射表的生成可分為兩步:先通過(guò)上述方法分析存量的電信大數(shù)據(jù)(已有未識(shí)別數(shù)據(jù)),初步生成自然人ID映射表中的內(nèi)容;再對(duì)新采集的數(shù)據(jù)采用上述方法進(jìn)行實(shí)時(shí)分析,從而不斷增加自然人ID映射表的內(nèi)容。

        ②自然人ID映射表的維護(hù)

        已生成的自然人ID映射表需要不斷地更新維護(hù)。自然人ID映射表的更新維護(hù)同樣通過(guò)對(duì)電信大數(shù)據(jù)的關(guān)鍵字分析,從數(shù)據(jù)中提取的關(guān)鍵字在已生成的ID映射表中進(jìn)行查找匹配,若查找的關(guān)鍵字和自然人ID映射表中的字段匹配成功,則得到了該條數(shù)據(jù)的自然人識(shí)別ID;若在自然人ID映射表中沒(méi)有相匹配的ID,則說(shuō)明此條數(shù)據(jù)的關(guān)鍵字為新的ID信息,應(yīng)更新到自然人ID映射表中。通過(guò)數(shù)據(jù)關(guān)鍵字查找匹配自然人ID映射表的方式,實(shí)現(xiàn)自然人ID映射表在應(yīng)用過(guò)程中的更新維護(hù)。

        (3)數(shù)據(jù)的自然人標(biāo)簽標(biāo)識(shí)

        數(shù)據(jù)經(jīng)過(guò)關(guān)鍵字提取后,根據(jù)獲得的關(guān)鍵字,查找自然人ID映射表,找到和關(guān)鍵字一致的ID,從而獲得該條數(shù)據(jù)的自然人識(shí)別ID,然后通過(guò)對(duì)數(shù)據(jù)增加標(biāo)簽的形式,將該自然人識(shí)別ID標(biāo)注到該條數(shù)據(jù)。通過(guò)對(duì)每條數(shù)據(jù)標(biāo)注自然人識(shí)別ID,達(dá)到不同數(shù)據(jù)相互關(guān)聯(lián)的目的。

        一條數(shù)據(jù)可能存在多個(gè)關(guān)鍵詞的情況,如移動(dòng)DPI數(shù)據(jù)可能解析出手機(jī)號(hào)碼、新浪微博UID等關(guān)鍵字。這種情況下應(yīng)按一定的優(yōu)先級(jí)順序,比對(duì)關(guān)鍵字和自然人ID映射表中的ID。根據(jù)各關(guān)鍵字和自然人的關(guān)聯(lián)程度的強(qiáng)弱不同,可設(shè)置關(guān)鍵字查找比對(duì)的優(yōu)先級(jí)順序如下:手機(jī)號(hào)碼>MEID號(hào)碼>MAC地址>cookie>新浪微博UID>社交UID>寬帶賬號(hào)。當(dāng)關(guān)鍵字匹配優(yōu)先級(jí)高的ID時(shí),使用優(yōu)先級(jí)高的ID所對(duì)應(yīng)的自然人識(shí)別ID標(biāo)識(shí)數(shù)據(jù)。

        4 電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)的實(shí)現(xiàn)架構(gòu)

        本文提出了電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)方法應(yīng)用到實(shí)際網(wǎng)絡(luò)中的兩種方式實(shí)現(xiàn)架構(gòu):一種是關(guān)聯(lián)后再存儲(chǔ),另一種是存儲(chǔ)后再關(guān)聯(lián)。

        4.1 方式1:關(guān)聯(lián)后再存儲(chǔ)

        電信大數(shù)據(jù)關(guān)聯(lián)異構(gòu)關(guān)聯(lián)實(shí)現(xiàn)架構(gòu)方式1如圖4所示。

        圖4 電信大數(shù)據(jù)關(guān)聯(lián)異構(gòu)關(guān)聯(lián)實(shí)現(xiàn)架構(gòu)方式1

        關(guān)聯(lián)后再存儲(chǔ)的實(shí)現(xiàn)方式為:原始數(shù)據(jù)經(jīng)過(guò)清洗后,逐一對(duì)每條數(shù)據(jù)進(jìn)行自然人識(shí)別,并加上自然人識(shí)別ID的標(biāo)簽。然后,將加上自然人識(shí)別ID后的數(shù)據(jù)存入數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中所有的數(shù)據(jù)均是標(biāo)注了自然人識(shí)別ID的已關(guān)聯(lián)數(shù)據(jù)。上層應(yīng)用使用數(shù)據(jù)時(shí),直接分析挖掘已關(guān)聯(lián)數(shù)據(jù)。

        這種方式的特點(diǎn)在于:

        ? 在數(shù)據(jù)清洗階段即完成每條數(shù)據(jù)的關(guān)聯(lián),這將增加數(shù)據(jù)清洗階段的工作量和數(shù)據(jù)存入數(shù)據(jù)庫(kù)的時(shí)長(zhǎng);

        ? 因?yàn)閿?shù)據(jù)入庫(kù)前要逐條解析數(shù)據(jù)并關(guān)聯(lián),所以對(duì)系統(tǒng)性能有一定要求;

        ? 存儲(chǔ)后的數(shù)據(jù)皆為已關(guān)聯(lián)數(shù)據(jù),使用方便,可實(shí)時(shí)取用。

        4.2 方式2:存儲(chǔ)后再關(guān)聯(lián)

        電信大數(shù)據(jù)關(guān)聯(lián)異構(gòu)關(guān)聯(lián)實(shí)現(xiàn)架構(gòu)方式2如圖5所示。

        存儲(chǔ)后再關(guān)聯(lián)的實(shí)現(xiàn)方式為:原始數(shù)據(jù)不做關(guān)聯(lián)即存入數(shù)據(jù)庫(kù)。當(dāng)數(shù)據(jù)應(yīng)用請(qǐng)求需要關(guān)聯(lián)數(shù)據(jù)時(shí),數(shù)據(jù)關(guān)聯(lián)模塊對(duì)數(shù)據(jù)庫(kù)中的被請(qǐng)求數(shù)據(jù)進(jìn)行自然人識(shí)別和加自然人識(shí)別ID標(biāo)簽進(jìn)行數(shù)據(jù)關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)完成后,應(yīng)用從數(shù)據(jù)庫(kù)中取得需要的已關(guān)聯(lián)數(shù)據(jù)。庫(kù)中關(guān)聯(lián)后的數(shù)據(jù)保留標(biāo)簽,供下次應(yīng)用請(qǐng)求時(shí)取用,避免重復(fù)關(guān)聯(lián)。

        圖5 電信大數(shù)據(jù)關(guān)聯(lián)異構(gòu)關(guān)聯(lián)實(shí)現(xiàn)架構(gòu)方式2

        這種方式的特點(diǎn)在于:

        ? 不影響清洗入庫(kù)流程,不影響數(shù)據(jù)存入數(shù)據(jù)庫(kù)的時(shí)長(zhǎng);

        ? 數(shù)據(jù)關(guān)聯(lián)按需實(shí)現(xiàn),不需要對(duì)數(shù)據(jù)逐條解析和關(guān)聯(lián),對(duì)系統(tǒng)性能要求較方式1較低;

        ? 應(yīng)用不能實(shí)時(shí)取用已關(guān)聯(lián)數(shù)據(jù),需先請(qǐng)求關(guān)聯(lián),等待關(guān)聯(lián)完成后再取得關(guān)聯(lián)數(shù)據(jù),通過(guò)分步請(qǐng)求方式獲得關(guān)聯(lián)數(shù)據(jù)。

        5 流程舉例和驗(yàn)證

        根據(jù)本文中的電信大數(shù)據(jù)異構(gòu)關(guān)聯(lián)方法,以移動(dòng)DPI數(shù)據(jù)自然人識(shí)別和標(biāo)注為例,驗(yàn)證異構(gòu)關(guān)聯(lián)的可行性和效果,如圖6所示,對(duì)某一條的移動(dòng)DPI數(shù)據(jù)自然人識(shí)別和標(biāo)注的流程如下:對(duì)清洗后的移動(dòng)DPI數(shù)據(jù)進(jìn)行關(guān)鍵字提取,得到關(guān)鍵字——手機(jī)號(hào)碼;在自然人ID映射表中查找該手機(jī)號(hào)碼,得到該手機(jī)號(hào)碼映射的自然人識(shí)別ID;在清洗后的數(shù)據(jù)中加入自然人識(shí)別ID標(biāo)簽,標(biāo)注自然人;標(biāo)注后的該條移動(dòng)DPI數(shù)據(jù)入庫(kù)。根據(jù)上述流程,以中國(guó)電信多個(gè)省市一天的4G移動(dòng)DPI數(shù)據(jù)為數(shù)據(jù)源,對(duì)這些數(shù)據(jù)逐條進(jìn)行識(shí)別和關(guān)聯(lián)驗(yàn)證。驗(yàn)證環(huán)境為L(zhǎng)inux上的Hadoop系統(tǒng)。數(shù)據(jù)源情況見(jiàn)表2。

        圖6 移動(dòng)DPI數(shù)據(jù)自然人識(shí)別和標(biāo)注流程舉例

        表2 電信業(yè)務(wù)大數(shù)據(jù)異構(gòu)關(guān)聯(lián)驗(yàn)證數(shù)據(jù)源情況

        驗(yàn)證結(jié)果如圖7所示。驗(yàn)證生成的自然人ID映射表,包括條目9 374 328條。原始數(shù)據(jù)77.76億條,可標(biāo)識(shí)數(shù)據(jù)77.76億條,標(biāo)識(shí)率為100%。由于移動(dòng)DPI數(shù)據(jù)的關(guān)鍵字為手機(jī)號(hào)碼,所以標(biāo)識(shí)率較高。

        6 結(jié)束語(yǔ)

        運(yùn)營(yíng)商作為數(shù)據(jù)密集型企業(yè),有豐富的大數(shù)據(jù)資源。然而這些數(shù)據(jù)資源分布在多個(gè)相互獨(dú)立的系統(tǒng)中,存在多源異構(gòu)情況,數(shù)據(jù)相互獨(dú)立,互不關(guān)聯(lián),所以數(shù)據(jù)價(jià)值未被充分挖掘。本文提出了基于異構(gòu)關(guān)聯(lián)的大數(shù)據(jù)處理方法,可以實(shí)現(xiàn)不同數(shù)據(jù)間的內(nèi)容匹配,從而提升數(shù)據(jù)價(jià)值密度,為后續(xù)高質(zhì)量的數(shù)據(jù)挖掘打下基礎(chǔ)。

        圖7 移動(dòng)DPI數(shù)據(jù)自然人ID映射表驗(yàn)證結(jié)果

        [1] 李秋靜, 葉云. 電信大數(shù)據(jù)解決方案及實(shí)踐[J]. 中興通訊技術(shù), 2013, 19(4): 39-41.

        LI Q J, YE Y. Telco big-data solution and experience[J]. ZTE Technology Journal, 2013, 19(4): 39-41.

        [2] 童曉渝, 張?jiān)朴? 房秉毅, 等. 大數(shù)據(jù)時(shí)代電信運(yùn)營(yíng)商的機(jī)遇[J]. 通信信息技術(shù), 2013(1): 5-9.

        TONG X Y, ZHANG Y Y, FANG B Y, et al. Opportunities and strategies to adopt big data for telecom operators[J]. Information and Communications Technologies, 2013(1):5-9.

        [3] 韓晶, 張智江, 王健全, 等. 面向統(tǒng)一運(yùn)營(yíng)的電信運(yùn)營(yíng)商大數(shù)據(jù)戰(zhàn)略[J]. 電信科學(xué), 2014, 30(11): 154-158.

        HAN J, ZHANG Z J, WANG J Q, et al. The unified operation-oriented big data strategy for telecom operators [J]. Telecommunications Science, 2014, 30(11): 154-158.

        [4] 沈雷明, 別志銘. 基于電信大數(shù)據(jù)的數(shù)據(jù)建模平臺(tái)研究[J]. 電信科學(xué), 2014, 30(6): 138-141.

        SHEN L M, BIE Z M. Research on data modeling platform based on big data of telecom[J]. Telecommunications Science, 2014, 30(6):138-147

        [5] 靳丹, 張磊, 王洪軍, 等. 基于Hadoop的大數(shù)據(jù)清洗框架設(shè)計(jì)與應(yīng)用[J]. 網(wǎng)絡(luò)新媒體技術(shù), 2015(9):33-38.

        JIN D, ZHANG L, WANG H J, et al. Design and application of Hadoop based data cleaning framework[J]. Journal of Network New Media, 2015(2):5-10.

        Method of improving big data value density based on heterogeneous association

        WANG Shaomin, WANG Zheng

        Shanghai Research Institute of China Telecom Co., Ltd., Shanghai 200122, China

        The big data resources possessed by telecom operators are usually distributed in many different systems, such as DPI、OIDD、CRM. Moreover, the formulation, interpretation and rules of the big data are not always the same in different systems. Therefore, it is difficult to identify and utilize the same object’s multi-type data in different systems.Big data analysis’ sample size and dimension are limited, with the decreasing of analysis results’ reality and accuracy. The methods, architectures and implementation examples of big data’s heterogeneous association were presented. The data fusion in user-dimension from different systems could optimize the data sample space of applications, such as user portrait.Thus, the value of carrier’s big data density was greatly improved.

        big data, telecom service big data, multi-source and heterogeneous, heterogeneous association

        TP393

        A

        10.11959/j.issn.1000?0801.2017341

        2017?11?01;

        2017?12?04

        汪少敏(1983?),女,中國(guó)電信股份有限公司上海研究院工程師,主要研究方向?yàn)榇髷?shù)據(jù)架構(gòu)、數(shù)據(jù)挖掘分析和人工智能技術(shù)。

        王錚(1973?),男,中國(guó)電信股份有限公司上海研究院工程師,人工智能交互團(tuán)隊(duì)負(fù)責(zé)人,主要研究方向?yàn)榇髷?shù)據(jù)架構(gòu)、數(shù)據(jù)挖掘分析和人工智能技術(shù)。

        猜你喜歡
        手機(jī)號(hào)碼關(guān)鍵字異構(gòu)
        本月來(lái)信之最
        試論同課異構(gòu)之“同”與“異”
        履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個(gè)關(guān)鍵字,盤(pán)點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
        “手機(jī)號(hào)碼”繼承公證的可行性及路徑
        法制博覽(2021年4期)2021-11-24 15:03:12
        成功避開(kāi)“關(guān)鍵字”
        基于Tesseract-OCR的快遞單中手機(jī)號(hào)碼識(shí)別應(yīng)用的實(shí)現(xiàn)
        overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
        LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
        在新興異構(gòu)SoCs上集成多種系統(tǒng)
        基于用戶反饋的關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵字查詢系統(tǒng)
        中文字幕人妻乱码在线| 双乳被一左一右吃着动态图| 欧美日韩综合网在线观看| 无套内谢孕妇毛片免费看看| 黑人巨大videos极度另类| 午夜无码亚| 国产人妖伦理视频在线观看| 久久精品国产字幕高潮| 国产做国产爱免费视频| 亚洲中文有码字幕青青| 九九免费在线视频| 国产一线视频在线观看高清| 亚洲一本二区偷拍精品| 国产精品一区二区av麻豆| 国产精品久久久久电影网| 福利一区二区三区视频午夜观看 | 精品天堂色吊丝一区二区| 国产女厕偷窥系列在线视频| 最新国产日韩AV线| 久草热这里只有精品在线| 视频一区中文字幕日韩| 天天躁夜夜躁狠狠是什么心态| 久久99久久99精品免观看| 亚洲无AV码一区二区三区| 一区二区日本影院在线观看| 日产国产精品亚洲高清| 女人被男人爽到呻吟的视频| 窝窝影院午夜看片| 视频二区 无码中出| 国产一区二区三区中出| 无码av中文一区二区三区桃花岛| 久久精品久久久久观看99水蜜桃 | 狠狠色狠狠色综合日日不卡| 久久久久久人妻一区精品| 中文字幕乱码亚洲三区| 成 人 免费 在线电影| 国产午夜精品一区二区三区视频| 日韩一区中文字幕在线| 色又黄又爽18禁免费网站现观看| 一本大道无码av天堂| 中文字幕Aⅴ人妻一区二区苍井空 亚洲中文字幕久久精品蜜桃 |