亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)斷層分析在廣播電臺數(shù)據(jù)處理中的應(yīng)用

        2016-11-09 01:11:25夏驕雄周時強
        計算機應(yīng)用與軟件 2016年9期
        關(guān)鍵詞:用戶分析檢測

        徐 俊 夏驕雄 周時強

        1(上海廣播電視臺技術(shù)運營中心 上海 200051)2(上海大學(xué)計算機工程與科學(xué)學(xué)院 上海 200444)3(上海市教育委員會信息中心 上海 200003)

        ?

        數(shù)據(jù)斷層分析在廣播電臺數(shù)據(jù)處理中的應(yīng)用

        徐俊1,2夏驕雄2,3周時強2

        1(上海廣播電視臺技術(shù)運營中心上海 200051)2(上海大學(xué)計算機工程與科學(xué)學(xué)院上海 200444)3(上海市教育委員會信息中心上海 200003)

        隨著大數(shù)據(jù)技術(shù)的不斷升溫,數(shù)據(jù)斷層現(xiàn)象的分析與處理已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域重要的方式與手段。數(shù)據(jù)斷層理論作為描述數(shù)據(jù)對象之間發(fā)生局部位移趨勢的分析理論,對于數(shù)據(jù)預(yù)處理過程具有十分重要的指導(dǎo)性意義。在初步描述數(shù)據(jù)斷層理論基本概念的基礎(chǔ)上,以上?!皠痈?01”音樂電臺的移動客戶端應(yīng)用日志數(shù)據(jù)為例,構(gòu)建數(shù)據(jù)斷層理論分析系統(tǒng)來處理電臺數(shù)據(jù)中所存在的數(shù)據(jù)斷層現(xiàn)象,提高了數(shù)據(jù)對象預(yù)處理的質(zhì)量,得到了有效的電臺決策輔助信息,從而充分說明了數(shù)據(jù)斷層理論的科學(xué)性和有效性,為進一步研究奠定了堅實基礎(chǔ)。

        數(shù)據(jù)斷層數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理日志數(shù)據(jù)分析移動客戶端應(yīng)用

        0 引 言

        在大數(shù)據(jù)時代,眾多信息的迅速傳播正由平面媒體轉(zhuǎn)向以互聯(lián)網(wǎng)為代表的先進移動終端媒體[1]。通過把握這一契機,在手機、平板電腦等移動設(shè)備平臺上開發(fā)一系列應(yīng)用程序,并通過網(wǎng)絡(luò)載體主動地推送到用戶面前,將極大提高人們獲取有用信息的效率。用戶訪問應(yīng)用時,服務(wù)器將產(chǎn)生大量的日志文件,包括用戶的IP地址、訪問時間、終端類型號等。對于這些日志文件進行數(shù)據(jù)挖掘,可以得到日志數(shù)據(jù)的總體特征,及時掌握與日志文件產(chǎn)生有關(guān)的應(yīng)用程序使用情況,并可以進一步預(yù)測該應(yīng)用程序未來的發(fā)展趨勢,從而為決策支持提供支撐[2,3]。

        與應(yīng)用程序配套的日志文件信息是按照一定格式存儲的,屬于半結(jié)構(gòu)化的數(shù)據(jù),其中包含著一些不完整的、冗余的、錯誤的數(shù)據(jù)。同時,根據(jù)不同用戶的需求,也有可能存在大量的不相關(guān)數(shù)據(jù)。這些數(shù)據(jù)造成了數(shù)據(jù)斷層現(xiàn)象,對數(shù)據(jù)挖掘的準確性有著一定的負面影響[4]。因此,對這類數(shù)據(jù)斷層進行分析和處理,是更好獲取應(yīng)用程序使用情況的有效途徑。

        1 數(shù)據(jù)斷層

        文獻[5]結(jié)合大數(shù)據(jù)環(huán)境,借鑒地質(zhì)學(xué)的理論,首次在數(shù)據(jù)挖掘領(lǐng)域提出數(shù)據(jù)斷層的理論體系。通過數(shù)據(jù)斷層剖面的分析,系統(tǒng)闡述了數(shù)據(jù)預(yù)處理過程中的數(shù)據(jù)斷層現(xiàn)象,并給出數(shù)據(jù)斷層在顯隱斷層、內(nèi)間斷層之間相互轉(zhuǎn)化的規(guī)則和算法。初步說明了數(shù)據(jù)斷層理論體系的基礎(chǔ)。

        定義1數(shù)據(jù)斷層大數(shù)據(jù)環(huán)境中,各個數(shù)據(jù)對象之間的性質(zhì)隨著各種主題、結(jié)構(gòu)、時效屬性等維度變化而變化所產(chǎn)生相關(guān)性描述的具體表象,稱為數(shù)據(jù)斷層。

        按照不同的分類原則,數(shù)據(jù)斷層有不同的分類。根據(jù)數(shù)據(jù)斷層的表現(xiàn)形式,可以將其劃分為數(shù)據(jù)顯斷層和數(shù)據(jù)隱斷層。

        定義2數(shù)據(jù)顯斷層相對于大數(shù)據(jù)環(huán)境,常存在于數(shù)據(jù)庫與數(shù)據(jù)庫之間,受到主題、結(jié)構(gòu)、時效等因素影響而發(fā)生變化的數(shù)據(jù)斷層稱為數(shù)據(jù)顯斷層。

        定義3數(shù)據(jù)隱斷層相對于大數(shù)據(jù)環(huán)境,常存在于數(shù)據(jù)庫內(nèi)部,受到結(jié)構(gòu)、成分、數(shù)據(jù)關(guān)系等因素影響而發(fā)生變化的數(shù)據(jù)斷層稱為數(shù)據(jù)隱斷層。

        本文引入數(shù)據(jù)庫中的孔隙定義,用于描述造成顯斷層的問題數(shù)據(jù)對象。

        定義4孔隙數(shù)據(jù)庫中存在的各種無關(guān)用戶主題的異常數(shù)據(jù)對象,包括噪聲數(shù)據(jù)對象、空白數(shù)據(jù)對象、重復(fù)數(shù)據(jù)對象等,統(tǒng)稱為孔隙。

        定義5孔隙度某一特定主題的數(shù)據(jù)資源中,存在的孔隙數(shù)量與數(shù)據(jù)對象總數(shù)量之間的比值,稱為孔隙度。

        孔隙度反映數(shù)據(jù)資源中數(shù)據(jù)對象關(guān)于特定主題的緊密程度。顯然,孔隙度越小,數(shù)據(jù)質(zhì)量越高。事實上,實際應(yīng)用中的數(shù)據(jù)庫所包含的孔隙往往不能完全被消除,在數(shù)據(jù)對象不斷更新的情況下,對孔隙的處理只能以盡可能地減少孔隙為目標,從而減小孔隙對數(shù)據(jù)對象分析的影響。為了進行正常的數(shù)據(jù)分析和處理工作,必須對數(shù)據(jù)庫進行孔隙檢測,剔除盡可能多的孔隙。

        定義6數(shù)據(jù)壓實了減小孔隙對數(shù)據(jù)分析結(jié)果的影響而對數(shù)據(jù)對象進行各種處理操作的過程,包括處理空白數(shù)據(jù)對象、轉(zhuǎn)換格式不一致的數(shù)據(jù)對象、刪除重復(fù)數(shù)據(jù)對象等,稱為數(shù)據(jù)壓實。

        同樣,對于隱斷層數(shù)據(jù)對象,可以將其提取出來進行分析;若是無用數(shù)據(jù)對象,則需要使用數(shù)據(jù)壓溶技術(shù)對數(shù)據(jù)對象進行處理。

        定義7數(shù)據(jù)壓溶對與用戶需求不相關(guān)的數(shù)據(jù)進行處理得到有用信息的過程稱為數(shù)據(jù)壓溶。

        2 應(yīng)用背景

        廣播電臺是公共媒介的一種重要表現(xiàn)形式。通常情況下,人們收聽電臺廣播都是通過傳統(tǒng)方式(即利用無線電波向一定區(qū)域的聽眾傳送聲音節(jié)目信號方式),利用收音機等設(shè)備接收信號[6]。20世紀90年末期,通過互聯(lián)網(wǎng)收聽廣播電臺節(jié)目的方式應(yīng)運而生[7]。只要在能夠訪問互聯(lián)網(wǎng)的地方,用戶就能夠在計算機或者各種先進移動終端上收聽到全世界范圍內(nèi)的廣播電臺節(jié)目。

        本文以“全亞洲頂尖華語音樂電臺”——上海“動感101”移動客戶端為例,研究用戶訪問的日志數(shù)據(jù),構(gòu)建數(shù)據(jù)斷層理論分析系統(tǒng)來分析并處理日志中存在的數(shù)據(jù)斷層,獲取有關(guān)決策支持信息。

        “動感101”自1992年以來,一直是上海市收聽率第一的電臺。進入移動互聯(lián)網(wǎng)時代,“動感101”也于2011年9月與時俱進地推出了移動客戶終端應(yīng)用程序(如圖1所示)。移動終端用戶可以通過Android或IOS系統(tǒng)的移動設(shè)備訪問該應(yīng)用程序,不僅可以隨時隨地地收聽廣播節(jié)目,更融合了錄音、歌曲查詢、一鍵互動、在線評論等一系列實用功能。

        圖1 “動感101”應(yīng)用程序界面

        數(shù)據(jù)斷層理論分析系統(tǒng)的數(shù)據(jù)來源于“動感101”電臺移動客戶端的日志訪問記錄,分別從IP為222.XXX.YYY.167、222.XXX.YYY.207、222.XXX.YYY.208三臺服務(wù)器下載用戶訪問的日志信息。選取從2012年5月28日0時到2012年6月3日24時的日志數(shù)據(jù)用于分析,日志文件大小為3.63 GB。日志文件中每條記錄分別為一個切片,每個切片代表用戶訪問了十秒鐘的時長。

        日志文件分析主要是通過分析日志數(shù)據(jù),獲得用戶的行為模式和各種數(shù)據(jù)資源之間的關(guān)聯(lián)關(guān)系,以便了解用戶對哪些數(shù)據(jù)資源比較感興趣。然后根據(jù)數(shù)據(jù)挖掘的結(jié)果來預(yù)測未來發(fā)展趨勢及行為,做出前瞻性決策,改善服務(wù)器的性能,提高服務(wù)質(zhì)量[8]。

        通過數(shù)據(jù)斷層理論分析系統(tǒng)對電臺日志文件進行分析,不僅可以掌握用戶收聽“動感101”的情況,而且可以針對現(xiàn)有情況做出調(diào)整,從而提高電臺客戶端的實用價值和廣播節(jié)目的收聽率。分析日志數(shù)據(jù)必然涉及統(tǒng)計數(shù)據(jù)環(huán)節(jié),本文案例中需要統(tǒng)計的信息主要有三個方面:一周內(nèi)每天收聽節(jié)目的總時長和聽眾人數(shù);一周內(nèi)每天收聽觀眾的地區(qū)分布情況;一周內(nèi)每個時段的收聽總時長和聽眾人數(shù)。

        3 數(shù)據(jù)斷層理論分析系統(tǒng)構(gòu)建

        針對“動感101”電臺日志文件數(shù)據(jù)的特點和用戶的實際需求,數(shù)據(jù)斷層理論分析系統(tǒng)設(shè)計了如圖2所示的總體結(jié)構(gòu)圖。主要分為四個模塊,即日志集中模塊、日志存儲模塊、日志處理模塊和日志分析模塊。系統(tǒng)主要在日志處理模塊和日志分析模塊中對顯斷層和隱斷層的數(shù)據(jù)進行重點分析。

        圖2 數(shù)據(jù)斷層理論分析系統(tǒng)的具體架構(gòu)

        在日志集中模塊、日志存儲模塊和日志處理模塊主要使用C#和SQL Server數(shù)據(jù)庫方式實現(xiàn)數(shù)據(jù)存儲、處理算法和數(shù)據(jù)統(tǒng)計等功能。在日志分析模塊結(jié)合Excel、Matlab等工具進行分析。通過使用多種工具,較好地完成了利用移動客戶端收聽“動感101”電臺節(jié)目日志文件數(shù)據(jù)對象的數(shù)據(jù)斷層分析和處理工作。

        用戶利用移動客戶端收聽“動感101”電臺節(jié)目時,用戶的移動設(shè)備會自動連接到一個虛擬的IP地址。虛擬IP地址接受到用戶的請求后,根據(jù)各服務(wù)器的負載量,“動感101”電臺負載均衡LVS(Linux Virtual Server)選擇調(diào)度算法,將用戶的請求路由連接到最適合的服務(wù)器上。

        移動客戶端收聽“動感101”電臺節(jié)目的原始日志數(shù)據(jù)數(shù)量巨大,涉及十個以上的數(shù)據(jù)屬性,但是并不是所有的數(shù)據(jù)屬性都屬于日志數(shù)據(jù)分析的范疇。為了減小存儲空間,在日志數(shù)據(jù)文件導(dǎo)入SQL Server數(shù)據(jù)庫的過程中,數(shù)據(jù)斷層理論分析系統(tǒng)只選擇了部分數(shù)據(jù)屬性(如表1所示選擇了五個數(shù)據(jù)屬性),按照固定格式制作規(guī)范化文檔。然后在導(dǎo)入程序中引用格式文檔,導(dǎo)入后的數(shù)據(jù)狀態(tài)可以由半結(jié)構(gòu)化狀態(tài)轉(zhuǎn)化為結(jié)構(gòu)化狀態(tài),實現(xiàn)了數(shù)據(jù)屬性的約簡。這樣不僅有利于對日志數(shù)據(jù)的管理,而且為后續(xù)的數(shù)據(jù)處理和分析提供了極大的便利條件。

        表1 SQL Server數(shù)據(jù)庫中數(shù)據(jù)屬性所表示的含義

        數(shù)據(jù)斷層理論分析系統(tǒng)的SQL Server數(shù)據(jù)庫中,按照服務(wù)器的不同可以分為三個數(shù)據(jù)對象集合。三臺服務(wù)器的數(shù)據(jù)對象按照格式化文檔導(dǎo)入,有相同的格式,所以三個數(shù)據(jù)對象集合在屬性上是相同的,且都屬于同一主題的數(shù)據(jù)庫,消除了宏觀數(shù)據(jù)斷層中結(jié)構(gòu)不一致的問題。但在數(shù)據(jù)數(shù)量和數(shù)據(jù)內(nèi)容上仍然存在差異,屬于微觀數(shù)據(jù)斷層范疇。

        4 數(shù)據(jù)顯斷層的分析與處理

        日志處理模塊主要采用數(shù)據(jù)斷層理論的四種處理方法,即孔隙檢測、數(shù)據(jù)壓實、隱斷層檢測和數(shù)據(jù)壓溶。對顯斷層數(shù)據(jù)和隱斷層數(shù)據(jù)的檢測和處理并無嚴格意義上的先后順序,但是為了保證顯斷層數(shù)據(jù)的處理不會影響隱斷層數(shù)據(jù)分析結(jié)果的準確性。因此,數(shù)據(jù)斷層理論分析系統(tǒng)采用“先處理顯斷層數(shù)據(jù),后分析隱斷層數(shù)據(jù)”的模式。

        顯斷層數(shù)據(jù)分析分為孔隙檢測和數(shù)據(jù)壓實兩個步驟。

        4.1孔隙檢測的處理與分析

        數(shù)據(jù)斷層理論分析系統(tǒng)按照以下步驟對孔隙進行檢測。

        1) 以其中一臺服務(wù)器的數(shù)據(jù)對象集合為樣本例,按照日期將整個數(shù)據(jù)對象集合分為7個分區(qū),分別命名為{p1,p2,…,p7},其中p1代表2012年5月28日的日志數(shù)據(jù),依次類推。

        2) 對分區(qū)內(nèi)的所有數(shù)據(jù)對象進行層次聚類。

        (1) 將分區(qū)內(nèi)的每個數(shù)據(jù)對象看作一個類,若兩個數(shù)據(jù)對象的值相等,則直接歸并為一類,否則計算各類之間的相關(guān)能。由于數(shù)據(jù)對象屬于非數(shù)值型數(shù)據(jù),所以按照文本的長度作為計算能量的標準。

        (2) 將相關(guān)能最大且滿足閾值條件的兩類歸并為一類,不滿足閾值條件的歸為另一類。

        (3) 重新計算新類和其他類之間的相關(guān)能。

        (4) 重復(fù)執(zhí)行步驟(2)和步驟(3),直到分區(qū)內(nèi)所有數(shù)據(jù)對象都經(jīng)過閾值條件驗證為止。

        3) 若經(jīng)過步驟2)的層次聚類后的分區(qū)只有一個類,則該分區(qū)不包含異常數(shù)據(jù),將該分區(qū)剪除。

        4) 在剩余的分區(qū)內(nèi)重復(fù)步驟2)和步驟3),直到7個分區(qū)都被檢測,保留存在異常數(shù)據(jù)的分區(qū)作進一步分析和處理。

        一般情況下,若分區(qū)越多,則執(zhí)行這樣步驟的孔隙檢測方法的效率將越高。數(shù)據(jù)斷層理論分析系統(tǒng)對移動客戶端收聽“動感101”電臺節(jié)目的原始日志數(shù)據(jù)按日期分區(qū),每天的數(shù)據(jù)數(shù)量巨大,且每個分區(qū)都存在孔隙,所以沒有剪除分區(qū)操作。

        通過孔隙檢測,數(shù)據(jù)斷層理論分析系統(tǒng)實驗數(shù)據(jù)的孔隙主要有三種。

        一是缺失數(shù)據(jù)。在數(shù)據(jù)屬性ts中,存在部分記錄顯示為空,此類記錄為訪問內(nèi)部IP地址222.XXX.YYY.168,并沒有下載或上傳任何信息。

        二是噪聲數(shù)據(jù)。在數(shù)據(jù)屬性mobile中,存在部分記錄顯示為LiveRadioEncoder,該記錄為內(nèi)部編碼器向服務(wù)器發(fā)送音頻切片文件的訪問記錄;另外還有部分記錄顯示為ChinaCache,這些記錄對數(shù)據(jù)對象集合而言是一種噪聲數(shù)據(jù)。

        三是重復(fù)數(shù)據(jù)。數(shù)據(jù)庫中每個數(shù)據(jù)屬性都相同的記錄屬于重復(fù)數(shù)據(jù),多見于訪問頁面的記錄,而下載ts流量的重復(fù)數(shù)據(jù)相對較少。

        由以上分析可知,影響數(shù)據(jù)質(zhì)量的訪問記錄大多數(shù)產(chǎn)生于內(nèi)部IP地址對應(yīng)用程序的訪問,所以在數(shù)據(jù)統(tǒng)計和分析之前需要對這些孔隙進行相應(yīng)的處理。

        存儲的日志數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù),相對于半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)而言,存在的顯斷層數(shù)據(jù)比較少。在數(shù)據(jù)斷層理論分析系統(tǒng)中,通過孔隙檢測檢測出來的孔隙,三臺服務(wù)器一周的總孔隙數(shù)量達到1 902 949條記錄,相對于總切片數(shù)量20 867 199條記錄來說,孔隙度大約在9%左右。

        通過統(tǒng)計每一天的孔隙度,可以在一定程度上了解電臺日志數(shù)據(jù)的訪問情況。在數(shù)據(jù)斷層理論分析系統(tǒng)中,工作日(2012年5月28日至2012年6月1日)的日志數(shù)據(jù)孔隙度結(jié)果如圖3所示,維持在比較穩(wěn)定的水平,在8%~10%之間波動,而周末兩天(2012年6月2日至2012年6月3日)的孔隙度明顯提高。這說明在內(nèi)部系統(tǒng)對應(yīng)用程序訪問量不變的情況下,用戶對應(yīng)用程序的訪問量減少,從而導(dǎo)致孔隙度增加。針對以上各種孔隙類型,結(jié)合數(shù)據(jù)斷層理論分析系統(tǒng)的實驗需求,需要對孔隙進行數(shù)據(jù)壓實操作。

        圖3 電臺數(shù)據(jù)的孔隙度

        4.2數(shù)據(jù)壓實的處理與分析

        缺失數(shù)據(jù)和噪聲數(shù)據(jù)主要是由應(yīng)用程序內(nèi)部訪問服務(wù)器所產(chǎn)生的。不同IP地址代表不同的用戶,但相同IP地址未必是同一用戶,所以重復(fù)數(shù)據(jù)可能是因為多個設(shè)備收聽節(jié)目時使用的是同一個公網(wǎng)IP地址,基于端口轉(zhuǎn)換的NAT、代理、防火墻等都有可能導(dǎo)致多個用戶使用同一個公網(wǎng)IP地址進行訪問。根據(jù)以上分析,數(shù)據(jù)斷層理論分析系統(tǒng)的數(shù)據(jù)壓實步驟中主要采用刪除的方法,便可以較好地處理數(shù)據(jù)顯斷層。

        數(shù)據(jù)斷層理論分析系統(tǒng)中顯斷層分析系統(tǒng)界面如圖4所示,選擇需要處理的時間段和服務(wù)器,然后按照孔隙檢測方法執(zhí)行檢測,最后對孔隙進行數(shù)據(jù)壓實操作。

        圖4 顯斷層分析界面

        5 數(shù)據(jù)隱斷層的分析與處理

        完成顯斷層數(shù)據(jù)的處理,日志處理模塊將對隱斷層數(shù)據(jù)進行分析和處理。隱斷層數(shù)據(jù)分析分為隱斷層檢測和數(shù)據(jù)壓溶兩個步驟。

        5.1隱斷層檢測的處理與分析

        數(shù)據(jù)對象集合中存在的隱斷層數(shù)據(jù)隨著用戶需求的不同而會有不同的結(jié)果。根據(jù)“動感101”電臺的需求,數(shù)據(jù)斷層理論分析系統(tǒng)中需要檢測的隱斷層類型主要有四種:

        第一種為確定用戶收聽情況時,不是從服務(wù)器下載ts流量的記錄不屬于分析范圍;

        第二種為北京時間2:00-6:00屬于“動感101”電臺停播時間段,此段時間數(shù)據(jù)記錄屬于隱斷層數(shù)據(jù);

        第三種為檢測服務(wù)器發(fā)生故障、主持人變更等突發(fā)狀況發(fā)生時產(chǎn)生的隱斷層數(shù)據(jù);

        第四種為檢測用戶的地區(qū)分布差異引起的隱斷層數(shù)據(jù)。

        針對以上四種隱斷層類型檢測內(nèi)容,需要制定不同的檢測方法。簡單的隱斷層數(shù)據(jù)不需要算法便可以檢測出來;有的隱斷層數(shù)據(jù)則需要通過計算其信息熵,再與用戶閾值條件進行比較才能確定隱斷層的實際狀態(tài)。例如:通過觀察法可知,第一種隱斷層數(shù)據(jù)還包括網(wǎng)頁訪問和圖片下載的記錄;第二種隱斷層數(shù)據(jù)就是停播時間段內(nèi)的數(shù)據(jù);第三種和第四種隱斷層數(shù)據(jù)的發(fā)現(xiàn)相對復(fù)雜,需要一系列步驟進行檢測。

        1) 用戶地區(qū)分布差異的獲取

        數(shù)據(jù)斷層理論分析系統(tǒng)以第四種隱斷層數(shù)據(jù)為例,設(shè)計移動客戶端收聽“動感101”電臺節(jié)目地區(qū)分析系統(tǒng),展示隱斷層數(shù)據(jù)檢測的方法。將一周內(nèi)訪問“動感101”電臺應(yīng)用程序的IP地址做無重復(fù)的數(shù)據(jù)統(tǒng)計,可以獲得一周的用戶人數(shù),將這些數(shù)據(jù)對象看作一個數(shù)據(jù)空間,對數(shù)據(jù)空間里的所有數(shù)據(jù)對象通過統(tǒng)計、計算信息熵和斷層概率的方法進行隱斷層檢測。

        由于“動感101”在不同地區(qū)的知名度并不一樣,所以用戶的地區(qū)分布必然存在著差異性。地域相差較遠的不同省市之間存在數(shù)據(jù)斷層是一種客觀現(xiàn)象,而數(shù)據(jù)斷層理論分析系統(tǒng)通過處理方法檢測數(shù)據(jù)斷層是針對同一區(qū)域內(nèi)的。所以需要先對數(shù)據(jù)對象進行分區(qū),然后逐步細化分析,最后確定隱斷層數(shù)據(jù)產(chǎn)生的原因。

        (1) 匯總需要檢測的數(shù)據(jù)對象

        本文實驗以中國地區(qū)的數(shù)據(jù)對象為主要研究對象,所以需要對國外訪問的數(shù)據(jù)對象進行溶蝕操作,即提取每天不重復(fù)的IP地址,查詢其歸屬地區(qū),然后將國外的訪問記錄分離出去。

        (2) 統(tǒng)計IP地址數(shù)量

        圖5是數(shù)據(jù)斷層理論分析系統(tǒng)實驗數(shù)據(jù)所在的一周內(nèi)每天訪問服務(wù)器的IP地址數(shù)量。在這一周內(nèi)數(shù)據(jù)波動并不顯著,初步可以看出前四天的IP地址數(shù)量比較平衡地微微增加,周四達到最高值,而周末兩天訪問IP地址的數(shù)量明顯下降。這種變化與人們的生活作息習慣、周末電臺節(jié)目的變化等多種因素密切相關(guān)。

        圖5 一周內(nèi)每天訪問IP數(shù)量圖

        由于中國地區(qū)數(shù)量較多,每個地區(qū)依次分析需要投入較大的工作量。因此數(shù)據(jù)斷層理論分析系統(tǒng)根據(jù)“數(shù)據(jù)空間進行初步分區(qū)”的思想,采取先對IP地址按地區(qū)分為多個集合,然后進行統(tǒng)計和分析。由于“動感101”是屬于上海的電臺,其在傳統(tǒng)收聽模式下的知名度和支持度就較高,上海的用戶眾多是必然的。另外,江蘇和浙江與上海毗鄰,“動感101”節(jié)目在江蘇和浙江的用戶數(shù)也不在少數(shù)。所以東部沿海地區(qū)的用戶數(shù)量遠遠高于其他地區(qū)也屬正常情況,并進而導(dǎo)致東部沿海地區(qū)與其他地區(qū)之間在用戶數(shù)量上產(chǎn)生了明顯的斷層。

        2) 用戶地區(qū)斷層分布的獲取

        盡管通過分析可以判斷出東部沿海地區(qū)數(shù)據(jù)存在著斷層,但并不是所有的案例都有如此明顯的數(shù)據(jù)特征。所以必須通過科學(xué)方法來計算與驗證,增強說服力,進一步反映數(shù)據(jù)斷層的狀態(tài)。數(shù)據(jù)斷層理論分析系統(tǒng)采取的方法是:先根據(jù)定義計算各個地區(qū)集合的信息熵,找出斷層最為顯著的地區(qū);然后計算該地區(qū)內(nèi)各個數(shù)據(jù)對象的斷層概率,確定數(shù)據(jù)斷層數(shù)據(jù)所對應(yīng)的省份;最后分析該省存在數(shù)據(jù)斷層的原因。

        (1) 計算各地區(qū)集合的信息熵

        圖6 地區(qū)分析程序界面

        (2) 計算集合對象的斷層概率

        通過計算各地區(qū)集合的信息熵從而確定了數(shù)據(jù)斷層存在的區(qū)域之后,需要進一步追蹤該區(qū)域的重點數(shù)據(jù)對象,獲得相應(yīng)的斷層概率分布。在確定東部沿海地區(qū)是存在數(shù)據(jù)斷層的地區(qū)之后,追蹤東部沿海地區(qū)所包含的城市,查看IP地址數(shù)量,獲得各個省市的斷層概率。例如:上海市的用戶人數(shù)為24 895人,斷層概率為0.5302;浙江省的用戶人數(shù)為1286人,斷層概率為0.2887;江蘇省的用戶人數(shù)為2648人,斷層概率為0.2415等。

        5.2數(shù)據(jù)壓溶的處理與分析

        根據(jù)實際情況,不同的隱斷層有著不同的處理方式。有的隱斷層正好是被分析的數(shù)據(jù)對象,有的隱斷層則需要進行數(shù)據(jù)壓溶處理。對于以用戶分布情況為例的隱斷層檢測結(jié)果,由于電臺方面的需求只為了解分布情況和哪些地區(qū)存在斷層情況,所以并不需要進行數(shù)據(jù)壓溶。

        通常情況下,圍繞系統(tǒng)用戶的需求,類似案例中可能需要進行數(shù)據(jù)壓溶的處理內(nèi)容主要有三方面。

        一是那些不是ts流的數(shù)據(jù)對象。因為圍繞統(tǒng)計用戶收聽時間的需求,訪問頁面的aspx相關(guān)內(nèi)容并不在分析范圍之內(nèi),只需要統(tǒng)計用戶從服務(wù)器下載的ts流數(shù)據(jù)即可。

        二是處理那些收聽不超過10秒的切片。因為若某條記錄在連續(xù)時間里只出現(xiàn)一次,訪問應(yīng)用的時間不超過10秒,很可能是用戶操作失誤或無意訪問應(yīng)用造成的。這些數(shù)據(jù)信息會對統(tǒng)計結(jié)果產(chǎn)生一定的誤差,不利于有用信息的獲取。

        三是處理那些每天停播時間段的數(shù)據(jù)對象。因為北京時間凌晨兩點到六點是沒有節(jié)目的,而這段時間內(nèi)若存在大量數(shù)據(jù)對象,則需要將這些數(shù)據(jù)對象單獨提取出來進行分析。

        6 統(tǒng)計數(shù)據(jù)結(jié)果的斷層分析與處理

        經(jīng)過斷層處理的數(shù)據(jù)對象相比原始數(shù)據(jù)對象而言,其數(shù)量將明顯減少,而且會更加符合用戶需求,對這些數(shù)據(jù)對象進行分析得出的結(jié)果將有助于得到更加準確的信息。對于不同的需求,有著不同的統(tǒng)計結(jié)果數(shù)據(jù)斷層分析思路。針對數(shù)據(jù)斷層理論分析系統(tǒng)而言,斷層分析的主要需求包括三個方面。

        6.1每天的ts切片數(shù)量和IP數(shù)量

        通過數(shù)據(jù)斷層理論分析系統(tǒng)統(tǒng)計每天的ts切片數(shù)量和IP數(shù)量,可以計算出收聽的總時長和平均收聽時長。

        為了對比斷層處理后的數(shù)據(jù)對象與原始數(shù)據(jù)對象之間的差別,通過統(tǒng)計原始數(shù)據(jù)對象和斷層處理后數(shù)據(jù)對象的相關(guān)內(nèi)容,得到的結(jié)果如表2和表3所示。

        表2 原始數(shù)據(jù)對象的統(tǒng)計表

        表3 斷層處理后數(shù)據(jù)對象的統(tǒng)計表

        其中,總切片數(shù)是指導(dǎo)入的所有記錄數(shù)量,包括ts切片、aspx切片以及其他記錄數(shù)據(jù);總IP數(shù)是指對所有訪問的IP地址進行的數(shù)量統(tǒng)計;下載(ts)切片數(shù)是指只有下載ts流的記錄數(shù)量統(tǒng)計;收聽IP數(shù)是指下載ts切片的IP地址數(shù)量統(tǒng)計;收聽時長是指ts切片數(shù)的10倍除以3600得到的小時數(shù)。通過分析表2和表3,斷層處理后壓實了孔隙,有助于清楚地了解實際收聽情況。

        6.2每小時的切片數(shù)和收聽時間

        若需要了解每檔節(jié)目的收聽情況,就不可避免地需要統(tǒng)計每小時的數(shù)據(jù)對象。通過對這些數(shù)據(jù)對象一周內(nèi)的波動情況,了解某個節(jié)目的收聽趨勢,從而做出相應(yīng)地調(diào)整。

        通過數(shù)據(jù)斷層理論分析系統(tǒng),可以得到所選的服務(wù)器在00:00-24:00之間每個小時的統(tǒng)計數(shù)據(jù)。一周內(nèi)不同時間段的數(shù)據(jù)是三臺服務(wù)器統(tǒng)計數(shù)據(jù)的總和。因此,分別統(tǒng)計三臺服務(wù)器的數(shù)據(jù),然后進行匯總,得到如表4所示的統(tǒng)計結(jié)果。

        表4中,北京時間22:00-24:00時間段的平均收聽時長占比較低,而在該時間段內(nèi)的收聽時長和用戶(聽眾)數(shù)量卻處于較高水平。這說明總時長增長的比率遠遠趕不上用戶(聽眾)增長的比率,較多的用戶(聽眾)在該時間段內(nèi)通過移動設(shè)備收聽節(jié)目,但收聽時間較短。平均收聽時長占比最高的19:00-20:00區(qū)間上,收聽時長不高,但是用戶(聽眾)人數(shù)明顯下降,所以收聽時長占比反而提高。

        綜合分析表4,在北京時間15:00和23:00左右,用戶通過移動客戶端收聽電臺的收聽時長和用戶(聽眾)數(shù)量達到較高峰。這兩個時間點分別對應(yīng)于接近下班的時間和臨睡覺的時間,人們通過手機等智能移動客戶端設(shè)備收聽電臺,也符合當前人們的生活作息時間。盡管北京時間2:00-6:00是節(jié)目停播時間,但是仍然存在有用戶收聽的情況,原因在于用戶在移動設(shè)備上沒有關(guān)閉動感101的客戶端。即便此時沒有節(jié)目信息,應(yīng)用程序仍然在后臺運行,從服務(wù)器下載的切片處于忙碌狀態(tài)。

        表4 一周不同時間段的統(tǒng)計表

        續(xù)表4

        6.3其他情況

        除了以上情況之外,還存在著其他各種數(shù)據(jù)斷層的情況,例如三臺服務(wù)器出現(xiàn)故障的情況,可能的原因是編碼器到流媒體服務(wù)器的網(wǎng)絡(luò)中斷或者流媒體服務(wù)器服務(wù)中斷。具體在日志文件中會有所體現(xiàn),即一段時間內(nèi)沒有新的ts流文件被下載。但是服務(wù)器出現(xiàn)故障的情況一年不會超過5次,屬于特殊情況,本論文不作詳細分析。

        7 結(jié) 語

        本文以上?!皠痈?01”電臺移動客戶端的日志訪問記錄數(shù)據(jù)為分析對象,構(gòu)建了數(shù)據(jù)斷層理論分析系統(tǒng)。分四個模塊對數(shù)據(jù)對象進行處理和分析,檢測數(shù)據(jù)對象中存在的顯、隱斷層。然后進行數(shù)據(jù)壓實和數(shù)據(jù)壓溶操作,得到高質(zhì)量的數(shù)據(jù)對象。最后針對不同的需求,對數(shù)據(jù)對象進行分析得到有用的決策輔助信息。

        數(shù)據(jù)斷層理論分析系統(tǒng)的具體實踐表明,在廣播電臺數(shù)據(jù)這樣實時性較強的數(shù)據(jù)處理應(yīng)用中,數(shù)據(jù)斷層理論具有較好的科學(xué)性和有效性。

        [1] Yi Sun,Yang Guo,Xiaobing Zhang,et al.The Case for P2P Mobile Video System over Wireless Networks:A Practical Study of Challenges for A Mobile Video Provider[J].IEEE Network,2013,27(2):22-27.

        [2] Francesco Bonchi,Fosca Giannotti,Cristian Gozzi,et al.Web Log Data Warehousing and Mining for Intelligent Web Caching[J].Data and Knowledge Engineering,2001,39(2):165-189.

        [4] 夏驕雄.數(shù)據(jù)資源的聚類預(yù)處理[M].上海:上海科學(xué)普及出版社,2011.

        [5] 夏驕雄,汪晶玲,嚴琛瓊,等.數(shù)據(jù)斷層現(xiàn)象的研究[J].計算機應(yīng)用與軟件,2013,30(8):9-13,77.

        [6] Philippe Perebinossoff,Brian Gross,Lynne Schafer Gross.Programming for TV,Radio,and the Internet:Strategy,development,and evaluation[M].Burlington,MA:Focal Press,2005.

        [7] Gene Youngblood.Secession from the Broadcast:The Internet and the Crisis of Social Control[J].Millennium Film Journal,2013(58):174-189.

        [8] Naga Lakshmi,Raja Sekhara Rao,Sai Satyanarayana Reddy.An Overview of Preprocessing on Web Log Data for Web Usage Analysis[J].International Journal of Innovative Technology and Exploring Engineering,2013,2(4):274-279.

        APPLICATION OF DATA FAULTAGE ANALYSIS IN RADIO DATA PROCESSING

        Xu Jun1,2Xia Jiaoxiong2,3Zhou Shiqiang2

        1(Technical Center,Radio and Television Shanghai,Shanghai 200051,China)2(SchoolofComputerEngineeringandScience,ShanghaiUniversity,Shanghai200444,China)3(InformationCentre,ShanghaiMunicipalEducationCommission,Shanghai200003,China)

        With the increasing heating up of big data,analysis and process on data faultage phenomena has become the important ways and means in data mining field.Data faultage theory,as the analysis theory describing the tendency of partial displacement between data objects,has the extremely instructive significance on data preprocessing.Based on the preliminary description on the rationale of data faultage theory,we took the log data of mobile client application on “Shanghai Music Radio FM 101.7” as an example and built an analysis system of data faultage theory to deal with the data faultage phenomena in radio log data so as to improve the quality of data objects preprocessing,and gained the effective auxiliary information of radio decision-making.Therefore,the scientific property and effectiveness of data faultage theory are fully explained,this lays the sound foundation for further studies.

        Data faultageData miningData preprocessingLog data analysisMobile client application

        2015-04-06。國家自然科學(xué)基金項目(40976108,61303097);上海市重點學(xué)科建設(shè)項目(J50103);上海大學(xué)研究生創(chuàng)新基金項目(SHUCX070037,SHUCX120105)。徐俊,工程師,主研領(lǐng)域:數(shù)據(jù)挖掘,智能決策支持系統(tǒng)。夏驕雄,研究員。周時強,助理工程師。

        TP311.131G202

        A

        10.3969/j.issn.1000-386x.2016.09.009

        猜你喜歡
        用戶分析檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        隱蔽失效適航要求符合性驗證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        小波變換在PCB缺陷檢測中的應(yīng)用
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        午夜无码国产理论在线| 日韩av中文字幕少妇精品| 亚洲av狠狠爱一区二区三区| 麻豆91蜜桃传媒在线观看| 把女邻居弄到潮喷的性经历| 久久久久亚洲av无码网站| 永久免费的拍拍拍网站| 日本乱熟人妻中文字幕乱码69 | 亚洲狠狠婷婷综合久久| 草莓视频中文字幕人妻系列| 亚洲av成熟国产精品一区二区| 五月天激情电影| 99蜜桃在线观看免费视频网站| 日本一区二区三区中文字幕最新 | 日韩av一区二区观看| 国产白袜脚足j棉袜在线观看| 欧美成人免费高清视频| 国产一区二区三区视频了| 国产精品网站91九色| 免费无遮挡禁18污污网站| 国产夫妻av| 激情视频在线播放一区二区三区 | 大屁股人妻女教师撅着屁股| 在线中文字幕有码中文| 美女露屁股无内裤视频| 午夜国产视频一区二区三区| 亚洲女初尝黑人巨高清| 国产91色在线|亚洲| 91青青草手机在线视频| 久久婷婷五月综合色丁香| 国产精品无码日韩欧| 亚洲人妻中文字幕在线视频| 亚洲成人av在线蜜桃| 国产精成人品日日拍夜夜免费| 久久国产热精品波多野结衣av| 在线观看免费视频发布白白色| 成人片黄网站a毛片免费| 香蕉久久久久久久av网站| 国产av一区二区凹凸精品| 亚洲av少妇高潮喷水在线| 99精品人妻少妇一区二区|