亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機上無線局域網(wǎng)用戶行為分析

        2013-06-09 12:36:10顧兆軍趙億王雙
        中國民航大學(xué)學(xué)報 2013年3期
        關(guān)鍵詞:關(guān)鍵字日志頁面

        顧兆軍,趙億,王雙

        (中國民航大學(xué)計算機科學(xué)與技術(shù)學(xué)院,天津300300)

        機上無線局域網(wǎng)用戶行為分析

        顧兆軍,趙億,王雙

        (中國民航大學(xué)計算機科學(xué)與技術(shù)學(xué)院,天津300300)

        隨著無線網(wǎng)絡(luò)的普及,用戶的上網(wǎng)行為分析已經(jīng)成為各單位提高服務(wù)質(zhì)量、增長收益的重要途徑。概述了Web日志挖掘的相關(guān)概念、方法和步驟。針對機上無線局域網(wǎng)的用戶訪問行為,對用戶訪問日志進(jìn)行預(yù)處理,由日志中的旅客座位信息所關(guān)聯(lián)到的旅客基本信息來確定旅客類別,通過計算分析用戶的訪問興趣度,最終得出不同類別旅客的訪問興趣分布。

        Web日志挖掘;旅客分類;訪問興趣

        目前,某航空公司推出了北京—成都的首架無線局域網(wǎng)航班,使乘客可在飛機上通過手提或掌上電腦進(jìn)行網(wǎng)上活動。至今,此架航班已通過無線局域網(wǎng)向旅客提供各類娛樂、商務(wù)和社交活動。鑒于Web挖掘技術(shù)在諸如電子商務(wù)等領(lǐng)域的成功應(yīng)用及帶來的巨大收益,如何從機上旅客的大量上網(wǎng)日志數(shù)據(jù)中挖掘出有意義的用戶訪問模式,以提高旅客滿意度、增加收益已經(jīng)越來越重要。根據(jù)客戶群體的劃分,對向知音卡會員,尤其是金卡會員、白金卡會員提供個性化服務(wù)是提高收益的關(guān)鍵。針對該問題提出了基于高空旅客上網(wǎng)的Web挖掘應(yīng)用方案。

        隨著Web挖掘技術(shù)的發(fā)展,根據(jù)挖掘?qū)ο蟮牟煌蓪⑼诰蚣夹g(shù)劃分為三類,分別為:基于Web內(nèi)容的挖掘、基于Web結(jié)構(gòu)的挖掘和基于Web服務(wù)器日志文件的挖掘。Web內(nèi)容挖掘是指對Web頁面內(nèi)容進(jìn)行挖掘,從海量的Web內(nèi)容、文檔和數(shù)據(jù)信息中發(fā)現(xiàn)并抽取潛在而有價值的信息和知識;Web結(jié)構(gòu)挖掘是從Web文檔的鏈接結(jié)構(gòu)信息挖掘有用模式,從中抽取有用知識;Web日志挖掘通常是從用戶的Web瀏覽日志中發(fā)現(xiàn)用戶群體的相似瀏覽行為和相似興趣,以及某個特定用戶的瀏覽習(xí)慣和興趣愛好等,從而為用戶提供個性化的信息服務(wù),改進(jìn)服務(wù)器的性能和結(jié)構(gòu)。其中,Web服務(wù)器日志作為日志挖掘的主要數(shù)據(jù)來源,記錄了大量用戶的頁面訪問信息,體現(xiàn)了用戶使用Web資源的行為特點,以及隱藏在行為背后的更深層次的動因和規(guī)律。本文將主要闡述Web日志挖掘的基本概念、步驟和過程,并以挖掘Web服務(wù)器日志信息為實例,討論分析機上的用戶構(gòu)成和訪問興趣[1]。

        1 Web日志挖掘

        Web日志指存儲于服務(wù)器端,明確記錄了客戶訪問和交互信息的日志文件。通常,可供分析的文件包括服務(wù)器訪問日志、錯誤日志、Cookie日志等。Web日志挖掘的目的主要是分析站點性能,理解客戶意圖,改進(jìn)站點內(nèi)容。常用的技術(shù)有序列模式分析、分類與聚類分析、路徑分析等[2]。Web日志具體的挖掘過程由以下幾個步驟組成:①數(shù)據(jù)收集處理過程是對服務(wù)器日志文件中的數(shù)據(jù)記錄進(jìn)行篩選,通過對日志數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、用戶識別、用戶會話識別和路徑補充等,來消除數(shù)據(jù)的不完整性、噪聲和不一致性。②模式發(fā)現(xiàn)過程是利用相應(yīng)的挖掘技術(shù),如路徑分析、關(guān)聯(lián)規(guī)則、序列模式和聚類等對挖掘?qū)ο筮M(jìn)行分析,產(chǎn)生相應(yīng)的規(guī)則和發(fā)現(xiàn)模式。③模式分析過程是利用可視化技術(shù),針對所產(chǎn)生的規(guī)則和相應(yīng)的發(fā)現(xiàn)模式,將挖掘結(jié)果通過顯示界面呈現(xiàn)給用戶,同時分析并評估結(jié)果。

        對機上旅客的上網(wǎng)行為分析,包含對Web日志記錄進(jìn)行挖掘,同時結(jié)合客戶信息完成對客戶群的劃分。最終對機上使用無線局域網(wǎng)的用戶行為進(jìn)行分析,評估機載無線局域網(wǎng)的旅客使用情況,調(diào)研航空旅客上網(wǎng)需求,綜合考慮投資與回報。

        2 數(shù)據(jù)預(yù)處理

        Web日志通常包含用戶對網(wǎng)站的訪問信息,但是由于不同的服務(wù)器對日志的記錄不同,所以需要將原始數(shù)據(jù)整理成所需要的用戶數(shù)據(jù)庫。但由于各種原因,Web日志中存在很多不完整或者錯誤的記錄數(shù)據(jù),這些數(shù)據(jù)不但對后續(xù)的挖掘無用,還會增加處理的復(fù)雜性,產(chǎn)生嚴(yán)重的后果,所以需要對原始數(shù)據(jù)進(jìn)行預(yù)處理,以消除噪聲,保持?jǐn)?shù)據(jù)的完整性,提高挖掘質(zhì)量。預(yù)處理過程一般包括數(shù)據(jù)清理、用戶識別、會話識別、路徑補充、事務(wù)識別五個過程[2-3]。

        2.1 數(shù)據(jù)清理

        Web原始日志數(shù)據(jù)中包括用戶IP地址、請求訪問的URL頁面、訪問時間等屬性。這些屬性記錄有些不完整,冗余甚至錯誤。數(shù)據(jù)清洗就是刪除Web日志記錄中不相關(guān)的數(shù)據(jù),以得到適宜挖掘的可靠數(shù)據(jù)。通常,可以根據(jù)以下3個方面對日志數(shù)據(jù)進(jìn)行清洗[4]:①URL擴(kuò)展名:刪除不能反映用戶直接請求的記錄。如gif、jpeg、GIF、JPEG、jpg、JPG等所對應(yīng)的記錄和一些如“count.cgi”的通用腳本。但是對于一些包含圖片的Web站點,gif和jpeg文件后綴名不僅能直接反映用戶的請求,還有助于流量分析,這時就保留。②動作:GET動作是用戶請求頁面的動作,刪除客戶請求方法(cs-method)中不是GET的記錄。③狀態(tài)碼:刪除sc-status中顯示出錯的記錄,也就是清除協(xié)議狀態(tài)為400-599的日志記錄。如表1所示。

        表1 數(shù)據(jù)凈化后的Web日志Tab.1Results of Web log by data cleaning

        2.2 用戶識別

        現(xiàn)有PNR(passenger name record)旅客訂座記錄,反映旅客的航班信息及旅客信息,如表2所示。其中一些字段用于本文用戶的身份識別,如利用座位號PSR_VIR_SEAT信息與終端服務(wù)設(shè)備的網(wǎng)絡(luò)地址關(guān)聯(lián),根據(jù)有關(guān)部門提供的客戶終端網(wǎng)絡(luò)地址、航班、座位號間關(guān)聯(lián)檔案,可分析并確定客戶群體。

        Web日志記錄中,鑒于會有不同乘客通過不同機器訪問不同的服務(wù)器,或同一乘客在同一機器上通過不同瀏覽器瀏覽站點等情況的發(fā)生。需要通過用戶識別整理出不同的乘客,以用于機上無線網(wǎng)日志記錄中座位號信息與基本信息的關(guān)聯(lián)。通常采用以下方法進(jìn)行識別:①登陸請求中的座位號信息不同視為不同用戶;②IP地址不同視為不同用戶;③IP地址相同但瀏覽器版本不同視為不同用戶;③IP地址和瀏覽器版本相同,但訪問頁面序列網(wǎng)絡(luò)拓?fù)洳粯?gòu)成通路視為不同用戶。如表3所示。

        表2 旅客信息Tab.2Passenger information

        表3 用戶識別結(jié)果Tab.3Results of user identification

        2.3 會話識別

        用戶識別后,需將每個用戶的訪問序列進(jìn)行分解,得到相應(yīng)會話,即挖掘出用戶在一次會話訪問期間從進(jìn)入該網(wǎng)站到離開該網(wǎng)站的一系列訪問活動。如表4所示。

        表4 會話識別表Tab.4User session table

        2.4 路徑補充

        代理服務(wù)器和用戶端頁面緩存技術(shù)的使用,會造成日志中的用戶訪問路徑記錄不完整,甚至最終導(dǎo)致挖掘結(jié)果不準(zhǔn)確,不全面。因此,需要對用戶訪問路徑的訪問前后頁進(jìn)行判斷,補全訪問路徑,確保日志記錄的完整性。

        2.5 事務(wù)識別

        經(jīng)過前面預(yù)處理步驟所得到的用戶會話集合具備自然事務(wù)特征,但仍不夠精確。因此,利用分割算法將其轉(zhuǎn)化為更小的事務(wù),即對用戶的每一次訪問操作序列集合進(jìn)行語義分組,最終得到頁面序列。

        通過以上步驟進(jìn)行預(yù)處理,得到需要的用戶會話集,為之后的挖掘做準(zhǔn)備。

        3 用戶分析

        隨著無線網(wǎng)絡(luò)的普及,正確理解乘客對信息的需求和興趣,針對不同乘客群體提供個性化服務(wù),是提高旅客滿意度的關(guān)鍵。分析乘客的網(wǎng)絡(luò)活動行為是解決這一問題的重要途徑之一。目前,對用戶行為分析的研究方法主要有聚類算法、關(guān)聯(lián)規(guī)則算法、路徑算法、相似性算法等[5-6]。

        經(jīng)過研究發(fā)現(xiàn),機上乘客訪問網(wǎng)頁時通常遵循如下規(guī)律:①用戶一般從服務(wù)首頁進(jìn)入(即頁面0),然后按照不同的路徑深入訪問;②每個頁面包含關(guān)鍵字,該關(guān)鍵字包含了服務(wù)內(nèi)容和主題;③用戶在感興趣的訪問頁面停留時間較長。

        單例的訪問情況可反映該乘客的訪問特性,通過對一定數(shù)量的用戶訪問情況疊加可反映出這群體乘客的訪問特性。根據(jù)這一論述,在已有的相關(guān)算法基礎(chǔ)上,本文展開了對機上個體與群體乘客的訪問興趣的研究。

        3.1 相關(guān)定義

        定義1頁面的關(guān)鍵字集合K。關(guān)鍵字ki是對某個頁面的概括描述,一個頁面可以包含一個或多個關(guān)鍵字。用戶訪問頁面的興趣和偏好可以通過該頁面的關(guān)鍵字表征

        定義2Web站點的模型G:一個Web站點的拓?fù)浣Y(jié)構(gòu)就是一副具有如下式的有向圖

        其中:P為Web頁面的集合;H為頁面之間的超鏈接集合;K為每個頁面的關(guān)鍵字的集合。

        定義3一個用戶μ所訪問關(guān)鍵字集合TKμ。用戶訪問集合是由該用戶所訪問的頁面構(gòu)成

        而每個頁面pi可以由一組關(guān)鍵字集合K表征,由此可得到簡化的用戶訪問集合

        定義4用戶訪問一個pn頁面的關(guān)鍵字集合TKμ(pn)。如果pn是用戶第n個訪問的頁面,那么通過pn頁面的用戶訪問關(guān)鍵字集合為

        定義5用戶訪問pn頁面的關(guān)鍵字支持度supportμ(pn,ki):一個通過pn頁面的用戶訪問關(guān)鍵字集合TKμ(pn)中,用戶對某關(guān)鍵字ki的訪問次數(shù)。

        定義6一個通過pn頁面的用戶訪問關(guān)鍵字支持度集合KSμ(pn):一個通過pn頁面的用戶訪問關(guān)鍵字集合TKμ(pn)中,某一個用戶所訪問的關(guān)鍵字和訪問該關(guān)鍵字的訪問次數(shù)構(gòu)成的集合,M為Web頁面關(guān)鍵字的總數(shù)

        定義7用戶訪問pn頁面的關(guān)鍵字時長集合lengthμ(pn,kj):設(shè)定一個用戶對一個頁面的訪問時長為lengthμ(pn),且該頁面有f個關(guān)鍵字,k1,k2,…,kf,則該用戶對關(guān)鍵字kj的訪問時間長度為

        在某個用戶μ所訪問關(guān)鍵字集合TKμ中,用戶對一個關(guān)鍵字kj訪問的總時長sumμ(pn,kj)為

        定義8用戶訪問興趣集合Iμ(pn)。在某個用戶μ所訪問關(guān)鍵字集合TKμ中,該用戶所訪問的關(guān)鍵字、訪問該關(guān)鍵字的次數(shù)、訪問該關(guān)鍵字總時長所構(gòu)成的集合組成(假定整個站定的關(guān)鍵字總數(shù)為M個)

        一個用戶pn頁面的興趣集Iμ(pn),可反映出該用戶對于頁面各個關(guān)鍵字的興趣分布情況

        如果對樣本內(nèi)所有用戶頁面的興趣集進(jìn)行疊加,可以反映出樣本用戶對該頁面所有關(guān)鍵字的興趣分布(假定用戶數(shù)目最大為N)

        式(10)與式(11)所反映的用戶興趣分布對比,能夠反映出個體與群體乘客在某頁面或某站點的興趣分布。

        在分析初始階段,根據(jù)初始化階段獲取到的旅客信息,將乘客群體按商務(wù)、休閑旅客進(jìn)行分類,并將頁面及對應(yīng)關(guān)鍵字集合按照網(wǎng)站進(jìn)行分類?;谏鲜龆x及用戶會話表,對網(wǎng)站的乘客訪問興趣進(jìn)行進(jìn)一步分析。

        3.2 單個用戶的訪問興趣分析

        本文在實驗室環(huán)境下模擬將某航空公司某架次航班某一固定座位號乘客視為單一乘客,在此,對該架次航班一周內(nèi)的乘客上網(wǎng)日志進(jìn)行預(yù)處理,根據(jù)訪問數(shù)據(jù),分析該航班單一乘客的訪問興趣。分析過程:①根據(jù)預(yù)處理后的用戶會話表,分析、抽取得到單一乘客的訪問的關(guān)鍵字集TKμ。②由用戶訪問關(guān)鍵集合,計算用戶訪問關(guān)鍵字支持度suppotrμ(pn,ki);分析并得到用戶訪問關(guān)鍵字支持度集合KSμ(pn)。③計算用戶訪問關(guān)鍵字的總時長sumμ(pn,kj)。③求得該用戶訪問興趣集Iμ(pn),并根據(jù)式(10)計算用戶興趣。

        分析表5~表7可以看出,該用戶偏愛文學(xué)藝術(shù)類圖書,在機上提供的所有網(wǎng)絡(luò)服務(wù)中,對新聞的關(guān)注度最高,同時對機票預(yù)訂、租車、酒店等一些商務(wù)活動也有涉及,初步推斷該用戶為商務(wù)旅客。核查該用戶的座位信息,關(guān)聯(lián)到其基本信息,顯示得出該用戶所在艙位為商務(wù)艙,由此驗證了該方法的有效性。

        表5 各書目的支持度Tab.5Support degree of books

        表6 書目四類關(guān)鍵字的支持度Tab.6Support degree of four key words

        表7 單一用戶興趣分布情況Tab.7Browsing interest of key words of one user

        3.3 群體用戶的訪問興趣分析

        對單個用戶頁面訪問興趣的疊加,能夠反映群體用戶的興趣分布。不同群體間的興趣分布往往會呈現(xiàn)出不同的態(tài)勢,結(jié)果的不同能夠幫助信息提供者針對各類群體提供更為個性化的服務(wù)。根據(jù)座艙將旅客分為商務(wù)旅客和休閑旅客,分析計算一周內(nèi)乘客的網(wǎng)頁訪問情況。統(tǒng)計分析得出的旅客興趣分布結(jié)果記錄在表8中。

        表8 群體用戶興趣分布情況Tab.8Browsing interest of key words of users

        從表8中可以看出,商務(wù)旅客和休閑旅客都最關(guān)注新聞。但是通過結(jié)果比較顯示,休閑旅客更關(guān)注一些娛樂活動,如電影、音樂、圖書等,而對于租車、酒店等一些商務(wù)活動,商務(wù)旅客則相對更為關(guān)注。有關(guān)單位可以根據(jù)這些結(jié)論,了解乘客訪問的熱點,及時調(diào)整信息內(nèi)容,改進(jìn)站點結(jié)構(gòu),為旅客提供更為全面的服務(wù),提高效益。

        4 結(jié)語

        本文對使用機上無線局域網(wǎng)的用戶進(jìn)行Web日志挖掘,通過日志中的座位號信息關(guān)聯(lián)到用戶的基本信息,挖掘出不同分類旅客的訪問內(nèi)容、頻度及興趣分布等,進(jìn)而為旅客提供個性化服務(wù),達(dá)到提高旅客滿意度的目的。本文對某架次航班一周內(nèi)的上網(wǎng)日志信息進(jìn)行挖掘,計算其關(guān)鍵字信息、支持度、訪問時長、興趣集等,最終得出商務(wù)旅客和休閑旅客的興趣分布。該方法簡單易行,能夠反映旅客的瀏覽行為,具有一定的推廣價值。

        [1]HAN JIAWEI,MICHELINE KAMBER.Data Mining Concepts and Techniques[M].2nd ed.Beijing:China Machine Press,2008.

        [2]羅雋,魏品帥,賀貴明.基于UAP-T的網(wǎng)絡(luò)日志挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].計算機應(yīng)用,2003,23(5):55-57.

        [3]趙晶晶.WEB日志挖掘在網(wǎng)站個性化服務(wù)中的應(yīng)用研究[D].大連:大連海事大學(xué),2009.

        [4]郭曉磊.基于WEB日志挖掘的網(wǎng)絡(luò)用戶聚類研究[D].北京:北京郵電大學(xué),2009.

        [5]LIN HAIBIN,VLADO KESELJ.Combined mining of web server logs and web contents for classifying user navigation patterns and predicting users′futurerequests[J].Data&KnowledgeEngineering,2007,61(2):304-330.

        [6]吳進(jìn),宋順林,王迎春.基于頻繁偏愛度的使用模式挖掘算法的研究[J].計算機應(yīng)用,2006,26(10):2425-2429.

        (責(zé)任編輯:楊媛媛)

        Analysis of users′behavior on WLAN of aircraft

        GU Zhao-jun,ZHAO Yi,WANG Shuang
        (College of Computer Science and Techndogy,CAUC,Tianjin 300300,China)

        With the popularity of wireless networks,the analysis of the users′online behavior has become into an important way for all units to improve service quality and increase the benefits of growth.An overview of Web log mining concepts,methods and steps are provided.And to the users′visiting behavior on WLAN of aircraft,we work on the data p-reprocessing.Combining the passengers′seatnumbers with users′basic information,and classifying the passengers into different types.Through calculating and analyzing the users′accessing interests,we finally make a conclusion of the interest distribution of different types.

        Web log mining;passenger classification;browsing interest

        F562

        A

        1674-5590(2013)03-0040-05

        2012-06-15;

        2012-09-08

        中國民用航空局科技基金項目(MHRD201128);中國民航大學(xué)科研基金項目(04-CAUC-06E)

        顧兆軍(1966—),男,山東蓬萊人,教授,博士,研究方向為計算機網(wǎng)絡(luò)與信息安全、搜索引擎、民航信息系統(tǒng).

        猜你喜歡
        關(guān)鍵字日志頁面
        大狗熊在睡覺
        刷新生活的頁面
        履職盡責(zé)求實效 真抓實干勇作為——十個關(guān)鍵字,盤點江蘇統(tǒng)戰(zhàn)的2021
        華人時刊(2022年1期)2022-04-26 13:39:28
        一名老黨員的工作日志
        華人時刊(2021年13期)2021-11-27 09:19:02
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        成功避開“關(guān)鍵字”
        游學(xué)日志
        一種基于粗集和SVM的Web日志挖掘模型
        基于用戶反饋的關(guān)系數(shù)據(jù)庫關(guān)鍵字查詢系統(tǒng)
        同一Word文檔 縱橫頁面并存
        国产人妻鲁鲁一区二区| 久久精品国产成人午夜福利| 麻豆视频在线观看免费在线观看| 亚洲综合一区中文字幕| 岳毛多又紧做起爽| 久久精品波多野结衣中文字幕| 亚洲国产高清在线视频| 男女搞事在线观看视频| 亚洲精品www久久久久久| 亚洲男同志gay 片可播放| 国产成人自拍视频在线免费| 日本高清视频在线观看一区二区 | 最好看2019高清中文字幕视频| 国产精品欧美视频另类专区| 成人国产一区二区三区av| 东京热久久综合久久88| 一群黑人大战亚裔女在线播放| 91尤物在线看| 中文字幕av熟女中文av| 在线天堂www中文| 中文字幕国产欧美| 给我播放的视频在线观看| 亚洲国产中文字幕视频| 思思久久96热在精品国产| 国产成人免费一区二区三区| 精品亚洲国产亚洲国产| 精品人妻大屁股白浆无码| 国产精品久久久久久妇女6080| av无码电影一区二区三区| 日本精品久久不卡一区二区| 亚洲精品www久久久| 无码精品一区二区免费AV| 国产视频一区二区三区免费| 亚洲精品无码不卡在线播he | 男人扒开女人双腿猛进视频| 九九视频在线观看视频6| 人妻少妇av中文字幕乱码免费| 色婷婷久久精品一区二区| 色偷偷av男人的天堂| 亚洲日韩中文字幕在线播放| 国产区一区二区三区性色|