亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web日志挖掘中的數(shù)據(jù)預(yù)處理研究

        2018-09-10 07:45:59于琦
        河南科技 2018年19期
        關(guān)鍵詞:數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘

        于琦

        摘 要:本文首先在“信息爆炸”的時(shí)代背景下提出數(shù)據(jù)挖掘和Web數(shù)據(jù)挖掘的重要性,然后針對(duì)Web日志挖掘詳細(xì)討論了其數(shù)據(jù)預(yù)處理的主要步驟及其過程方法,最后闡述了Web日志挖掘在網(wǎng)站建設(shè)上的應(yīng)用,為后繼研究提供了參考。

        關(guān)鍵詞:數(shù)據(jù)挖掘;Web日志挖掘;數(shù)據(jù)預(yù)處理

        中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2018)19-0018-03

        Research of Data Preprocessing Method for Web Log Mining

        YU Qi

        (Library, Henan University of Economics and Law,Zhengzhou Henan 450046)

        Abstract: In this paper, the importance of data mining and Web data mining was proposed in the background of "information explosion", and then the main steps and process methods of Web log mining were discussed in detail. Finally, the application of Web log mining in website construction was expounded, which provided a reference for future research.

        Keywords: data mining ; Web log mining; data preprocessing

        1 研究背景

        在過去的十年左右,人們利用信息技術(shù)生產(chǎn)和收集數(shù)據(jù)的能力大大提高。許多數(shù)據(jù)庫已被用于商業(yè)管理、科學(xué)研究和工程開發(fā)等領(lǐng)域,這一勢頭將繼續(xù)增長。但同時(shí),過量的信息也成了每個(gè)人都需要面對(duì)的問題,如何從繁雜的信息中及時(shí)發(fā)現(xiàn)有用信息并提高信息的利用率成為基亟待解決的主要問題。因此,面對(duì)這種情況,數(shù)據(jù)挖掘(Data Mining)技術(shù)應(yīng)運(yùn)而生,且迅猛發(fā)展,呈現(xiàn)出越來越強(qiáng)勁的生命力。數(shù)據(jù)挖掘[1]是從大量的、不完整的、嘈雜的、模糊的和隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含的、但潛在有用的信息和知識(shí)。

        Web挖掘[2]是一種數(shù)據(jù)挖掘,指的是使用數(shù)據(jù)挖掘技術(shù)來發(fā)現(xiàn)WWW數(shù)據(jù)中潛在的、有用的模式或信息。Web挖掘研究涵蓋了許多研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和人工智能中的神經(jīng)網(wǎng)絡(luò)。Web挖掘可以分為三類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘[3]。Web使用模式挖掘是指Web使用挖掘,主要是挖掘網(wǎng)站訪問日志和用戶訪問模式[4]。其可以提取設(shè)計(jì)者的領(lǐng)域知識(shí)、用戶的興趣水平和用戶的訪問習(xí)慣等,并獲得個(gè)性化服務(wù)、用戶訪問控制等對(duì)網(wǎng)站設(shè)計(jì)者和運(yùn)營商有用的決定性信息。本文主要討論Web日志挖掘預(yù)處理的主要步驟及其處理方法,希望能為相關(guān)人員提供一些參考。

        2 Web日志挖掘預(yù)處理的主要步驟

        Web日志挖掘主要分為3個(gè)步驟[5]。

        2.1 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清洗和事務(wù)識(shí)別。其中,數(shù)據(jù)清洗包括無關(guān)記錄的剔除、判斷 是否有重要的記錄未被記錄、用戶識(shí)別等。事務(wù)識(shí)別是指將頁面訪問序列劃分為表示W(wǎng)eb事務(wù)或用戶會(huì)話的邏輯單元。數(shù)據(jù)預(yù)處理階段根據(jù)挖掘的目的,對(duì)原始Web日志文件中的數(shù)據(jù)進(jìn)行提取、分解和合并,最后轉(zhuǎn)換成適合數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存在關(guān)系數(shù)據(jù)庫表或數(shù)據(jù)倉庫中,等待進(jìn)一步處理。

        2.2 模式識(shí)別

        運(yùn)用各種算法對(duì)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。

        2.3 模式分析

        分析用戶訪問模式以提取有價(jià)值模式的過程。數(shù)據(jù)預(yù)處理是整個(gè)過程的基礎(chǔ),也是實(shí)施有效挖掘算法的前提,其在Web日志挖掘中扮演著非常重要的角色。原始日志文件是一個(gè)簡單的平面文本文件,包括了一些需要處理的不完整的、冗余的和錯(cuò)誤的數(shù)據(jù),若不對(duì)其進(jìn)行處理,將直接影響挖掘效果。另外,還需要實(shí)施一些OLAP分析和挖掘算法,同時(shí)依靠規(guī)范化的數(shù)據(jù)源,因此還需要調(diào)整數(shù)據(jù)存儲(chǔ)格式以適應(yīng)所使用的挖掘方法。

        3 Web日志挖掘的預(yù)處理過程及方法

        目前,市場上流行的Web服務(wù)器(如IIS、Apache等)通常為每次訪問網(wǎng)頁時(shí)保存了日志條目,其忠實(shí)地記錄訪問Web服務(wù)器的數(shù)據(jù)流信息[6]。日志文件可以根據(jù)客戶的不同需求調(diào)整記錄哪些信息。數(shù)據(jù)預(yù)處理是非常關(guān)鍵的一步,根據(jù)不同的情況和業(yè)務(wù),所需要的數(shù)據(jù)是從海量原始數(shù)據(jù)中提取的,同時(shí)處理一些不完整的數(shù)據(jù)。Web日志挖掘的數(shù)據(jù)預(yù)處理包括依賴于域的數(shù)據(jù)清理、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充和事務(wù)處理識(shí)別[6]。預(yù)處理日志的結(jié)果直接影響挖掘算法生成的規(guī)則和模式。因此,預(yù)處理過程是保證Web使用挖掘質(zhì)量的關(guān)鍵。

        數(shù)據(jù)預(yù)處理是將日志文件轉(zhuǎn)換為數(shù)據(jù)庫文件的工作。其目的是將網(wǎng)絡(luò)日志數(shù)據(jù)轉(zhuǎn)換為適合數(shù)據(jù)挖掘的精確數(shù)據(jù)。結(jié)合數(shù)據(jù)挖掘中遇到的問題,可以將預(yù)處理過程分為以下步驟[7](如圖1所示)。

        分析用戶訪問網(wǎng)站的方式對(duì)為網(wǎng)站安排邏輯結(jié)構(gòu)和制定有效的營銷策略具有重要的意義。由于WWW網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn),每個(gè)網(wǎng)站的物理拓?fù)浣Y(jié)構(gòu)和用戶的訪問方法都不相同,且很難確定Web日志中的用戶、會(huì)話或事務(wù)。因此,為了確保挖掘算法的有效性,Web日志需要進(jìn)行預(yù)處理。日志預(yù)處理步驟如下。

        3.1 數(shù)據(jù)清理

        數(shù)據(jù)清理是指根據(jù)需求處理日志文件,包括刪除不相關(guān)的數(shù)據(jù),合并某些記錄以及在用戶請(qǐng)求頁面時(shí)正確處理錯(cuò)誤。

        數(shù)據(jù)預(yù)處理的主要任務(wù)是數(shù)據(jù)清理。在分析任何形式的網(wǎng)絡(luò)日志過程中,清除服務(wù)器日志中的無關(guān)數(shù)據(jù)非常關(guān)鍵。只有當(dāng)服務(wù)器日志中表示的數(shù)據(jù)能準(zhǔn)確反映用戶對(duì)Web站點(diǎn)的訪問時(shí),通過挖掘獲得的關(guān)聯(lián)規(guī)則才真正有用。工作人員可以定義默認(rèn)規(guī)則庫來幫助刪除記錄,并且可以根據(jù)所分析網(wǎng)站的類型修改此規(guī)則庫。網(wǎng)站可以分為普通網(wǎng)站、圖片網(wǎng)站和視頻網(wǎng)站等,相應(yīng)的規(guī)則庫可以單獨(dú)建立。在清理過程中,應(yīng)確定要分析的網(wǎng)站類型,并根據(jù)這些網(wǎng)站的規(guī)則庫進(jìn)行數(shù)據(jù)清理。當(dāng)然,也可以根據(jù)需要修改規(guī)則庫。

        3.2 用戶識(shí)別

        由于本地緩存、代理服務(wù)器和防火墻的存在,有效識(shí)別用戶的任務(wù)變得非常復(fù)雜:不同的用戶通過簡單的代理同時(shí)訪問Web服務(wù)器;同一個(gè)用戶可以在別的機(jī)器上訪問Web服務(wù)器;用戶可以使用不同的瀏覽器訪問同一臺(tái)計(jì)算機(jī)上的Web服務(wù)器。當(dāng)不同用戶使用同一臺(tái)機(jī)器瀏覽網(wǎng)站時(shí)會(huì)造成混亂。為此,筆者提出以下啟發(fā)式規(guī)則來識(shí)別用戶[8]。①不同的IP地址代表不同的用戶。②當(dāng)IP地址相同時(shí),默認(rèn)不同的操作系統(tǒng)或?yàn)g覽器代表不同的用戶。③在IP地址相同,用戶使用的操作系統(tǒng)和瀏覽器也相同的情況下,則判斷每一個(gè)請(qǐng)求訪問的頁面與訪問過的頁面之間是否有鏈接。如果一個(gè)請(qǐng)求訪問的頁面與上一個(gè)已經(jīng)訪問過的頁面之間并沒有直接鏈接,則假設(shè)在訪問Web站點(diǎn)的機(jī)器上同時(shí)存在多個(gè)用戶。

        一般采用的方法是基于日志站點(diǎn)的方法,還可以使用一些啟發(fā)性規(guī)則,但使用這些規(guī)則難以保證準(zhǔn)確識(shí)別用戶,因此用戶識(shí)別是個(gè)難題。

        3.3 會(huì)話標(biāo)識(shí)

        用戶會(huì)話是指用戶對(duì)服務(wù)器的有效訪問,通過其不斷請(qǐng)求的頁面,用戶可以獲得在網(wǎng)站上的訪問行為和瀏覽興趣。在跨越相對(duì)較大的時(shí)區(qū)的Web服務(wù)器日志中,用戶可能會(huì)多次訪問該站點(diǎn)。會(huì)話ID的目的是將用戶的訪問日志分成單個(gè)會(huì)話[9]。最簡單的方法是運(yùn)用超時(shí)技術(shù),如果兩頁之間的時(shí)間差超過某個(gè)閾值,則假定用戶開始新的會(huì)話。

        3.4 路徑補(bǔ)充

        識(shí)別用戶會(huì)話過程中的另一個(gè)問題是確定訪問日志中的重要請(qǐng)求是否存在未被記錄的情況。這需要路徑補(bǔ)充來完成這些記錄。路徑補(bǔ)充的目的是完成未記錄在訪問日志中的用戶記錄并獲取用戶的完整訪問路徑,以便更準(zhǔn)確地發(fā)現(xiàn)用戶的訪問模式。檢查參考信息以確定當(dāng)前請(qǐng)求來自哪個(gè)頁面。如果用戶的歷史訪問記錄中有多個(gè)頁面包含指向當(dāng)前請(qǐng)求頁面的鏈接,則將請(qǐng)求時(shí)間最接近當(dāng)前請(qǐng)求頁的頁面作為當(dāng)前請(qǐng)求的來源。如果參考信息不完整,則可以使用站點(diǎn)拓?fù)鋄10]。

        3.5 事務(wù)的識(shí)別

        在Web日志挖掘領(lǐng)域,用戶會(huì)話是唯一具備自然事務(wù)特征的對(duì)象,但其需要特定的算法將用戶會(huì)話分割為更小的事務(wù)。劃分事務(wù)的主要方法是引用時(shí)長和最大前向引用。

        3.5.1 引用時(shí)長。網(wǎng)頁可以簡單地分為2類:內(nèi)容頁面和導(dǎo)航頁面[11]。當(dāng)頁面中超鏈接的數(shù)量達(dá)到一定數(shù)量時(shí),可以將其視為導(dǎo)航頁面,這是一種靜態(tài)分割方法。內(nèi)容頁面通常是用戶關(guān)心的信息,瀏覽時(shí)間長。導(dǎo)航頁面是用戶設(shè)置的快速查找所需信息的坐標(biāo),瀏覽時(shí)間短。通過估計(jì)整個(gè)日志中輔助頁面的比例,可以使用最大似然估計(jì)算法來劃分輔助頁面和內(nèi)容頁面的劃分時(shí)間。通過比較來劃分時(shí)間,頁面可以分成內(nèi)容頁面或?qū)Ш巾撁妫@些頁面被劃分成不同的事物。

        3.5.2 最大前向引用。有時(shí),一些頁面會(huì)包含更多的超鏈接,這些是用戶關(guān)心的信息。但是,其被用作內(nèi)容頁面。在這種情況下,事務(wù)可以由Chen[12]等人提出的最大前向參考路徑(簡稱MFP)來定義。對(duì)于每個(gè)用戶會(huì)話,從起始頁面開始,每個(gè)最大的前向參考路徑是一個(gè)事務(wù)。當(dāng)出現(xiàn)前向指引時(shí),開始新的事務(wù)。

        3.6 內(nèi)容和結(jié)構(gòu)數(shù)據(jù)的預(yù)處理

        內(nèi)容和結(jié)構(gòu)數(shù)據(jù)的預(yù)處理基于特定的應(yīng)用程序,將Web頁面中文本、圖像、腳本和超鏈接轉(zhuǎn)換為Web使用挖掘的格式。例如,根據(jù)網(wǎng)頁的文本內(nèi)容,描述與頁面相關(guān)的概念主題,用于網(wǎng)頁的聚類[13],根據(jù)網(wǎng)頁間的超鏈接信息構(gòu)造網(wǎng)站的拓?fù)浣Y(jié)構(gòu)圖,用于識(shí)別用戶。

        4 結(jié)語

        本文主要討論Web日志挖掘中數(shù)據(jù)預(yù)處理的主要步驟及其方法和技術(shù),這在挖掘過程中起著重要的作用,數(shù)據(jù)預(yù)處理的質(zhì)量將直接影響最終的挖掘效率和結(jié)果。由于網(wǎng)站的復(fù)雜性和用戶訪問模式的諸多不確定性,數(shù)據(jù)預(yù)處理技術(shù)仍不完善,有待改進(jìn)。例如,數(shù)據(jù)采集機(jī)制和開發(fā)技術(shù)變得更加可行,用戶識(shí)別和會(huì)話識(shí)別的準(zhǔn)確性進(jìn)一步提高,算法的時(shí)間復(fù)雜度和空間復(fù)雜度需要進(jìn)一步降低。這些問題的解決將為后續(xù)的模式發(fā)現(xiàn)和模式分析提供真實(shí)和完整的數(shù)據(jù)。

        參考文獻(xiàn):

        [1]李雄飛,李軍.數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)[M].北京:高等教育出版社,2003.

        [2]劉立軍,周軍,梅紅巖.Web使用挖掘的數(shù)據(jù)預(yù)處理[J].計(jì)算機(jī)科學(xué),2007(5):200-201.

        [3]劉斌,陳樺.向量空間模型信息檢索技術(shù)討論[J].情報(bào)雜志,2006(7):92-93.

        [4]Jetal S. Web Usage Mining: Discovery and Application of Usage Patterns from Web Data[J].SIGKDD Explorations,2000(2):12-20.

        [5]童恒慶,梅清.Web日志挖掘數(shù)據(jù)預(yù)處理研究[J].現(xiàn)代計(jì)算機(jī),2004(3):6-9.

        [6]劉立軍,周軍,梅紅巖.Web使用挖掘的數(shù)據(jù)預(yù)處理[J].計(jì)算機(jī)科學(xué),2007(5):200-201.

        [7]李烈彪,張海鵬,周亞峰.Web日志挖掘中數(shù)據(jù)預(yù)處理方法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007(7):45-48.

        [8]張健沛,劉建東,楊靜.基于Web的日志挖掘數(shù)據(jù)預(yù)處理方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2003(10):191-193.

        [9]何黎明.Web日志的預(yù)處理技術(shù)[J].長江大學(xué)學(xué)報(bào)(自科版),2007(2):310-311.

        [10] Cooley R,Mobasher B,Srivastava J. Data Preparation for Min-ing World Wide Web Browsing Patterns[J]. Journal of Knowl-edge and Information Systems,1999(1):5-32.

        [10] Chen MS, Park J S, Yu PS.Data Mining for Path Traversal Pat-terns[A]//In: Proc.of the 16th Intl Confon Distributed Compu-ting System[C].Hong Kong,1996.

        [12]Perkowitz M,Etzioni O. Towards Adaptive Web sites: Conceptual Framework and Case Study[J]. Computer Networks,1999(11–16):1245-1258.

        [13]Perkowitz M. Adaptive Web Sites : Automatically Synthesizing Web Pages[C]// Proc. National Conference on Artificial Intelligence, Madison. 1998:727-732.

        猜你喜歡
        數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于小轎車車門拉手的逆向建模設(shè)計(jì)
        科技視界(2016年27期)2017-03-14 22:45:40
        自動(dòng)氣象站數(shù)據(jù)預(yù)處理方法
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        芻議電力系統(tǒng)規(guī)劃設(shè)計(jì)在電力工程設(shè)計(jì)中的應(yīng)用
        中國市場(2016年41期)2016-11-28 05:30:48
        慢性乙肝癥狀與生物信息相關(guān)性的數(shù)據(jù)挖掘研究
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        中醫(yī)方劑數(shù)據(jù)庫文本挖掘數(shù)據(jù)預(yù)處理的嘗試
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        国产精品一区二区三区在线观看 | 中文字幕日韩精品永久在线| 国产av一区二区亚洲精品| 无遮掩无码h成人av动漫| 人人爽人人澡人人人妻| 四虎影院在线观看| 国产午夜精品久久久久| 国产精品国产三级农村妇女| 国产在线观看自拍av| 小辣椒福利视频导航| 性动态图av无码专区| 国产未成女年一区二区| 少妇人妻偷人中文字幕| 经典三级免费看片天堂| 91精品国产福利在线观看麻豆| 久久人妻少妇嫩草av| 中国老熟妇自拍hd发布| 8av国产精品爽爽ⅴa在线观看| 日本一区二区三区专区 | av香港经典三级级 在线| 日韩丝袜亚洲国产欧美一区| 亚洲免费看三级黄网站| 三级日韩视频在线观看| 成人爽a毛片免费视频| 无码精品a∨在线观看| 91最新免费观看在线| 精品人妻夜夜爽一区二区| 中文字幕av长濑麻美| 久久国产精品偷任你爽任你 | 日本二区三区在线免费| 蜜臀久久99精品久久久久久| 婷婷五月六月综合缴情| 日韩精品国产自在欧美| 精品国产车一区二区三区| 男女射黄视频网站在线免费观看| 欧美日韩精品久久久免费观看| 亚洲精品国精品久久99热一| 国产好片日本一区二区三区四区 | 欧美丰满熟妇aaaaa片| 免费大学生国产在线观看p| 男人天堂插插综合搜索|