亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談互聯(lián)網公開數(shù)據(jù)挖掘技術

        2018-09-30 06:43:40宋丹
        商情 2018年41期
        關鍵詞:挖掘數(shù)據(jù)技術

        宋丹

        [摘要]本文通過對互聯(lián)網時代背景下數(shù)據(jù)挖掘技術的應用展開分析,包括對其概念,基本分析方法以及數(shù)據(jù)挖掘技術對數(shù)據(jù)的預處理方式等內容,希望能給相關工作人員提供幫助。

        [關鍵詞]互聯(lián)網;數(shù)據(jù);挖掘;技術

        近年來,隨著互聯(lián)網技術的發(fā)展使得更多的用戶能夠充分利用互聯(lián)網來獲取信息,真正實現(xiàn)不出門便知天下事,大數(shù)據(jù)挖掘技術是從多個數(shù)據(jù)中存在一些不完整的應用中,以及較為簡單的應用程序中隨機抽取的,而這些被抽取的數(shù)據(jù)是客觀存在的,并不是人為發(fā)現(xiàn)的。由于單個WEB智能性的缺乏,使得很多用戶只能依靠導航進行信息篩選,這種情況下會使結果的準確性和針對性降低,同時,由于數(shù)據(jù)挖掘技術的完善和深化,使得網站對于系統(tǒng)性能分析的能力有一定程度提高,從而能夠滿足現(xiàn)代互聯(lián)網用戶的使用要求。

        一、數(shù)據(jù)挖掘的概念

        數(shù)據(jù)挖掘最早出現(xiàn)于20世紀80年代,作為一門新興學科來說還沒有得到廣泛用戶的認可。從技術角度來看,數(shù)據(jù)挖掘針對的是較為復雜而且無規(guī)律的數(shù)據(jù)群體,而從商業(yè)化角度來看,數(shù)據(jù)挖掘是指在龐大的數(shù)據(jù)庫中找出信息的規(guī)律性,并進行信息轉化分析,提取有利于商業(yè)決策的信息,通常數(shù)據(jù)挖掘系統(tǒng)包含以下幾方面內容:用戶圖形界面接口,數(shù)據(jù)挖掘引擎,數(shù)據(jù)庫,模式評估,知識儲備庫,數(shù)據(jù)基地等。其中數(shù)據(jù)庫中包含了大量的數(shù)據(jù)和信息,而這些數(shù)據(jù)對于廣大的用戶來說有較大的吸引力;知識儲存庫是一個較為簡單的應用程序,該程序能夠實現(xiàn)知識的評價和進一步探索,進而確定總體模式的意義所在;數(shù)據(jù)挖掘引擎是數(shù)據(jù)挖掘系統(tǒng)中重要的內容,進而能夠實現(xiàn)對數(shù)據(jù)特征,價值,關聯(lián)等方面的分類;模式的評估主要是對數(shù)據(jù)進行評價時能夠應用數(shù)據(jù)挖掘技術進行相關聯(lián),而把數(shù)據(jù)挖掘技術全面應用到系統(tǒng)中;模型的進口是用戶圖形界面接口,這一環(huán)節(jié)能夠便于用戶使用模型,同時能夠利用數(shù)據(jù)挖掘技術實現(xiàn)信息的快速查詢。具體來看,通常WEB服務器每天都會更新日志文件,在一些流量消耗較大的網站中,這些日文件往往要消耗更多的流量,因此為了能夠減少不必要的流量消耗,可以充分應用數(shù)據(jù)挖掘技術來分析處理這些日志文件,對于一些簡單的網站來說,能夠幫助分析WEB日志文件就可以了,但對于一些較大的網站來說,一個網站往往是由多個甚至上百個WEB服務器組成來實現(xiàn)對外服務的,在分析這些日志時,需要采取分布式的數(shù)據(jù)挖掘技術??偠灾?,對于長期產生大量數(shù)據(jù)日志文件的網站來說,可以通過數(shù)據(jù)挖掘技術進行數(shù)據(jù)篩選。

        二、數(shù)據(jù)挖掘技術的分析方法

        數(shù)據(jù)分析是數(shù)據(jù)挖掘過程中最為重要的環(huán)節(jié),只有選擇有效的計算方式才能完成信息數(shù)據(jù)挖掘工作,其中,常用有三種數(shù)據(jù)分析方法:第一種是聚類分析,能夠將物理對象或者抽象對象進行分類整合,將具有相似特征的對象進行深入分析,最終目標是能夠利用詳細的方法做到數(shù)據(jù)分類。聚類分析可以說是對事物規(guī)律的分析,實現(xiàn)對各個領域的智能化學習,可以將聚類分析分為兩種:硬聚類和模糊聚類,前者表示能夠將分析對象劃分到最為接近的類別中,而后者是通過取值范圍來進行對象分析,劃分,甚至可能會出現(xiàn)某一對象存在多個類別的情況;第二種數(shù)據(jù)分析方法是分類和預測,分類顧名思義是針對無排序規(guī)律的標號進行的分類環(huán)節(jié),而預測是將一些連續(xù)值的函數(shù)模型進行預測,其中對于數(shù)據(jù)挖掘技術來說,分類是基礎數(shù)據(jù)挖掘的特征,能夠通過分類表現(xiàn)出來,進而將各個類別的屬性進行劃分,當前常用的計算方法有粗糙集,遺傳算法,決策樹等。此外,預測是在已知的情況下對未來發(fā)展規(guī)律進行有效預測,目前比較常用的是回歸分析,時間序列法等;第三種是關聯(lián)分析法,眾所周知的蝴蝶效應是指自然界的一次微小變動可能會導致另一個大事件的發(fā)生,而關聯(lián)分析是在該規(guī)律的基礎上完成的,一個事件和另外一個事件之間存在一定的關聯(lián)性和依賴性,針對這種規(guī)律性我們展開有效預測,比如日常所使用的購物籃就是通過這種關聯(lián)分析完成的,人們日常購物過程中,我們通過對購物籃中物品的管理規(guī)律進行分析,能夠及時掌握顧客的購買習慣和特點,然后根據(jù)這些數(shù)據(jù)制定營銷方案,通過多種實踐證明,關聯(lián)分析法是十分有效的。

        三、數(shù)據(jù)的預處理

        數(shù)據(jù)的預處理是針對網絡日志中數(shù)據(jù)進行二次加工,在實際加工過程中能夠保存數(shù)據(jù)的原始性。挖掘算法是將數(shù)據(jù)的結構和規(guī)則進行篩選。具體的結構如下所示:WEB日志、數(shù)據(jù)預處理、確定挖掘算法、實現(xiàn)數(shù)據(jù)挖掘、模式設置,在對日志進行數(shù)據(jù)挖掘前需要優(yōu)先處理部分數(shù)據(jù),其中包括數(shù)據(jù)變更,用戶識別,會話識別,路徑補充等。首先在針對數(shù)據(jù)的縮減中,常見的WEB日志數(shù)據(jù)格式有:用戶訪問日期、時間,IP地址,字節(jié)數(shù)量,網頁狀態(tài)等,而由于WEB日志挖掘,其針對用戶行為模式,而常常容易忽略一些沒有請求顯示的界面,比如帶有JPG,GIF等格式的后綴名,這種情況下會對剩余的篩選信息相關性進行更深層次的挖掘。在用戶識別過程中,用戶通常會在系統(tǒng)中設置防火墻,因此,日志中的信息記錄真實度不高,這種情況下會使用戶識別工作復雜,使用啟發(fā)式的規(guī)則能夠有效幫助完成用戶的識別工作,具體存在兩種規(guī)則:首先,系統(tǒng)會假設用戶的IP地址相同,如果代理的游覽器操作系統(tǒng)出現(xiàn)變化時,則表示為不同的用戶;其次第二種規(guī)則也是同樣假設用戶的IP地址相同,如果鏈接頁面同游覽過的頁面沒有相關性,則代表了不同的用戶。從會話識別上來看,最終是為了將用戶的訪問記錄進行有效劃分而形成的單個會話,并將其作為用戶單位,其中如果會話時間超過限定范圍,則系統(tǒng)會默認開始新的會話。從路徑補充上來看,為了能夠減少網絡輸入量,很多游覽器會采用對已訪問的頁面進行緩存,而這種情況下用戶在執(zhí)行返回命令時,系統(tǒng)會顯示出緩存的頁面信息,而WEB服務器無法對訪問信息進行確定,而對PostLOG表中的refer進行檢查時能夠完成確定頁面的工作,但是如果用戶的訪問記錄中包含多個頁面鏈接,則系統(tǒng)會優(yōu)先選擇距離時間較近的鏈接。上述這些方法都是互聯(lián)網日志挖掘數(shù)據(jù)預處理的一些常用手段,主要是能夠使數(shù)據(jù)經過預處理之后更加完整,為之后數(shù)據(jù)挖掘提供基礎,對于經過預處理之后的數(shù)據(jù)信息可以進行用戶識別游覽行為的序列模式。

        對于一些具有復雜結構的分布式互聯(lián)網日志挖掘過程中,這些互聯(lián)網服務器的結構如同大型門戶網站的結構,擁有多個互聯(lián)網服務器日志文件,分別儲存在不同的服務器上,這種分布式結構通常會采用多代理技術進行解決。代理最初源于分布式人工智能領域,之后被用于其他計算機領域中,是指在一定的運行環(huán)境下能夠實現(xiàn)自主運行,包含承諾,信念,意圖等精神,使其具有反應性、能動性、社會性等特點。多代理就是通過多個代理互相協(xié)作完成復雜目標的,雖然相比單代理來說,在解決實際問題方面的能力較強,而且從數(shù)據(jù)分布和計算過程來看,是可以實現(xiàn)異步并行的。將多代理分布數(shù)據(jù)挖掘技術應用于互聯(lián)網日志挖掘系統(tǒng)中,主要是基于它的三重體系結構包括:訪問層,代理層和互聯(lián)網服務器層,其中用戶層包括不同用戶有不同的操作權限,通常用戶只能進行信息查詢,而代理層則可以實現(xiàn)監(jiān)控系統(tǒng)以及配置代理的功能,互聯(lián)網服務層就是由多個互聯(lián)網服務器組成的,每個服務器提供了相應的日志文件,并通過接口能夠實現(xiàn)與代理層的數(shù)據(jù)交互,代理層是作為用戶層和服務器層之間的橋梁,能夠幫助有效解決分布式速度和異構性問題,確保數(shù)據(jù)完整性。在互聯(lián)網中廣泛應用代理技術能夠有效對多個異構服務器實現(xiàn)數(shù)據(jù)分析和處理,對于數(shù)據(jù)的預處理和數(shù)據(jù)挖掘算法等是與簡單結構的日志挖掘一致的。

        四、數(shù)據(jù)挖掘的應用及面臨的挑戰(zhàn)

        數(shù)據(jù)挖掘技術面對的較多情況下是數(shù)據(jù)庫,這樣一來能夠大大提高信息檢索效率,然而在數(shù)據(jù)挖掘技術應用過程中也存在一定的局限性。數(shù)據(jù)挖掘技術在進行數(shù)據(jù)分析處理過程中所使用的方法有限,一般情況下只能應用于分析數(shù)值型的數(shù)據(jù),而且數(shù)據(jù)內容形式較為簡單,而且還無法支持文本文件,圖片等無結構和無數(shù)據(jù)形式的數(shù)據(jù)挖掘工作。一般數(shù)據(jù)挖掘技術通常是要進行數(shù)據(jù)和信息的交互,但是在互聯(lián)網中應用數(shù)據(jù)挖掘技術很難讓用戶參與數(shù)據(jù)篩選中,因而工作人員自身的能力以及經驗對于數(shù)據(jù)挖掘效率有直接的影響,很多應用程序內容是用戶在應用過程中發(fā)現(xiàn)并分析的,因此,要求在互聯(lián)網中應用數(shù)據(jù)挖掘技術挖掘信息時,不但要分析數(shù)字,分析符號的能力,還需要對一些圖片,語言進行理解。伴隨知識量信息量的增多,人工分析和處理信息效率會大大降低,而且很容易被新的知識取代,因此在不斷進行知識保護的同時,還要及時更新計算方法,當前更新知識的方法包括維護關聯(lián)準則的增量算法。除此之外,由于當前數(shù)據(jù)挖掘系統(tǒng)還不能廣泛地在眾多的系統(tǒng)平臺上應用,而一些常見的應用程序也只限于在PC客戶端使用,大多數(shù)是針對大型主機的,除此之外,還有一些個別是針對用戶所使用的。

        五、小結

        處于互聯(lián)網時代背景下,人們的生活和工作已經離不開互聯(lián)網,為了能夠讓用戶在使用互聯(lián)網過程中獲得更好的體驗,相關技術部門應當對用戶的行為進行正確掌握。同時,隨著數(shù)據(jù)管理的優(yōu)化以及檢索技術的發(fā)展,在未來應用數(shù)據(jù)挖掘技術將能夠更好地為互聯(lián)網和用戶提供優(yōu)質服務。

        猜你喜歡
        挖掘數(shù)據(jù)技術
        將“再也沒有”帶向更有深度的思考中
        古詩詞教學中藝術內涵的挖掘策略
        焊接工藝仿真訓練系統(tǒng)中焊點數(shù)據(jù)的建立方法
        一種借助數(shù)據(jù)處理構建的智能食堂管理系統(tǒng)
        關注數(shù)學思考 提升數(shù)學本質
        文理導航(2016年30期)2016-11-12 15:02:43
        數(shù)據(jù)化藝術的生成探究
        淺談鋼筋混凝土結構建筑應用外包粘鋼加固技術
        大數(shù)據(jù)技術在商業(yè)銀行中的應用分析
        探討電力系統(tǒng)中配網自動化技術
        科技視界(2016年21期)2016-10-17 20:00:58
        移動應用系統(tǒng)開發(fā)
        科技視界(2016年21期)2016-10-17 19:38:30
        国产精品成人无码久久久久久| 亚洲美女av二区在线观看| 中文在线√天堂| 国产精品高潮无码毛片| 国产丝袜免费精品一区二区| 午夜天堂精品一区二区| 国产女主播在线免费看| 中文字幕亚洲入口久久| 视频在线观看国产自拍| 亚洲国产日韩a在线乱码| 国内女人喷潮完整视频| 全部孕妇毛片丰满孕妇孕交| 久久亚洲av永久无码精品| 亚洲va成无码人在线观看| 国产一区二区三区不卡在线播放| 色偷偷久久久精品亚洲| 未满十八勿入av网免费| 中文无码乱人伦中文视频在线v| 国产精品麻豆最新AV| 91精品啪在线看国产网站| 日韩一二三四区免费观看| 人妖啪啪综合av一区| 少妇性bbb搡bbb爽爽爽| 海角国精产品一区一区三区糖心| 亚洲国产成人手机在线电影| 国产人妖在线免费观看| 国产中文字幕亚洲精品| 好吊妞无缓冲视频观看| 国产全肉乱妇杂乱视频| 国产jk在线观看| 久久久9色精品国产一区二区三区| 极品精品视频在线观看| 少妇连续高潮爽到抽搐| 麻豆婷婷狠狠色18禁久久| 久久无码人妻一区二区三区午夜 | 91久久精品一二三区色| 亚洲 日韩 激情 无码 中出| 丰满人妻一区二区三区视频53| 精品香蕉久久久午夜福利| 超碰Av一区=区三区| 日韩女优中文字幕在线|