喬沛然
互聯(lián)網(wǎng)的興起和發(fā)展推動了時代的進步,信息傳遞也更加方便快捷起來,但隨之而來的便是信息量突增———大數(shù)據(jù)時代正在來臨。而通過算法對大量數(shù)據(jù)進行處理和分析,從中獲得某些隱性信息的技術,便是近年來不斷興起的數(shù)據(jù)挖掘技術。本文通過對數(shù)據(jù)挖掘技術在互聯(lián)網(wǎng)領域應用的探討,淺析這種新興的信息獲取方式,促進數(shù)據(jù)挖掘技術更好地發(fā)揮積極作用,為推動互聯(lián)網(wǎng)發(fā)展和完善數(shù)據(jù)平臺服務等工作提供可能有效的新思路。
互聯(lián)網(wǎng)與大數(shù)據(jù)時代
互聯(lián)網(wǎng)的興起推動了時代的進步,同時,時代的進步也促進了互聯(lián)網(wǎng)的發(fā)展,隨著有關科學技術的提高,互聯(lián)網(wǎng)已經(jīng)與人類的生活息息相關,成為了我們生活中不可或缺的一部分。大家廣泛使用的線上聊天工具、語音和視頻電話等大多是直接通過互聯(lián)網(wǎng)搭建溝通交流的橋梁;許多人尤其是年輕一族所熱愛的網(wǎng)購,更是通過互聯(lián)網(wǎng)平臺,足不出戶就能買到想要的東西;還有移動支付,一部手機就可以完成日常生活中絕大多數(shù)的付款……
在這過程中,互聯(lián)網(wǎng)逐漸演變成信息傳輸?shù)木C合體,網(wǎng)絡數(shù)據(jù)的規(guī)模在迅速擴大,例如人們常用的社交、電商等平臺每天都會有大量的數(shù)據(jù)信息產(chǎn)生并需要處理。目前,網(wǎng)絡上的大量數(shù)據(jù)服務類平臺已經(jīng)到了需要實時更新的地步,因為無時無刻都有數(shù)據(jù)匯入??梢哉f,當今社會中每個人都是信息的來源,我們在網(wǎng)絡上甚至現(xiàn)實中的一舉一動都在提供著數(shù)據(jù),相比多年以前,當今社會信息的數(shù)量和維度都呈幾何式爆發(fā)增長,人們已經(jīng)邁入了大數(shù)據(jù)時代。
數(shù)據(jù)挖掘技術的方法和步驟
由于信息的不斷產(chǎn)生和交互,大量網(wǎng)絡數(shù)據(jù)開始實時共享,這推動了社會的進步和發(fā)展,但同時也讓人們面臨前所未有的數(shù)據(jù)處理難題。這些數(shù)據(jù)不僅規(guī)模龐大,還雜亂無章,有真實可靠的,自然也有可信度較低的,且他們大多都具備較高的維度,相對來說高質量、高價值的信息只占其中很小的一部分,同一條信息對于擁有不同需求、不同目標的人來說價值也不一樣。因此,在針對不同的需求或目標時,只有搜集適用于各自領域的數(shù)據(jù),并利用數(shù)據(jù)挖掘技術將其中的信息進行恰當整合、剖析,提取那一小部分隱藏在深處的有用信息,才能充分發(fā)揮這些數(shù)據(jù)的作用從而滿足需求或者達到目標。
綜上所述,一般確定了需求或目標后才會開始進行數(shù)據(jù)挖掘工作,步驟上大體分為收集數(shù)據(jù)、數(shù)據(jù)降噪(針對錯誤、缺漏等)、數(shù)據(jù)整理(針對格式、內(nèi)容等)和使用特定算法模型分析數(shù)據(jù)從而得到所需信息,對挖掘結果進行評估(正確性、準確性等),得到有用結論并用于決策。
數(shù)據(jù)挖掘的方法也有很多,從運用簡單的統(tǒng)計學方法到使用計算機科學中的機器學習(分類、聚類)等各種方法都可用于數(shù)據(jù)挖掘。一般選擇其中的一種方法來進行數(shù)據(jù)挖掘,但往往為了保證得出的結論較為準確、全面,會同時使用多種方法,將所得信息進行對比校、合并來完成數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘技術在互聯(lián)網(wǎng)領域的應用實例
首先,數(shù)據(jù)挖據(jù)技術廣泛應用于各個網(wǎng)絡服務平臺,運營商通過對用戶的多層次、多角度信息挖掘,精準繪制用戶的“畫像”(即對用戶的大量個人特點進行的定義、標識),為每位客戶提供精準的個性化推薦、服務,從而提升用戶的使用體驗。其次,教育、娛樂、文體、銷售和金融等行業(yè)的公司或團體,也正在通過數(shù)據(jù)挖掘技術對網(wǎng)絡數(shù)據(jù)信息進行分析,并將所得到的(諸如人們關注的內(nèi)容等)有利信息應用到自身發(fā)展的決策中,通過數(shù)據(jù)挖掘技術可以促進多領域繁榮發(fā)展,既幫助企業(yè)、團體抓住機會、規(guī)避風險,提升了自身價值,也改善了人們的生活。數(shù)據(jù)挖掘技術在互聯(lián)網(wǎng)領域的應用實例數(shù)不勝數(shù),這里提到的只是九牛一毛,僅僅起拋磚引玉的作用而已。
如今已經(jīng)進入大數(shù)據(jù)時代,隨著網(wǎng)絡上的數(shù)據(jù)規(guī)模越來越龐大,人們對大規(guī)模數(shù)據(jù)高效化、精簡化處理的需求也日益迫切,而數(shù)據(jù)挖掘技術正好可以解決這個問題。文章基于時代背景,分析了目前互聯(lián)網(wǎng)數(shù)據(jù)信息領域的發(fā)展趨勢,列舉了數(shù)據(jù)挖掘技術在互聯(lián)網(wǎng)領域的應用實例,旨在為面臨大規(guī)模數(shù)據(jù)而無從下手的朋友提供一種解決問題的新思路,衷心希望包括數(shù)據(jù)挖掘技術在內(nèi)的計算機科學技術能夠充分發(fā)揮其優(yōu)勢,不斷造福人類。