超市里,牛奶到底和哪種商品擺放一起銷量更高?啤酒為什么與尿不濕擺放在一起會(huì)賣得更多?乍一看,它們似乎毫無聯(lián)系,而大數(shù)據(jù)挖掘卻能告訴你它們之間的關(guān)聯(lián)。那么,大數(shù)據(jù)挖掘是什么呢?又有哪些方法?
簡單來說,大數(shù)據(jù)挖掘即指從大量數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性的信息的過程,其常用方法有分類、聚類、回歸分析、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)方法、Web數(shù)據(jù)挖掘等。
數(shù)據(jù)被喻為蘊(yùn)藏能量的煤礦,就像煤炭可以分為焦煤、無煙煤、肥煤、貧煤等一樣,每種數(shù)據(jù)也有自身的特點(diǎn),比如頻率、量、速度、類型和真實(shí)性等等,從而將數(shù)據(jù)分出來。像好壞、高低、胖瘦……這些就是生活中最簡單的分類方法。
再比如,信用卡公司將持卡人信譽(yù)分為良好、一般和較差三類,如果建立“信譽(yù)良好的客戶是那些收入在5萬元以上,年齡在40至50歲之間的人士”這樣一個(gè)模型,就可以根據(jù)這個(gè)模型對新的記錄進(jìn)行分類,從而判斷一個(gè)新持卡人的信譽(yù)等級是什么。
聚類與分類相似,但目的不同。聚類是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個(gè)類別。屬于同一類別的數(shù)據(jù)間相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關(guān)聯(lián)性很低。
比如在商務(wù)上,聚類能幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,用購買模式刻畫不同的客戶群的特征;在生物學(xué)上,聚類能用于推導(dǎo)植物和動(dòng)物的分類,對基因進(jìn)行分類,獲得對種群中固有結(jié)構(gòu)的認(rèn)識(shí)。聚類在汽車保險(xiǎn)單持有者的分組,及根據(jù)房子的類型、價(jià)值和地理位置對一個(gè)城市中房屋的分組上也可以發(fā)揮作用。
什么會(huì)促進(jìn)蛋撻的銷量?是颶風(fēng),颶風(fēng)天氣下蛋撻更受歡迎;啤酒與哪類產(chǎn)品擺放在一起會(huì)賣得更多?是尿不濕,父親們在購買尿不濕的時(shí)候總是喜歡再買些啤酒……這些事物彼此之間看似毫無關(guān)聯(lián),但里面卻隱藏著關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推出其他數(shù)據(jù)項(xiàng)。關(guān)聯(lián)規(guī)則的挖掘過程有兩個(gè)階段:第一階段是從海量原始數(shù)據(jù)中找出所有的高頻項(xiàng)目組;第二階段是從這些高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘技術(shù)已被廣泛應(yīng)用于金融行業(yè)企業(yè)中用以預(yù)測客戶的需求,各銀行在自己的ATM機(jī)上通過捆綁客戶可能感興趣的信息供用戶了解并獲取相應(yīng)信息來改善自身的營銷。
回歸分析反映了數(shù)據(jù)庫中數(shù)據(jù)屬性值的特性,通過函數(shù)表達(dá)數(shù)據(jù)映射的關(guān)系來發(fā)現(xiàn)屬性值之間的依賴關(guān)系。它可以應(yīng)用到對數(shù)據(jù)序列的預(yù)測及相關(guān)關(guān)系的研究中去。在市場營銷中,回歸分析可以被應(yīng)用到各個(gè)方面。如通過對本季度銷售的回歸分析,對下一季度的銷售趨勢作出預(yù)測并做出針對性的營銷改變。
神經(jīng)網(wǎng)絡(luò)作為一種先進(jìn)的人工智能技術(shù),因其自身自行處理、分布存儲(chǔ)和高度容錯(cuò)等特性非常適合處理非線性的以及以模糊、不完整、不嚴(yán)密的知識(shí)或數(shù)據(jù)為特征的處理問題。
人工神經(jīng)網(wǎng)絡(luò)首先要以一定的學(xué)習(xí)準(zhǔn)則進(jìn)行學(xué)習(xí),然后才能工作。人工神經(jīng)網(wǎng)絡(luò)對手寫“A”“B”兩個(gè)字母的識(shí)別,如果規(guī)定當(dāng)“A”輸入網(wǎng)絡(luò)時(shí),輸出“1”,而當(dāng)輸入為“B”時(shí),輸出為“0”。通過多次的學(xué)習(xí)模擬,來強(qiáng)化網(wǎng)絡(luò)對上述規(guī)則的記憶,因而減少犯錯(cuò)誤的可能性。一般說來,網(wǎng)絡(luò)中所含的神經(jīng)元個(gè)數(shù)越多,則它能記憶、識(shí)別的模式也就越多。
Web數(shù)據(jù)挖掘是一項(xiàng)綜合性技術(shù),指Web從文檔結(jié)構(gòu)和使用的集合C中發(fā)現(xiàn)隱含的模式P,如果將C看做是輸入,P看做是輸出,那么Web挖掘過程就可以看做是從輸入到輸出的一個(gè)映射過程。當(dāng)前越來越多的Web數(shù)據(jù)都是以數(shù)據(jù)流的形式出現(xiàn)的,因此對Web數(shù)據(jù)流挖掘就具有很重要的意義。目前常用的Web數(shù)據(jù)挖掘算法有:PageRank算法,HITS算法以及LOGSOM算法。這三種算法提到的用戶都是籠統(tǒng)的用戶,并沒有區(qū)分用戶的個(gè)體。目前Web數(shù)據(jù)挖掘面臨著一些問題,包括:用戶的分類問題、網(wǎng)站內(nèi)容時(shí)效性問題,用戶在頁面停留時(shí)間問題,頁面的鏈入與鏈出數(shù)問題等。(編輯/任偉)