亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于電子商務(wù)Web的數(shù)據(jù)挖掘技術(shù)研究

2016-03-04 00:11:55韓龍

無線互聯(lián)科技 2015年11期

韓龍

摘要：隨著目前互聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用，電子商務(wù)這種商業(yè)模式已經(jīng)逐漸取代傳統(tǒng)的商業(yè)模式，電子商務(wù)帶來的商機(jī)對(duì)現(xiàn)今社會(huì)經(jīng)濟(jì)結(jié)構(gòu)的影響也越來越大。電子商務(wù)的蓬勃發(fā)展和規(guī)模壯大，導(dǎo)致WEB服務(wù)器中儲(chǔ)存了海量的訪問信息和各種用戶數(shù)據(jù)。如何從這些海量的數(shù)據(jù)中挖掘出有價(jià)值的信息，就成了現(xiàn)今電子商務(wù)網(wǎng)站系統(tǒng)的首要任務(wù)。

關(guān)鍵詞：電子商務(wù)；數(shù)據(jù)挖掘；算法

1引言

電子商務(wù)是指利用互聯(lián)網(wǎng)，通過數(shù)字化電子信息傳送的方式進(jìn)行的商業(yè)活動(dòng)或者商業(yè)信息的交流，目前已經(jīng)產(chǎn)生了各種各樣的電子商務(wù)形式，例如網(wǎng)上購物、網(wǎng)上銀行、網(wǎng)上付賬、電子票據(jù)交換、網(wǎng)上招商廣告等等。電子商務(wù)有它獨(dú)特的特色優(yōu)勢(shì)：電子商務(wù)不受時(shí)間和地域的限制，只要能夠上網(wǎng)，無論什么時(shí)間、身處何地，即使足不出戶也能夠通過網(wǎng)絡(luò)時(shí)刻關(guān)注商業(yè)行情，進(jìn)行買賣交易和商業(yè)活動(dòng)；電子商務(wù)還大大降低了商家的運(yùn)營成本，不再像傳統(tǒng)商業(yè)那樣需要實(shí)體店鋪，也不需要銷售員工和店員，可以直接通過網(wǎng)絡(luò)進(jìn)貨、銷售，減少倉儲(chǔ)、節(jié)省出大量的人力、物力和財(cái)力，因此電子商務(wù)的經(jīng)營方式更受到廣大商家的青睞。

電子商務(wù)網(wǎng)站系統(tǒng)里面經(jīng)常會(huì)用到數(shù)據(jù)挖掘技術(shù)，數(shù)據(jù)挖掘是一種使用廣泛的價(jià)值信息提取技術(shù)。它的根本含義是從大量的、無規(guī)則的、不完全的并且伴隨絕大多數(shù)垃圾信息的數(shù)據(jù)中篩選出對(duì)自己有用的、有價(jià)值的信息。而目前存儲(chǔ)于WEB上的各種關(guān)聯(lián)電子商務(wù)的數(shù)據(jù)信息量十分龐大，這些信息還有著動(dòng)態(tài)性和不確定性，更是加大了提取有價(jià)值信息的難度。如果想從中獲取對(duì)自己有用的信息，需要通過WEB數(shù)據(jù)挖掘?qū)π畔⑦M(jìn)行有效的篩選和提取，最終獲得所需的價(jià)值信息。

2WEB數(shù)據(jù)挖掘在電子商務(wù)中的實(shí)際應(yīng)用

目前隨著電子商務(wù)的蓬勃發(fā)展，商家對(duì)于市場(chǎng)競(jìng)爭(zhēng)也變得越來越激烈。對(duì)于商家來說，掌握任何買家的相關(guān)信息都有可能帶來一次絕好的商機(jī)。例如商家如果能夠從海量的WEB數(shù)據(jù)中發(fā)現(xiàn)買家的興趣愛好、購買需求、價(jià)值取向等信息，就可以隨時(shí)靈活的改變自己的銷售策略，使產(chǎn)品的種類、價(jià)格更能迎合消費(fèi)者的心理，取得更大的經(jīng)濟(jì)利益。而目前使用的WEB數(shù)據(jù)挖掘技術(shù)的目的都是為了獲得這樣的實(shí)際意義。WEB數(shù)據(jù)挖掘技術(shù)的應(yīng)用在目前來看主要有幾個(gè)方面，一是建立一些智能化的產(chǎn)品搜索引擎，通過WEB數(shù)據(jù)挖掘技術(shù)來找出顧客的興趣愛好，從顧客以往的消費(fèi)記錄和瀏覽信息中分析出顧客的一些特點(diǎn)，提供適合顧客的一些服務(wù)，提高顧客對(duì)商務(wù)網(wǎng)站的滿意度；二是在WEB客戶訪問信息中進(jìn)行數(shù)據(jù)挖掘可以發(fā)現(xiàn)潛在的客戶群體，獲得更多潛在的客戶市場(chǎng)；三可以通過WEB數(shù)據(jù)挖掘?qū)蛻舻脑L問信息和訪問模式進(jìn)行分析，通過客戶的使用習(xí)慣、興趣愛好和消費(fèi)習(xí)慣等信息來優(yōu)化網(wǎng)站結(jié)構(gòu)，使網(wǎng)站組織結(jié)構(gòu)更加合理，符合客戶的使用習(xí)慣，增加客戶再次訪問的幾率。而這些都是WEB數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘所帶來的好處和實(shí)際利益。因此說在電子商務(wù)中進(jìn)行WEB數(shù)據(jù)挖掘所帶來潛在的經(jīng)濟(jì)收益是十分客觀的。

3電子商務(wù)挖掘系統(tǒng)的邏輯架構(gòu)

WEB數(shù)據(jù)挖掘技術(shù)如果應(yīng)用在電子商務(wù)活動(dòng)中，可以獲得大量有用的商業(yè)信息，給電子商務(wù)網(wǎng)站帶來豐厚的商業(yè)價(jià)值，因此如何使電子商務(wù)網(wǎng)站在海量的WEB信息中挖掘出這些商機(jī)，讓W(xué)EB挖掘系統(tǒng)的功能變得更加強(qiáng)大、挖掘信息效率更高、實(shí)時(shí)性更好，這些就是電子商務(wù)挖掘系統(tǒng)的重點(diǎn)研究課題?；谄毡閼?yīng)用的電子商務(wù)系統(tǒng)，這里給出了一般的邏輯架構(gòu)：首先邏輯架構(gòu)的最外層模塊是系統(tǒng)的WEB界面、圖形操作界面和命令操作界面，這些都是管理者負(fù)責(zé)設(shè)計(jì)、修改、管理的可視化功能界面，可以根據(jù)需要對(duì)網(wǎng)站的界面、結(jié)構(gòu)和內(nèi)容信息隨時(shí)進(jìn)行修改。內(nèi)部數(shù)據(jù)挖掘模塊是數(shù)據(jù)挖掘、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)處理的內(nèi)部組件構(gòu)成，主要負(fù)責(zé)從各類數(shù)據(jù)信息中截取挑選數(shù)據(jù)，并把挖掘轉(zhuǎn)換出的數(shù)據(jù)輸送到數(shù)據(jù)庫，并處理掉垃圾信息，最后的數(shù)據(jù)模塊就是網(wǎng)站的后臺(tái)數(shù)據(jù)庫管理模塊，負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和備份。在這個(gè)邏輯架構(gòu)中，最重要的部分就是數(shù)據(jù)挖掘模塊，是否能夠挖掘出有價(jià)值的信息、對(duì)信息進(jìn)行數(shù)據(jù)挖掘的效率是否夠快就變得尤為重要，畢竟搶先一步獲得商機(jī)就意味著巨額的利潤。為了提高效率在數(shù)據(jù)挖掘過程中會(huì)應(yīng)用到各種不同的算法，應(yīng)用得比較多的有Apriori算法和K-means聚類算法。下面來具體介紹一下這2種算法以及改進(jìn)的方法。

4Apriori算法及其改進(jìn)

Apriori算法是在1994年由R.Agrawal和R.Srikant提出的布爾關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)集的原創(chuàng)性算法。Apriori算法思想是通過使用了數(shù)據(jù)項(xiàng)頻集理論，對(duì)關(guān)系數(shù)據(jù)庫經(jīng)過一定次數(shù)的遍歷，最終篩選出符合關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集，這些頻繁項(xiàng)集則是數(shù)據(jù)挖掘算法的中心數(shù)據(jù)。Apriori算法的挖掘過程大致可以分為2步：第1步是搜索出符合關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集，這些頻繁項(xiàng)集需要滿足本身的所具有的支持度要大于選定的最小支持度的項(xiàng)集；第2步是找出頻繁項(xiàng)集之間的關(guān)聯(lián)規(guī)則。但是Apriori算法在實(shí)際應(yīng)用中有一個(gè)明顯的缺陷，那就是在選出備用的候選項(xiàng)集時(shí)會(huì)浪費(fèi)大量的時(shí)間，因?yàn)槊看芜x取候選項(xiàng)集時(shí)都需要對(duì)數(shù)據(jù)庫進(jìn)行一次遍歷搜索，如果在遍歷搜索過程中產(chǎn)生大量的候選項(xiàng)目集時(shí)，需要遍歷產(chǎn)生的時(shí)間就會(huì)大大增加，這樣就降低了算法的效率。針對(duì)5：Apriori算法這個(gè)缺點(diǎn)，提出了算法的改進(jìn)，改進(jìn)的方面主要是為了提高算法的效率并且讓產(chǎn)生的頻繁項(xiàng)集更加準(zhǔn)確。Apriori算法的改進(jìn)可以分為4步：第1步，根據(jù)信息數(shù)據(jù)庫的信息量大致分為若干個(gè)數(shù)據(jù)量相等的模塊。第2步，對(duì)劃分的這些模塊各自進(jìn)行頻繁項(xiàng)集的搜索工作，最終每一個(gè)模塊將得到一個(gè)頻繁項(xiàng)目集。第3步，通過算法的篩選，去掉這個(gè)頻繁項(xiàng)目集中包含錯(cuò)誤信息的項(xiàng)集，形成一個(gè)最終的適合所有數(shù)據(jù)的候選頻繁項(xiàng)目集。第4步，把產(chǎn)生的候選頻繁項(xiàng)目集應(yīng)用于整個(gè)數(shù)據(jù)庫，計(jì)算出候選項(xiàng)目集中項(xiàng)目的實(shí)際支持度，最后確定出Apriori算法需要的頻繁項(xiàng)目集。這樣改進(jìn)的好處就是頻繁項(xiàng)目集的選取不再需要對(duì)數(shù)據(jù)庫中所有數(shù)據(jù)進(jìn)行遍歷，節(jié)約了算法大量的時(shí)間，而且通過先找出潛在頻繁項(xiàng)目集進(jìn)行對(duì)比計(jì)算的方法，可以提高算法頻繁項(xiàng)集選取的精確度。

5K-means聚類算法及其改進(jìn)

K-means聚類算法是數(shù)據(jù)挖掘中使用比較廣泛的經(jīng)典算法。它主要的功能是為了研究檢測(cè)數(shù)據(jù)對(duì)象之間的差異度，通過差異度的比較篩選出符合目標(biāo)要求的中心元素。K-means聚類算法的核心算法是：從待選的所有數(shù)據(jù)信息中隨意挑選出一定數(shù)量的數(shù)據(jù)作為最開始的聚類元素中心，起始數(shù)據(jù)的挑選具有隨機(jī)性。然后通過具體的關(guān)聯(lián)規(guī)則算法計(jì)算出余下的全部數(shù)據(jù)與中心數(shù)據(jù)的相異度，根據(jù)相異度的平均值確定新的中心元素，一直到所有元素都被劃分到所選出的聚類集合當(dāng)中為止。但是這種算法還是有一定的缺陷的。缺陷主要有2點(diǎn)：一是由于初始的聚類中心K個(gè)元素是隨機(jī)選取的，有一定的隨機(jī)性，那么再重新確定K個(gè)聚類中心就需要大量的時(shí)間重新計(jì)算。二是在選取好K個(gè)聚類中心后還有可能產(chǎn)生孤立點(diǎn)的因素，可能會(huì)造成篩選結(jié)果的偏差，這樣還需要對(duì)產(chǎn)生的聚類結(jié)果進(jìn)行檢測(cè)分析，避免孤立點(diǎn)的情況出現(xiàn)。針對(duì)于這2種情況，對(duì)K-means聚類算法進(jìn)行改進(jìn)：首先在選取K個(gè)聚類中心的時(shí)候，可以使用模糊算法的理論，用模糊算法的C均值算法對(duì)K的數(shù)量進(jìn)行計(jì)算劃分，可以把所有信息數(shù)據(jù)看做是模糊算法中的整體類，信息數(shù)據(jù)之間的差異度看作是針對(duì)于這個(gè)類的隸屬關(guān)系，每個(gè)數(shù)據(jù)項(xiàng)與整個(gè)類之間的隸屬關(guān)系通過計(jì)算能得出一個(gè)[0，1]范圍的隸屬度。最后通過所有數(shù)據(jù)的隸屬度的平均值來確定聚類中心數(shù)量K的值。在計(jì)算所有數(shù)據(jù)與聚類中心隸屬度的時(shí)候，可以通過隸屬度值的大小來判斷所選取的聚類中心是否是孤立點(diǎn)，如果計(jì)算出的隸屬度大，說明選取的兩個(gè)聚類是相異度很大的區(qū)域，是高質(zhì)量的區(qū)域，符合挑選的要求，如果隸屬度值比較小，說明選取的聚類中心相異度小，那么這兩個(gè)區(qū)域本身有可能是孤立點(diǎn)，就需要重新劃分聚類中心。通過改進(jìn)的方法可以使K-means聚類算法在選取聚類中心K值時(shí)降低計(jì)算的時(shí)間復(fù)雜度，而且選取的數(shù)值K比較準(zhǔn)確，不會(huì)像傳統(tǒng)算法那樣具有隨機(jī)性、不確定性，選取的K值也更加合理、降低了由于K值選取錯(cuò)誤帶來的對(duì)計(jì)算結(jié)果的影響。

6結(jié)語

WEB數(shù)據(jù)挖掘算法的研究對(duì)電子商務(wù)的發(fā)展具有重要的實(shí)際意義，可以通過對(duì)WEB訪問所產(chǎn)生的數(shù)據(jù)信息進(jìn)行篩選查找，進(jìn)而得到有價(jià)值的商業(yè)信息和客戶信息，直接給網(wǎng)站的經(jīng)營者帶來巨額的經(jīng)濟(jì)利益。本文針對(duì)數(shù)據(jù)挖掘中常用的Apriori算法和K-means聚類算法進(jìn)行改進(jìn)，使算法變得更加完善，提高了WEB數(shù)據(jù)挖掘技術(shù)的應(yīng)用效率，也提升了數(shù)據(jù)信息的應(yīng)用效率。