劉秀芹
[摘要]用戶訪問過的文檔和使用過的關(guān)鍵字包含用戶感興趣的信息,對(duì)這些文檔進(jìn)行提取、匯總可以分析預(yù)測(cè)用戶真正的需求。提出一套適合中小型B2C網(wǎng)站的簡(jiǎn)單模型,設(shè)計(jì)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)和挖掘方法。
[關(guān)鍵詞]Web挖掘關(guān)鍵字市場(chǎng)需求
中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)0510054-01
電子商務(wù)網(wǎng)站作為一種新興的商務(wù)交易模式,以其成本低廉、快捷、不受時(shí)空限制等優(yōu)點(diǎn)而受到企業(yè)的青睞。但從國內(nèi)目前的發(fā)展情況看,由于資金等多方面的原因,許多中小型B2c站點(diǎn)還停留在簡(jiǎn)單的形象展示和單一的商品銷售上,并沒有過多地考慮網(wǎng)站點(diǎn)擊流、用戶需求變化、商業(yè)智能等方面的內(nèi)容。如何有效地分析用戶需求,從而調(diào)整網(wǎng)站布局和結(jié)構(gòu),以幫助用戶從站點(diǎn)的大量信息中快速發(fā)現(xiàn)他們感興趣的內(nèi)容?以及如何幫助企業(yè)從網(wǎng)站的訪客行為中去發(fā)現(xiàn)了解客戶需求的變化,從而有的放矢地提供客戶所需要的服務(wù)和商品,這是目前中小型B2C網(wǎng)站需要面臨的一個(gè)重要課題,也是本文的主要研究目標(biāo)。
一、數(shù)據(jù)來源
用戶訪問過的文檔和使用過的關(guān)鍵字包含用戶感興趣的信息,對(duì)這些文檔進(jìn)行提取、匯總可以分析預(yù)測(cè)用戶真正的需求。獲取用戶需求相關(guān)數(shù)據(jù)的方法有很多種,其中隱式反饋的方法比較適合電子商務(wù)網(wǎng)站,因?yàn)樗軌蜃赃m應(yīng)用戶興趣的變化,而且不要求用戶輸入任何信息,而是通過分析用戶訪問過的文檔和用戶的訪問痕跡,抽取出用戶感興趣的領(lǐng)域、以及需求的轉(zhuǎn)移。其中隱式反饋的來源有兩部分:一是用戶的訪問路徑,二是用戶使用過程中留下的關(guān)鍵字。已經(jīng)有很多文獻(xiàn)就用戶訪問路徑進(jìn)行了多方面的數(shù)據(jù)挖掘研究,所以,本文只研究用戶使用過程中留下的關(guān)鍵字,從這里面找出隱含的市場(chǎng)需求的狀況,進(jìn)行數(shù)據(jù)挖掘的需求分析研究。用戶使用過程中留下的關(guān)鍵字是用戶消費(fèi)現(xiàn)場(chǎng)第一手資料,沒有經(jīng)過人為的二次加工。用它來進(jìn)行分析比較貼近實(shí)際情況,誤差會(huì)較??;而且相對(duì)而言,技術(shù)簡(jiǎn)單,比較適合中小型B2C網(wǎng)站。
二、存儲(chǔ)結(jié)構(gòu)設(shè)計(jì)
其中重點(diǎn)工作是設(shè)計(jì)數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu),包括以下核心結(jié)構(gòu)表:
(一)分類器。為了更好地定位用戶的需求類別,縮小范圍,提高精度,特定義分類器??梢岳迷械姆诸愋畔?,構(gòu)造分類器。分類器就是指產(chǎn)品的分類信息。而分類信息中有一級(jí)分類和二級(jí)分類,以及三級(jí)分類。在數(shù)據(jù)庫部分,分類器相應(yīng)的存儲(chǔ)在一個(gè)數(shù)據(jù)表中。每次的搜索信息都要判斷所屬的類別,所以在該表中設(shè)計(jì)了特征詞表字段。分類器是動(dòng)態(tài)的,是隨著市場(chǎng)和產(chǎn)品不斷變化的,類別和特征詞表也是變化的。
(二)關(guān)鍵信息表。用戶使用的關(guān)鍵字是最關(guān)鍵的信息,也是我們必須要存儲(chǔ)的。所有的關(guān)鍵字都羅列在一起,就會(huì)增加數(shù)據(jù)分析的難度,甚至失去了它的價(jià)值,所以用戶在搜索的時(shí)候所提供的類別也是必須要存儲(chǔ)的信息。另外為了進(jìn)一步進(jìn)行深入的數(shù)據(jù)挖掘,要對(duì)用戶的身份或類型進(jìn)行存儲(chǔ)或標(biāo)識(shí)。用戶在不同時(shí)期需求會(huì)有相應(yīng)的變化,所以還需存儲(chǔ)時(shí)間標(biāo)記。
(三)事實(shí)表。在搜索時(shí)用戶沒有提供明確的類別信息,我們需要確定用戶需求的類別。這一部分我們可以借助于網(wǎng)站推薦系統(tǒng)的相關(guān)理論和方法。在網(wǎng)站推薦系統(tǒng)中有一個(gè)事實(shí)表。事實(shí)表記錄著用戶每次訪問網(wǎng)站的行為記錄,即哪位用戶在什么時(shí)候訪問了哪個(gè)頁面,在該頁面上停留了多長(zhǎng)時(shí)間。
(四)用戶信息表。為了基于不同客戶群體進(jìn)行挖掘,可引入原有的用戶信息表。
三、挖掘方法設(shè)計(jì)
(一)類別判斷。這里的類別判斷指的是關(guān)鍵字所屬類別的判斷。已知用戶的需求類別,不用進(jìn)行特殊處理;用戶需求類別未知,有兩種情況存在:1,沒有用戶所需要的信息,說明沒有該關(guān)鍵字下的相關(guān)信息,這時(shí)我們將相近的關(guān)鍵字推薦給用戶,由用戶判斷,是不是使用其他的關(guān)鍵字替代;2,跟蹤用戶在相關(guān)搜索結(jié)果上的下一步操作,根據(jù)用戶在搜索結(jié)果中的瀏覽項(xiàng)目上的停留時(shí)間,結(jié)合一定的算法,進(jìn)而判斷結(jié)果中的哪一項(xiàng)是用戶的需求類別。
(二)類內(nèi)統(tǒng)計(jì)。一條信息反映某個(gè)用戶的一個(gè)需求,大量信息反映市場(chǎng)的整體需求。而我們所做的工作也就是將這些雜亂無章的數(shù)據(jù)進(jìn)行整理、過濾和統(tǒng)計(jì),以及進(jìn)一步的分析,使其變成一定的有用信息。這些信息才是分析者和決策者所需要的,才能夠成為支持他們對(duì)市場(chǎng)或形式充分了解的依據(jù)。這里我們主要使用統(tǒng)計(jì)分析的方法,來多角度的分析和反映問題,為分析和決策提供數(shù)據(jù)支持。
(三)子類內(nèi)分析。在分類器中,有子類和父類之分,在分類器表中用所在層字段和父類ID來標(biāo)識(shí)。除了類內(nèi)統(tǒng)計(jì)以外,我們還可以更進(jìn)一步在子類上做分析,更進(jìn)一步了解用戶的需求,更精確的定位分析用戶的需求狀況,以及細(xì)分市場(chǎng)的需求狀況。
(四)孤立點(diǎn)分析。如果用戶選擇模糊分類:“其他”,或者“全部”,往往這樣的搜索信息反映的是用戶的新的需求。也要對(duì)這種信息進(jìn)行統(tǒng)計(jì)處理,把一些異常情況及時(shí)報(bào)告給系統(tǒng)管理員,或者市場(chǎng)分析人員,好讓他們結(jié)合實(shí)際情況和分析,借助于這些系統(tǒng)提示信息,作出進(jìn)一步的處理。
(五)具體挖掘流程。重點(diǎn)采用統(tǒng)計(jì)分析方法進(jìn)行挖掘。處理流程如下:首先,數(shù)據(jù)的獲取。基于關(guān)鍵字的數(shù)據(jù)挖掘的信息源的獲取渠道可以從服務(wù)器端、客戶端等幾方面進(jìn)行。其次,數(shù)據(jù)預(yù)處理。得到原始數(shù)據(jù)后,經(jīng)過類別判斷處理之后得到整齊的數(shù)據(jù)。再次,選擇挖掘方式,可以是類內(nèi)統(tǒng)計(jì)、子類內(nèi)統(tǒng)計(jì)或孤立點(diǎn)分析。最后,根據(jù)挖掘結(jié)果進(jìn)行分析。
(六)對(duì)不同的客戶群體做進(jìn)一步的挖掘分析。這其中牽涉到客戶關(guān)系管理的相關(guān)內(nèi)容??蛻絷P(guān)系管理中的重要問題是,如何基于對(duì)客戶的了解來為客戶提供真正需要的產(chǎn)品以及優(yōu)質(zhì)的服務(wù)。通過對(duì)網(wǎng)站客戶群的分類,找出各個(gè)客戶群體中客戶的共同特征,以便開展有針對(duì)性的營銷活動(dòng)。可以采用簡(jiǎn)單的分類分析,具體做法是將用戶信息表和關(guān)鍵信息表聯(lián)合起來,將用戶按不同的標(biāo)準(zhǔn)進(jìn)行分組,在組內(nèi)進(jìn)行關(guān)鍵信息的統(tǒng)計(jì)分析,再進(jìn)一步分析不同組之間差異性,以及組內(nèi)的整體需求情況。挖掘的目標(biāo)是了解不同客戶群體的瀏覽行為,知道不同客戶群體的興趣以及需要所在,動(dòng)態(tài)調(diào)整Web頁面,以更好地滿足客戶需求。
四、總結(jié)
本文針對(duì)當(dāng)前所普遍存在的問題現(xiàn)狀,提出了一個(gè)適合很多中小型商務(wù)網(wǎng)站的簡(jiǎn)單模型,該模型能存儲(chǔ)和搜索用戶的相關(guān)訪問信息,并進(jìn)一步為企業(yè)下一步的營銷提供很好的分析和指導(dǎo)。該模型具有簡(jiǎn)單、可操作性強(qiáng)、技術(shù)要求低的特點(diǎn),能為廣大的中小型B2C網(wǎng)站提供參考和支持。