一、基于搜索引擎和數(shù)據(jù)挖掘的博客營銷模式
博客的影響力越來越大,為企業(yè)的營銷活動打開了新的一扇窗?;谒阉饕婧蛿?shù)據(jù)挖掘的博客營銷模式的技術(shù)結(jié)構(gòu),就是結(jié)合當(dāng)今世界上主流的搜索引擎技術(shù)和數(shù)據(jù)挖掘技術(shù),提取博客中市場營銷所需要的信息。
1.基于搜索引擎和數(shù)據(jù)挖掘的博客營銷模式的應(yīng)用系統(tǒng)結(jié)構(gòu)
文中給出了網(wǎng)絡(luò)信息挖掘技術(shù)實現(xiàn)的總體流程圖, 分別對其中的每個步驟解釋如下:
第一步:確立目標(biāo)樣本, 即由用戶選擇目標(biāo)文本, 作為提取用戶的特征信息。
第二步:提取特征信息, 即根據(jù)目標(biāo)樣本的詞頻分布, 從統(tǒng)計詞典中提取出挖掘目標(biāo)的特征向量并計算出相應(yīng)的權(quán)值。
第三步:網(wǎng)絡(luò)信息獲取,即先利用搜索引擎站點選擇待采集站點, 再利用Robot程序采集靜態(tài)Web頁面, 最后獲取被訪問站點網(wǎng)絡(luò)數(shù)據(jù)庫中的動態(tài)信息,生成WWW資源索引庫。
第四步:信息特征匹配,即提取索引庫中的源信息的特征向量, 并與目標(biāo)樣本的特征向量進行匹配, 將符合閾值條件的信息返回給用戶。
2.基于搜索引擎和數(shù)據(jù)挖掘的博客營銷模式可采用的實現(xiàn)技術(shù)
(1)搜索引擎的主要技術(shù)。搜索引擎一般由搜索器、索引器、檢索器和用戶接口4個部分組成。①搜索器:其功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它要盡可能多、盡可能快地搜集新信息和定期更新舊信息,以避免死聯(lián)接和無效聯(lián)接,為此搜索器的實現(xiàn)常采用分布式、并行計算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。②索引器:其功能是理解搜索器所搜索的信息,從中抽取出索引項, 用于表示文檔,以及生成文檔庫的索引表。索引器可以使用集中式索引算法或分布式索引算法。③檢索器:其功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制。④用戶接口:其作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制, 分為簡單接口和復(fù)雜接口兩種。
(2)WEB信息挖掘中的關(guān)鍵技術(shù)。網(wǎng)絡(luò)信息挖掘系統(tǒng)采用向量空間模型(Vector SpaceModal, VSM),用特征詞條(T1,T2,…,Tn) 及其權(quán)值Wi代表目標(biāo)信息,在進行信息匹配時, 使用這些特征項評價未知文本與目標(biāo)樣本的相關(guān)程度。特征詞條及其權(quán)值的選取稱為目標(biāo)樣本的特征提取,特征提取算法的優(yōu)劣將直接影響到系統(tǒng)的運行效果。一個有效的特征項集應(yīng)該既能體現(xiàn)目標(biāo)內(nèi)容, 也能將目標(biāo)同其他文檔相區(qū)分, 因此詞條權(quán)重的正比于詞條的文檔內(nèi)頻數(shù), 反比于訓(xùn)練文本內(nèi)出現(xiàn)該詞條的文檔頻數(shù)。
我們再來討論中文分詞處理。首先建立詞典庫。中文詞的切分問題是網(wǎng)絡(luò)信息挖掘中的一項關(guān)鍵的技術(shù)之一,中文不像英文詞之間有空格分割,中文詞的切分的好壞也就直接影響著主題的提取。《中國分類主題詞表》由于其學(xué)科體系的完整性和規(guī)范性,非常適合于作為詞庫, 當(dāng)然對于專業(yè)要求較高的數(shù)據(jù)挖掘,以及在實際使用中出現(xiàn)的不符合要求的地方, 可在該詞表的基礎(chǔ)上進行擴充和修改;另外, 應(yīng)當(dāng)包括一個臨時的詞庫以統(tǒng)計用戶的檢索信息, 用于修正詞表。在進行詞頻統(tǒng)計時, 考慮到自然語言的多樣性, 系統(tǒng)建立并使用相應(yīng)的同義詞典、相關(guān)詞詞典等輔助詞典, 以提高信息匹配的準(zhǔn)確度。
二、基于搜索引擎和數(shù)據(jù)挖掘的博客營銷模式的應(yīng)用
下面以Google 為例, 剖析網(wǎng)絡(luò)信息挖掘技術(shù)在搜索引擎中的應(yīng)用。Google 的搜索機制是:幾個分布的Crawler(自動搜索軟件)同時工作, URL服務(wù)器則負責(zé)向這些Crawler提供URL 的列表。Crawler 所找到的網(wǎng)頁被送到存儲服務(wù)器(Store Server)中。存儲服務(wù)器把這些網(wǎng)頁壓縮后存入一個知識庫(repository)中。每個網(wǎng)頁都有一個關(guān)聯(lián)ID——doc ID,當(dāng)一個新的URL 從一個網(wǎng)頁中解析出來時, 就被分配一個doc ID。索引庫(Indexer)和排序器(Sorter)負責(zé)建立索引, 索引庫從知識庫中讀取記錄, 將文檔解壓并進行解析。每個文檔就轉(zhuǎn)換成一組詞的出現(xiàn)狀況(word occurrences),稱為hits。hits記錄了詞、詞在文檔中的位置、字體大小、大小寫等。索引庫把這些hit又分成一組“barrels”,產(chǎn)生經(jīng)過部分排序后的索引。索引庫同時分析網(wǎng)頁中所有的鏈接并將重要信息存在Anchors文檔中。這個文檔包含了足夠信息,可以用來判斷一個鏈接被鏈入或鏈出的結(jié)點信息。
URL分解器(URL Resolver)閱讀Anchors文檔,并把相對的URL轉(zhuǎn)換成絕對的URLs,并生成doc ID,它進一步為Anchor文本編制索引,并與Anchor 所指向的doc ID建立關(guān)聯(lián)。同時,它還產(chǎn)生由doc ID 對(pairs of doc ID)所形成的數(shù)據(jù)庫。這個鏈接數(shù)據(jù)庫(Links)用于計算所有文檔的頁面等級(Pagerank)。排序器會讀取barrels,并根據(jù)詞的ID號(word ID)列表來生成倒排擋。一個名為DumpLexicon的程序則把上面的列表和由索引庫產(chǎn)生的一個新的詞表結(jié)合起來產(chǎn)生另一個新的詞表供搜索器(Searcher)使用。這個搜索器就是利用一個Web服務(wù)器, 并使用由DumpLexicon所生成的詞表, 并利用上述倒排擋以及頁面等級來回答用戶的提問。
Google搜索的最大特色體現(xiàn)在它所采用的對網(wǎng)頁Links信息的挖掘技術(shù)上。實際上,網(wǎng)絡(luò)信息挖掘是目前網(wǎng)絡(luò)信息檢索發(fā)展的一個關(guān)鍵。
三、結(jié)束語
博客營銷作為企業(yè)營銷的新工具,正受到越來越多企業(yè)的關(guān)注,目前,大多數(shù)企業(yè)在博客營銷領(lǐng)域的實踐還處于探索階段。隨著XML作為在Web上交換數(shù)據(jù)的一種標(biāo)準(zhǔn)方式的出現(xiàn)、用戶信息需求的多樣化、網(wǎng)絡(luò)信息挖掘研究的不斷深入,“智能化”的搜索引擎將會涌現(xiàn), 面向Web的網(wǎng)絡(luò)信息挖掘也將會變得非常輕松。
參考文獻:
[1]克里斯·安德森:長尾理論.中信出版社,2006
[2]托馬斯·弗里德曼:世界是平的.東方出版社,2006
[3]杰里米·萊特:《博客營銷》.中國財政經(jīng)濟出版社,2007
[4]唐小鵬:博客營銷應(yīng)用初探.科技資訊,2007年第7期