亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于搜索引擎和數(shù)據(jù)挖掘的博客營銷

2008-01-01 00:00:00徐禾芳何振輝

商場現(xiàn)代化 2008年2期

一、基于搜索引擎和數(shù)據(jù)挖掘的博客營銷模式

博客的影響力越來越大，為企業(yè)的營銷活動打開了新的一扇窗?；谒阉饕婧蛿?shù)據(jù)挖掘的博客營銷模式的技術(shù)結(jié)構(gòu)，就是結(jié)合當(dāng)今世界上主流的搜索引擎技術(shù)和數(shù)據(jù)挖掘技術(shù)，提取博客中市場營銷所需要的信息。

1.基于搜索引擎和數(shù)據(jù)挖掘的博客營銷模式的應(yīng)用系統(tǒng)結(jié)構(gòu)

文中給出了網(wǎng)絡(luò)信息挖掘技術(shù)實現(xiàn)的總體流程圖，分別對其中的每個步驟解釋如下:

第一步:確立目標(biāo)樣本，即由用戶選擇目標(biāo)文本，作為提取用戶的特征信息。

第二步:提取特征信息，即根據(jù)目標(biāo)樣本的詞頻分布，從統(tǒng)計詞典中提取出挖掘目標(biāo)的特征向量并計算出相應(yīng)的權(quán)值。

第三步:網(wǎng)絡(luò)信息獲取，即先利用搜索引擎站點選擇待采集站點，再利用Robot程序采集靜態(tài)Web頁面，最后獲取被訪問站點網(wǎng)絡(luò)數(shù)據(jù)庫中的動態(tài)信息，生成WWW資源索引庫。

第四步:信息特征匹配，即提取索引庫中的源信息的特征向量，并與目標(biāo)樣本的特征向量進行匹配，將符合閾值條件的信息返回給用戶。

2.基于搜索引擎和數(shù)據(jù)挖掘的博客營銷模式可采用的實現(xiàn)技術(shù)

(1)搜索引擎的主要技術(shù)。搜索引擎一般由搜索器、索引器、檢索器和用戶接口4個部分組成。①搜索器:其功能是在互聯(lián)網(wǎng)中漫游，發(fā)現(xiàn)和搜集信息。它要盡可能多、盡可能快地搜集新信息和定期更新舊信息，以避免死聯(lián)接和無效聯(lián)接，為此搜索器的實現(xiàn)常采用分布式、并行計算技術(shù)，以提高信息發(fā)現(xiàn)和更新的速度。②索引器:其功能是理解搜索器所搜索的信息，從中抽取出索引項，用于表示文檔，以及生成文檔庫的索引表。索引器可以使用集中式索引算法或分布式索引算法。③檢索器:其功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔，進行文檔與查詢的相關(guān)度評價，對將要輸出的結(jié)果進行排序，并實現(xiàn)某種用戶相關(guān)性反饋機制。④用戶接口:其作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制，分為簡單接口和復(fù)雜接口兩種。

（2)WEB信息挖掘中的關(guān)鍵技術(shù)。網(wǎng)絡(luò)信息挖掘系統(tǒng)采用向量空間模型(Vector SpaceModal， VSM)，用特征詞條(T1，T2，…，Tn) 及其權(quán)值Wi代表目標(biāo)信息，在進行信息匹配時，使用這些特征項評價未知文本與目標(biāo)樣本的相關(guān)程度。特征詞條及其權(quán)值的選取稱為目標(biāo)樣本的特征提取，特征提取算法的優(yōu)劣將直接影響到系統(tǒng)的運行效果。一個有效的特征項集應(yīng)該既能體現(xiàn)目標(biāo)內(nèi)容，也能將目標(biāo)同其他文檔相區(qū)分，因此詞條權(quán)重的正比于詞條的文檔內(nèi)頻數(shù)，反比于訓(xùn)練文本內(nèi)出現(xiàn)該詞條的文檔頻數(shù)。

我們再來討論中文分詞處理。首先建立詞典庫。中文詞的切分問題是網(wǎng)絡(luò)信息挖掘中的一項關(guān)鍵的技術(shù)之一，中文不像英文詞之間有空格分割，中文詞的切分的好壞也就直接影響著主題的提取。《中國分類主題詞表》由于其學(xué)科體系的完整性和規(guī)范性，非常適合于作為詞庫，當(dāng)然對于專業(yè)要求較高的數(shù)據(jù)挖掘，以及在實際使用中出現(xiàn)的不符合要求的地方，可在該詞表的基礎(chǔ)上進行擴充和修改；另外，應(yīng)當(dāng)包括一個臨時的詞庫以統(tǒng)計用戶的檢索信息，用于修正詞表。在進行詞頻統(tǒng)計時，考慮到自然語言的多樣性，系統(tǒng)建立并使用相應(yīng)的同義詞典、相關(guān)詞詞典等輔助詞典，以提高信息匹配的準(zhǔn)確度。

二、基于搜索引擎和數(shù)據(jù)挖掘的博客營銷模式的應(yīng)用

下面以Google 為例，剖析網(wǎng)絡(luò)信息挖掘技術(shù)在搜索引擎中的應(yīng)用。Google 的搜索機制是:幾個分布的Crawler(自動搜索軟件)同時工作， URL服務(wù)器則負責(zé)向這些Crawler提供URL 的列表。Crawler 所找到的網(wǎng)頁被送到存儲服務(wù)器(Store Server)中。存儲服務(wù)器把這些網(wǎng)頁壓縮后存入一個知識庫(repository)中。每個網(wǎng)頁都有一個關(guān)聯(lián)ID——doc ID，當(dāng)一個新的URL 從一個網(wǎng)頁中解析出來時，就被分配一個doc ID。索引庫(Indexer)和排序器(Sorter)負責(zé)建立索引，索引庫從知識庫中讀取記錄，將文檔解壓并進行解析。每個文檔就轉(zhuǎn)換成一組詞的出現(xiàn)狀況(word occurrences)，稱為hits。hits記錄了詞、詞在文檔中的位置、字體大小、大小寫等。索引庫把這些hit又分成一組“barrels”，產(chǎn)生經(jīng)過部分排序后的索引。索引庫同時分析網(wǎng)頁中所有的鏈接并將重要信息存在Anchors文檔中。這個文檔包含了足夠信息，可以用來判斷一個鏈接被鏈入或鏈出的結(jié)點信息。

URL分解器(URL Resolver)閱讀Anchors文檔，并把相對的URL轉(zhuǎn)換成絕對的URLs，并生成doc ID，它進一步為Anchor文本編制索引，并與Anchor 所指向的doc ID建立關(guān)聯(lián)。同時，它還產(chǎn)生由doc ID 對(pairs of doc ID)所形成的數(shù)據(jù)庫。這個鏈接數(shù)據(jù)庫(Links)用于計算所有文檔的頁面等級(Pagerank)。排序器會讀取barrels，并根據(jù)詞的ID號(word ID)列表來生成倒排擋。一個名為DumpLexicon的程序則把上面的列表和由索引庫產(chǎn)生的一個新的詞表結(jié)合起來產(chǎn)生另一個新的詞表供搜索器(Searcher)使用。這個搜索器就是利用一個Web服務(wù)器，并使用由DumpLexicon所生成的詞表，并利用上述倒排擋以及頁面等級來回答用戶的提問。

Google搜索的最大特色體現(xiàn)在它所采用的對網(wǎng)頁Links信息的挖掘技術(shù)上。實際上，網(wǎng)絡(luò)信息挖掘是目前網(wǎng)絡(luò)信息檢索發(fā)展的一個關(guān)鍵。

三、結(jié)束語

博客營銷作為企業(yè)營銷的新工具，正受到越來越多企業(yè)的關(guān)注，目前，大多數(shù)企業(yè)在博客營銷領(lǐng)域的實踐還處于探索階段。隨著XML作為在Web上交換數(shù)據(jù)的一種標(biāo)準(zhǔn)方式的出現(xiàn)、用戶信息需求的多樣化、網(wǎng)絡(luò)信息挖掘研究的不斷深入，“智能化”的搜索引擎將會涌現(xiàn)，面向Web的網(wǎng)絡(luò)信息挖掘也將會變得非常輕松。

參考文獻:

[1]克里斯·安德森:長尾理論.中信出版社，2006

[2]托馬斯·弗里德曼:世界是平的.東方出版社，2006

[3]杰里米·萊特:《博客營銷》.中國財政經(jīng)濟出版社，2007

[4]唐小鵬:博客營銷應(yīng)用初探.科技資訊，2007年第7期

商場現(xiàn)代化2008年2期

商場現(xiàn)代化的其它文章: 微分方程研究經(jīng)濟問題的數(shù)學(xué)建模; 競爭情報中外研究比較分析; 商務(wù)英語交際中的言語得體; 應(yīng)用型本科商務(wù)英語教學(xué)改革之思考; 商務(wù)英語專業(yè)以市場為導(dǎo)向的實習(xí)基地建設(shè); 咨詢業(yè)在網(wǎng)絡(luò)時代加速發(fā)展的原因