亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Ｗｅｂ環(huán)境下競爭情報自動采集初探

2009-04-29 00:00:00金燕閆曉妍林琳

現(xiàn)代情報 2009年3期

〔摘要〕介紹了Web環(huán)境下競爭情報自動采集的關(guān)鍵技術(shù)，構(gòu)造了一種基于自動采集的CI模型，該模型能夠?qū)eb信息源進行自動采集、文本分析、分類聚類，并根據(jù)特定主題對信息源實施監(jiān)控，生成競爭情報報告提交給企業(yè)決策層，從而提高企業(yè)決策的及時性、科學(xué)性。

〔關(guān)鍵詞〕Web;競爭情報;自動采集

〔中圖分類號〕G35 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821(2009)03-0023-03

1 Web環(huán)境下的競爭情報及競爭情報工作

簡單的說，競爭情報就是利用公開的信息源，獲取有關(guān)競爭、競爭對手和市場環(huán)境的信息的過程。這個過程包括如下幾個環(huán)節(jié):(1)識別需要獲取什么信息;(2)識別可以獲取所需信息的信息源;(3)收集所需信息;(4)分析、整合所收集的信息;(5)把分析的結(jié)果和得到的結(jié)論提供給相關(guān)人員，為其提供決策支持。隨著競爭的加劇，競爭情報工作越來越受重視。

早期，競爭情報從業(yè)者多是通過一些商情數(shù)據(jù)庫、公開的出版物、會議、展覽以及其他一些公共信息源人工采集競爭情報。近些年，隨著Internet的快速發(fā)展，Web給競爭情報從業(yè)者提供了更廣闊的信息獲取空間。這表現(xiàn)在，許多商情數(shù)據(jù)庫可以通過Internet使用;許多行業(yè)協(xié)會建立了自己的網(wǎng)站，在Web上發(fā)布大量的行業(yè)信息;絕大多數(shù)政府的法律、法規(guī)、相關(guān)政策等在Web上都可以檢索到;多數(shù)企業(yè)、組織都建立了自己的網(wǎng)站，發(fā)布大量的諸如公司歷史、產(chǎn)品一覽、金融數(shù)據(jù)、統(tǒng)計信息、銷售記錄、年度報告、人事變動、招聘廣告之類的信息?？梢哉f，Web不但為競爭情報從業(yè)者提供大量的免費信息，而且絕大多數(shù)信息比較及時，且能夠通過一些工具獲取，比起手工方式效率提高較明顯。然而，由于缺乏有效的自動采集工具，Internet在給競爭情報從業(yè)者提供大量信息的同時，也給他們帶來了巨大的時間消耗。有調(diào)查表明，收集信息所耗費的時間往往會占據(jù)整個競爭情報工作流程的30%[1]。競爭情報從業(yè)者迫切需要有效的信息自動采集工具來減少他們收集信息的時間，從而使他們把更多的精力放到信息的分析和整合上。

2 Web環(huán)境下的競爭情報自動采集技術(shù)

2.1 搜索引擎技術(shù)

搜索引擎技術(shù)是競爭情報從業(yè)者在Web環(huán)境下使用最為廣泛的一種信息自動采集技術(shù)。搜索引擎通常由如下模塊構(gòu)成:(1)信息采集模塊，主要負責(zé)從Web上獲取網(wǎng)頁內(nèi)容和鏈接信息。通常通過Robot軟件信息的自動采集。Robot是一種能夠根據(jù)文檔內(nèi)的超鏈遞歸訪問新文檔的軟件程序。在自動加載方式下，Robot從一個事先制定好的URL列表出發(fā)，根據(jù)http協(xié)議自動訪問WWW網(wǎng)頁，當(dāng)網(wǎng)頁被提取后，分析提取網(wǎng)頁中超文本的URL，將其加入URL列表，同時以此超鏈接作為新的起點，進一步訪問其他網(wǎng)頁，不斷循環(huán)下去;(2)索引模塊，主要負責(zé)對Robot收集的信息進行索引，并按照一定的方式存貯在索引數(shù)據(jù)庫中;(3)檢索和排序模塊，主要是確定檢索機制以及檢索結(jié)果的呈獻順序。利用搜索引擎進行競爭情報的自動采集，通常需要確定待采集信息的主題，從而使Robot自動跟蹤這些主題，實現(xiàn)采集的自動化和長期化，通過監(jiān)控一個主題的變化情況分析競爭對手的行為。這些主題包括企業(yè)名稱、產(chǎn)品名稱、競爭者網(wǎng)站的URL等。

除了一般的搜索引擎之外，元搜索引擎技術(shù)也開始應(yīng)用于競爭情報的自動采集。元搜索引擎可以調(diào)用多個搜索引擎，集成多個搜索引擎的結(jié)果，因而，所采集的信息更為全面。

但是，目前應(yīng)用的傳統(tǒng)搜索引擎技術(shù)，往往只能采集部分信息，如GOOGLE、百度只是采集了網(wǎng)上信息的10%，而對隱藏在網(wǎng)絡(luò)深處的一些結(jié)構(gòu)化和非結(jié)構(gòu)信息難以處理[2]，如企業(yè)內(nèi)部信息數(shù)據(jù)庫、企業(yè)的研發(fā)報告、文獻資料等。這些信息都無法被傳統(tǒng)的搜索引擎采集，即使采集到，也只能作為全文處理，不能區(qū)分信息的詳細屬性。但是，web數(shù)據(jù)庫、企業(yè)內(nèi)部非結(jié)構(gòu)化信息中蘊涵了大量高質(zhì)量的權(quán)威信息，必須對其給予重視。對于這些信息的采集，需要應(yīng)用新的搜索引擎技術(shù)。有學(xué)者提出把P2P技術(shù)應(yīng)用到網(wǎng)頁檢索中，能夠大大改善信息采集的深度和寬度，拓展信息的采集面。

2.2 文本分析與聚類技術(shù)

通過Robot收集的信息數(shù)量很大，對這些信息的長期跟蹤必須建立在對這些信息的分析和分類、歸類的基礎(chǔ)上，這就需要用到文本分析和聚類技術(shù)。

文本分析是通過對文檔的結(jié)構(gòu)和內(nèi)容的分析來獲取文檔的關(guān)鍵信息，包括文檔標(biāo)志、文檔空間矢量、文檔中的詞頻分布、文檔中重要關(guān)鍵詞的關(guān)聯(lián)、詞的權(quán)重、文檔的語義等，消除文檔的模糊性。根據(jù)這些信息，判斷文檔的主題內(nèi)容和文檔集的語義，有利于文檔內(nèi)容的確定和文檔的歸類、聚類。詞的分析、文本特征抽取、自動去重、自動標(biāo)引、自動索引、自動摘要、自然語言處理等都是常用的文本分析技術(shù)。

聚類是采用一定的算法，自動的將文檔集合分成若干群，要求同一群內(nèi)的文檔內(nèi)容的相似度要盡可能的大，而不同群內(nèi)的文檔內(nèi)容之間的相似度要盡可能的小，每一個群都有一個相應(yīng)的主題。聚類沒有事先定義好的主題，通常是根據(jù)一定的算法通過關(guān)聯(lián)分析進行。目前文本聚類的方法大致可以分為層次凝聚法和平面劃分法2種[3]。

2009年3月第29卷第3期現(xiàn)?代?情?報Journal of Modern InformationMar.2009Vol.29 No.32009年3月第29卷第3期Web環(huán)境下競爭情報自動采集初探Mar.2009Vol.29 No.32.3 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘是一種新的信息處理技術(shù)，它從大量數(shù)據(jù)中提取輔助決策的關(guān)鍵性知識，這些知識可以是隱含的、未知的、非平凡的及潛在有用的信息或模式，從而提高市場決策能力、偏差檢測、風(fēng)險預(yù)警，在經(jīng)驗?zāi)Ｐ突A(chǔ)上預(yù)測未來趨勢，跟蹤正在出現(xiàn)的連續(xù)性和非連續(xù)性變化，以及分析現(xiàn)有和潛在競爭對手的能力和動向，幫助企業(yè)贏得競爭優(yōu)勢[4]。

企業(yè)競爭情報獲取的信息形式多樣，可以是來自競爭對手網(wǎng)站、行業(yè)網(wǎng)站、政府網(wǎng)站的Web文檔;還有以企業(yè)的MIS、ERP等信息系統(tǒng)為中心，企業(yè)日常業(yè)務(wù)積累的數(shù)據(jù)信息形成的關(guān)系型數(shù)據(jù)庫、文檔數(shù)據(jù)庫等。數(shù)據(jù)挖掘技術(shù)的應(yīng)用包括數(shù)據(jù)庫挖掘和文本挖掘。數(shù)據(jù)庫挖掘?qū)Υ笕萘繑?shù)據(jù)庫中的結(jié)構(gòu)化信息進行關(guān)聯(lián)分析、時序演變分析、聚類、分類、預(yù)測等從而建立隱含的模型;文本挖掘的對象是非結(jié)構(gòu)化的數(shù)據(jù)，它綜合了文本處理技術(shù)和知識發(fā)現(xiàn)技術(shù)，主要通過對搜索到的文本頁面進行文本特征提取、主題析取、文本分類、文本聚類、相關(guān)度分析等來獲取有用的、潛在的關(guān)系、規(guī)則、趨勢等知識。

少數(shù)國內(nèi)企業(yè)目前已開始或計劃采用數(shù)據(jù)庫挖掘技術(shù)，從企業(yè)內(nèi)部結(jié)構(gòu)化數(shù)據(jù)源中通過聯(lián)機分析處理和數(shù)據(jù)挖掘技術(shù)進行深層情報的提取。文本挖掘方法可以幫助企業(yè)從海量的內(nèi)外部文本信息源中提取有用的情報。目前這種方式在所調(diào)查的國外企業(yè)中已被廣泛采用，而國內(nèi)企業(yè)基本上還未將其作為一種正式的競爭情報采集手段[5]。

2.4 信息過濾技術(shù)

信息過濾是根據(jù)用戶的興趣或偏好，自動地采集與之相關(guān)的信息并把其推送給用戶的過程。常見的信息過濾技術(shù)主要有基于內(nèi)容的過濾和協(xié)作過濾，目前在競爭情報系統(tǒng)中常用的是前者。

基于內(nèi)容的過濾主要是在信息的內(nèi)容與用戶興趣之間建立聯(lián)系，根據(jù)資源與用戶興趣的相似性來過濾信息。通常是根據(jù)用戶模型(profile)，從信息源中匹配與之相關(guān)的內(nèi)容，把其中符合特定標(biāo)準(zhǔn)的部分篩選出來呈送給用戶，主要采用基于關(guān)鍵詞的匹配，用關(guān)鍵詞匹配技術(shù)實現(xiàn)。這種技術(shù)應(yīng)用于信息采集存在一定的缺陷:比如，由于過濾的結(jié)果只取決于用戶信息需求模型與信息源的匹配程度，那么關(guān)鍵詞匹配過濾的結(jié)果與用戶呈送的關(guān)鍵詞密切相關(guān)，如果用戶呈送的關(guān)鍵詞不能準(zhǔn)確表示其需求，則過濾的結(jié)果很難滿足用戶的需要;此外，關(guān)鍵詞匹配過濾不能區(qū)分信息資源質(zhì)量的好壞，且不能動態(tài)地為用戶推薦其可能感興趣的信息。

信息過濾技術(shù)可以幫助企業(yè)實現(xiàn)特定主題信息的定制采集。這種技術(shù)與搜索引擎方式的區(qū)別是，它可以借助相關(guān)軟件系統(tǒng)進行特定主題的自動搜索。目前有少數(shù)企業(yè)單純使用這樣方式開展競爭情報采集工作。如中國國際科學(xué)技術(shù)合作協(xié)會就利用信息過濾和推送技術(shù)，組織人員對互聯(lián)網(wǎng)上的信息進行基于用戶興趣模型的定制采集，并將信息采集的結(jié)果推送給客戶[5]。

2.5 智能Agent技術(shù)

智能Agent具有感知能力、問題求解能力、與外界進行通信能力，它使用戶通過代理通信協(xié)議進行交換，以實現(xiàn)問題自動解決。智能Agent能在沒有明確具體要求的情況下，以用戶需求為先導(dǎo)進行信息搜集和信息加工，代替用戶進行信息查詢、篩選、管理等工作，并能推測用戶意圖，自動制定、調(diào)整和執(zhí)行工作計劃，是用戶獲取資源的“自動助手”。

在信息采集中智能Agent主要完成資源導(dǎo)航、信息發(fā)現(xiàn)和信息過濾功能。資源導(dǎo)航是指智能Agent能夠根據(jù)用戶提供的初始URL或相關(guān)Web頁面作為訓(xùn)練樣本，自動搜集、發(fā)掘用戶所需的信息，提供資源導(dǎo)航服務(wù)。智能Agent具有推理能力和從經(jīng)驗中學(xué)習(xí)能力，在用戶查詢請求不明確時，能夠根據(jù)知識庫中的事實和推理規(guī)則發(fā)現(xiàn)用戶的潛在信息需求。過濾功能指智能Agent根據(jù)預(yù)定的主題和需求偏好過濾信息，并以不同級別(全文、摘要、標(biāo)題)呈現(xiàn)給用戶。

智能Agent的智能性、代理性、協(xié)作性、主動性使它成為滿足網(wǎng)絡(luò)信息檢索、個性化信息需求的重要技術(shù)，越來越受到廣大用戶的青睞。Intelliseek公司的BrandPulse就利用了智能代理技術(shù)，它能夠從各種各樣的信息源中收集與特定品牌或主題相關(guān)的信息[6]。CA公司推出的Neugent是一種基于神經(jīng)網(wǎng)絡(luò)的智能代理技術(shù)，它能夠在不斷變化的商業(yè)環(huán)境中跟蹤客戶行為，從龐大的海量數(shù)據(jù)中以不同角度分析各種復(fù)雜的模式，并在統(tǒng)計的基礎(chǔ)上做出預(yù)測，為商業(yè)用戶提供極具價值的商業(yè)信息[7]。

3 一個基于自動采集的CI模型

3.1 模型的基本思想

通過調(diào)查發(fā)現(xiàn)，目前大多數(shù)企業(yè)都或多或少采用了一定的智能化手段輔助競爭情報采集，基本上都實現(xiàn)了信息的自動采集，大部分還實現(xiàn)了自動去重和自動標(biāo)引，少數(shù)企業(yè)還實現(xiàn)了基于自動摘要的競爭情報采集。而如何實現(xiàn)自動分類則是目前企業(yè)最受關(guān)注的一類智能化競爭情報采集方式?；诖耍P者提出了一個基于自動采集的CI模型，如圖1所示，希望能夠建立一個自動采集和跟蹤給定主題信息的CI系統(tǒng)，解決Web環(huán)境下的動態(tài)競爭情報的采集問題。

3.2 模型的基本架構(gòu)

模型主要由采集模塊、分析模塊、監(jiān)控模塊和呈送模塊構(gòu)成，各部分模塊功能如下:

3.2.1 采集模塊

根據(jù)企業(yè)確立的情報需求，通過Robot程序?qū)eb信息源進行自動采集，從給定的主題或URL出發(fā)，通過超文本傳輸協(xié)議(http)獲取web文檔，并將超鏈接的相關(guān)文檔地

址列入URL列表中，進行遍歷搜索，最后形成一個有關(guān)企業(yè)競爭情報的文本集合。采集模塊主要實現(xiàn)技術(shù)有搜索引擎技術(shù)和智能Agent技術(shù)。智能Agent技術(shù)對用戶信息需求、偏好進行甄別、歸納，自動代理用戶查找其感興趣的信息;結(jié)合搜索引擎技術(shù)“面向主題”的檢索模式，在密切關(guān)注用戶信息需求的基礎(chǔ)上，提高信息采集的覆蓋面，以彌補智能Agent信息搜索范圍有限的缺陷。

3.2.2 分析模塊

分析階段是競爭情報系統(tǒng)的核心，主要借助于系統(tǒng)提供的各種分析模型以及數(shù)據(jù)挖掘工具對采集模塊采集的信息進行綜合分析、深層挖掘，從而得到企業(yè)所需的信息。分析模塊的關(guān)鍵技術(shù)有文本分析、文本聚類以及數(shù)據(jù)挖掘技術(shù)等，通過文本分析與聚類技術(shù)對web頁進行自動分類、自動摘要、自動聚類等智能化分析處理，充分挖掘信息中隱藏的價值;數(shù)據(jù)挖掘技術(shù)是企業(yè)實現(xiàn)數(shù)據(jù)深層次挖掘的核心技術(shù)，可以在大量信息中發(fā)現(xiàn)未知的關(guān)系、模式，從而實現(xiàn)關(guān)聯(lián)分析、時序演變分析、偏差檢測等。Web環(huán)境下，對文本資源的挖掘顯得尤為重要，基于文本內(nèi)容的文本分類、自動摘要、文本聚類等技術(shù)的成熟，為企業(yè)競爭情報系統(tǒng)提供了有力的支持。

3.2.3 監(jiān)控模塊

監(jiān)控模塊主要對特定主題和對象進行多方位連續(xù)追蹤，對于異常情況能夠及時發(fā)現(xiàn)并提出預(yù)警，以使企業(yè)迅速采取相關(guān)措施。實施監(jiān)控的項目包括市場需求動態(tài)監(jiān)測、突發(fā)事件監(jiān)控、競爭對手跟蹤、易失客戶分析、潛在客戶調(diào)查以及客服記錄統(tǒng)計等[8]。監(jiān)控模塊主要利用智能Agent技術(shù)和數(shù)據(jù)挖掘技術(shù)，通過監(jiān)控一個主題的變化情況，利用基于偏差的異常數(shù)據(jù)監(jiān)測方法設(shè)置預(yù)警指標(biāo)，分析各種變化量及變化幅度，對可能出現(xiàn)的機遇或風(fēng)險提供早期預(yù)警，幫助企業(yè)及時掌握市場動態(tài)，發(fā)現(xiàn)問題并找到原因。對競爭對手進行監(jiān)控和技術(shù)跟蹤，分析競爭對手行為，對行業(yè)趨勢和競爭環(huán)境進行檢測分析，為企業(yè)決策者提供準(zhǔn)確、及時的競爭情報，使企業(yè)在瞬息萬變的市場競爭中處于主動地位。

3.2.4 呈送模塊

呈送模塊通過對分析挖掘的結(jié)果進行評價，生成競爭情報報告，提交給用戶，為企業(yè)決策提供依據(jù)。呈送模塊為整個競爭情報系統(tǒng)提供了一個信息交流和共享的平臺，該模塊應(yīng)具有情報知識樹分類導(dǎo)航、多途徑檢索、報告自動生成等功能。呈送模塊主要利用信息過濾、信息推送以及可視化技術(shù)，消除無關(guān)的、多余的信息，過濾出支持企業(yè)決策的關(guān)鍵信息，將分析結(jié)果以適當(dāng)方式及時反饋給適當(dāng)?shù)牟块T和人員。

參考文獻

[1]Hsinchun Chen，Michael Chau，Daniel Zeng.CI Spider:a tool for competitive intelligence on the web[J].Decision Support System，2002，(34):1-17.

[2]喬佃剛.利用結(jié)構(gòu)化數(shù)據(jù)采集技術(shù)，挖掘深層網(wǎng)絡(luò)信息[EB/OL].http:∥blog.csdn.net/qiaodg/archive/2006/05/18/744407.aspx，2008-03-01.

[3]陳萍麗.web挖掘在競爭情報系統(tǒng)中的應(yīng)用[J].中國信息導(dǎo)報，2003，(3):58.

[4]Amir M.Hormozi，Stacy Giles.Data mining:A Competitive Weapon for Banking and Retail Industries[J].Information Systems Management，2004:62-71.

[5]吳偉.國外競爭情報軟件研究[J].情報理論與實踐，2004，(1):103-106.

[6]Neugent智能代理介紹[EB/OL].http:∥news.chinabyte.com/429/103429.shtml，2008-07-10.

[7]張念萍，盧偉.市場動態(tài)競爭情報系統(tǒng)及其運用[J].經(jīng)濟與社會發(fā)展，2004，(5):32-34.

現(xiàn)代情報2009年3期

現(xiàn)代情報的其它文章: 情報信息動態(tài)規(guī)劃優(yōu)化網(wǎng)絡(luò)算法軟件研發(fā)與應(yīng)用; 信息社會學(xué)習(xí)型圖書館的建構(gòu)態(tài)勢芻議; 基于遺傳算法的主題信息搜索系統(tǒng)研究; 基于網(wǎng)絡(luò)教學(xué)平臺的《信息檢索》課程實踐; ＭＡＲＣ未來及質(zhì)量控制; 互引系統(tǒng)的有向賦權(quán)圖模型