亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web環(huán)境下競爭情報自動采集初探

        2009-04-29 00:00:00閆曉妍
        現(xiàn)代情報 2009年3期

        〔摘 要〕介紹了Web環(huán)境下競爭情報自動采集的關(guān)鍵技術(shù),構(gòu)造了一種基于自動采集的CI模型,該模型能夠?qū)eb信息源進行自動采集、文本分析、分類聚類,并根據(jù)特定主題對信息源實施監(jiān)控,生成競爭情報報告提交給企業(yè)決策層,從而提高企業(yè)決策的及時性、科學(xué)性。

        〔關(guān)鍵詞〕Web;競爭情報;自動采集

        〔中圖分類號〕G35 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821(2009)03-0023-03

        1 Web環(huán)境下的競爭情報及競爭情報工作

        簡單的說,競爭情報就是利用公開的信息源,獲取有關(guān)競爭、競爭對手和市場環(huán)境的信息的過程。這個過程包括如下幾個環(huán)節(jié):(1)識別需要獲取什么信息;(2)識別可以獲取所需信息的信息源;(3)收集所需信息;(4)分析、整合所收集的信息;(5)把分析的結(jié)果和得到的結(jié)論提供給相關(guān)人員,為其提供決策支持。隨著競爭的加劇,競爭情報工作越來越受重視。

        早期,競爭情報從業(yè)者多是通過一些商情數(shù)據(jù)庫、公開的出版物、會議、展覽以及其他一些公共信息源人工采集競爭情報。近些年,隨著Internet的快速發(fā)展,Web給競爭情報從業(yè)者提供了更廣闊的信息獲取空間。這表現(xiàn)在,許多商情數(shù)據(jù)庫可以通過Internet使用;許多行業(yè)協(xié)會建立了自己的網(wǎng)站,在Web上發(fā)布大量的行業(yè)信息;絕大多數(shù)政府的法律、法規(guī)、相關(guān)政策等在Web上都可以檢索到;多數(shù)企業(yè)、組織都建立了自己的網(wǎng)站,發(fā)布大量的諸如公司歷史、產(chǎn)品一覽、金融數(shù)據(jù)、統(tǒng)計信息、銷售記錄、年度報告、人事變動、招聘廣告之類的信息??梢哉f,Web不但為競爭情報從業(yè)者提供大量的免費信息,而且絕大多數(shù)信息比較及時,且能夠通過一些工具獲取,比起手工方式效率提高較明顯。然而,由于缺乏有效的自動采集工具,Internet在給競爭情報從業(yè)者提供大量信息的同時,也給他們帶來了巨大的時間消耗。有調(diào)查表明,收集信息所耗費的時間往往會占據(jù)整個競爭情報工作流程的30%[1]。競爭情報從業(yè)者迫切需要有效的信息自動采集工具來減少他們收集信息的時間,從而使他們把更多的精力放到信息的分析和整合上。

        2 Web環(huán)境下的競爭情報自動采集技術(shù)

        2.1 搜索引擎技術(shù)

        搜索引擎技術(shù)是競爭情報從業(yè)者在Web環(huán)境下使用最為廣泛的一種信息自動采集技術(shù)。搜索引擎通常由如下模塊構(gòu)成:(1)信息采集模塊,主要負責(zé)從Web上獲取網(wǎng)頁內(nèi)容和鏈接信息。通常通過Robot軟件信息的自動采集。Robot是一種能夠根據(jù)文檔內(nèi)的超鏈遞歸訪問新文檔的軟件程序。在自動加載方式下,Robot從一個事先制定好的URL列表出發(fā),根據(jù)http協(xié)議自動訪問WWW網(wǎng)頁,當(dāng)網(wǎng)頁被提取后,分析提取網(wǎng)頁中超文本的URL,將其加入URL列表,同時以此超鏈接作為新的起點,進一步訪問其他網(wǎng)頁,不斷循環(huán)下去;(2)索引模塊,主要負責(zé)對Robot收集的信息進行索引,并按照一定的方式存貯在索引數(shù)據(jù)庫中;(3)檢索和排序模塊,主要是確定檢索機制以及檢索結(jié)果的呈獻順序。利用搜索引擎進行競爭情報的自動采集,通常需要確定待采集信息的主題,從而使Robot自動跟蹤這些主題,實現(xiàn)采集的自動化和長期化,通過監(jiān)控一個主題的變化情況分析競爭對手的行為。這些主題包括企業(yè)名稱、產(chǎn)品名稱、競爭者網(wǎng)站的URL等。

        除了一般的搜索引擎之外,元搜索引擎技術(shù)也開始應(yīng)用于競爭情報的自動采集。元搜索引擎可以調(diào)用多個搜索引擎,集成多個搜索引擎的結(jié)果,因而,所采集的信息更為全面。

        但是,目前應(yīng)用的傳統(tǒng)搜索引擎技術(shù),往往只能采集部分信息,如GOOGLE、百度只是采集了網(wǎng)上信息的10%,而對隱藏在網(wǎng)絡(luò)深處的一些結(jié)構(gòu)化和非結(jié)構(gòu)信息難以處理[2],如企業(yè)內(nèi)部信息數(shù)據(jù)庫、企業(yè)的研發(fā)報告、文獻資料等。這些信息都無法被傳統(tǒng)的搜索引擎采集,即使采集到,也只能作為全文處理,不能區(qū)分信息的詳細屬性。但是,web數(shù)據(jù)庫、企業(yè)內(nèi)部非結(jié)構(gòu)化信息中蘊涵了大量高質(zhì)量的權(quán)威信息,必須對其給予重視。對于這些信息的采集,需要應(yīng)用新的搜索引擎技術(shù)。有學(xué)者提出把P2P技術(shù)應(yīng)用到網(wǎng)頁檢索中,能夠大大改善信息采集的深度和寬度,拓展信息的采集面。

        2.2 文本分析與聚類技術(shù)

        通過Robot收集的信息數(shù)量很大,對這些信息的長期跟蹤必須建立在對這些信息的分析和分類、歸類的基礎(chǔ)上,這就需要用到文本分析和聚類技術(shù)。

        文本分析是通過對文檔的結(jié)構(gòu)和內(nèi)容的分析來獲取文檔的關(guān)鍵信息,包括文檔標(biāo)志、文檔空間矢量、文檔中的詞頻分布、文檔中重要關(guān)鍵詞的關(guān)聯(lián)、詞的權(quán)重、文檔的語義等,消除文檔的模糊性。根據(jù)這些信息,判斷文檔的主題內(nèi)容和文檔集的語義,有利于文檔內(nèi)容的確定和文檔的歸類、聚類。詞的分析、文本特征抽取、自動去重、自動標(biāo)引、自動索引、自動摘要、自然語言處理等都是常用的文本分析技術(shù)。

        聚類是采用一定的算法,自動的將文檔集合分成若干群,要求同一群內(nèi)的文檔內(nèi)容的相似度要盡可能的大,而不同群內(nèi)的文檔內(nèi)容之間的相似度要盡可能的小,每一個群都有一個相應(yīng)的主題。聚類沒有事先定義好的主題,通常是根據(jù)一定的算法通過關(guān)聯(lián)分析進行。目前文本聚類的方法大致可以分為層次凝聚法和平面劃分法2種[3]。

        2009年3月第29卷第3期現(xiàn)?代?情?報Journal of Modern InformationMar.2009Vol.29 No.32009年3月第29卷第3期Web環(huán)境下競爭情報自動采集初探Mar.2009Vol.29 No.32.3 數(shù)據(jù)挖掘技術(shù)

        數(shù)據(jù)挖掘是一種新的信息處理技術(shù),它從大量數(shù)據(jù)中提取輔助決策的關(guān)鍵性知識,這些知識可以是隱含的、未知的、非平凡的及潛在有用的信息或模式,從而提高市場決策能力、偏差檢測、風(fēng)險預(yù)警,在經(jīng)驗?zāi)P突A(chǔ)上預(yù)測未來趨勢,跟蹤正在出現(xiàn)的連續(xù)性和非連續(xù)性變化,以及分析現(xiàn)有和潛在競爭對手的能力和動向,幫助企業(yè)贏得競爭優(yōu)勢[4]。

        企業(yè)競爭情報獲取的信息形式多樣,可以是來自競爭對手網(wǎng)站、行業(yè)網(wǎng)站、政府網(wǎng)站的Web文檔;還有以企業(yè)的MIS、ERP等信息系統(tǒng)為中心,企業(yè)日常業(yè)務(wù)積累的數(shù)據(jù)信息形成的關(guān)系型數(shù)據(jù)庫、文檔數(shù)據(jù)庫等。數(shù)據(jù)挖掘技術(shù)的應(yīng)用包括數(shù)據(jù)庫挖掘和文本挖掘。數(shù)據(jù)庫挖掘?qū)Υ笕萘繑?shù)據(jù)庫中的結(jié)構(gòu)化信息進行關(guān)聯(lián)分析、時序演變分析、聚類、分類、預(yù)測等從而建立隱含的模型;文本挖掘的對象是非結(jié)構(gòu)化的數(shù)據(jù),它綜合了文本處理技術(shù)和知識發(fā)現(xiàn)技術(shù),主要通過對搜索到的文本頁面進行文本特征提取、主題析取、文本分類、文本聚類、相關(guān)度分析等來獲取有用的、潛在的關(guān)系、規(guī)則、趨勢等知識。

        少數(shù)國內(nèi)企業(yè)目前已開始或計劃采用數(shù)據(jù)庫挖掘技術(shù),從企業(yè)內(nèi)部結(jié)構(gòu)化數(shù)據(jù)源中通過聯(lián)機分析處理和數(shù)據(jù)挖掘技術(shù)進行深層情報的提取。文本挖掘方法可以幫助企業(yè)從海量的內(nèi)外部文本信息源中提取有用的情報。目前這種方式在所調(diào)查的國外企業(yè)中已被廣泛采用,而國內(nèi)企業(yè)基本上還未將其作為一種正式的競爭情報采集手段[5]。

        2.4 信息過濾技術(shù)

        信息過濾是根據(jù)用戶的興趣或偏好,自動地采集與之相關(guān)的信息并把其推送給用戶的過程。常見的信息過濾技術(shù)主要有基于內(nèi)容的過濾和協(xié)作過濾,目前在競爭情報系統(tǒng)中常用的是前者。

        基于內(nèi)容的過濾主要是在信息的內(nèi)容與用戶興趣之間建立聯(lián)系,根據(jù)資源與用戶興趣的相似性來過濾信息。通常是根據(jù)用戶模型(profile),從信息源中匹配與之相關(guān)的內(nèi)容,把其中符合特定標(biāo)準(zhǔn)的部分篩選出來呈送給用戶,主要采用基于關(guān)鍵詞的匹配,用關(guān)鍵詞匹配技術(shù)實現(xiàn)。這種技術(shù)應(yīng)用于信息采集存在一定的缺陷:比如,由于過濾的結(jié)果只取決于用戶信息需求模型與信息源的匹配程度,那么關(guān)鍵詞匹配過濾的結(jié)果與用戶呈送的關(guān)鍵詞密切相關(guān),如果用戶呈送的關(guān)鍵詞不能準(zhǔn)確表示其需求,則過濾的結(jié)果很難滿足用戶的需要;此外,關(guān)鍵詞匹配過濾不能區(qū)分信息資源質(zhì)量的好壞,且不能動態(tài)地為用戶推薦其可能感興趣的信息。

        信息過濾技術(shù)可以幫助企業(yè)實現(xiàn)特定主題信息的定制采集。這種技術(shù)與搜索引擎方式的區(qū)別是,它可以借助相關(guān)軟件系統(tǒng)進行特定主題的自動搜索。目前有少數(shù)企業(yè)單純使用這樣方式開展競爭情報采集工作。如中國國際科學(xué)技術(shù)合作協(xié)會就利用信息過濾和推送技術(shù),組織人員對互聯(lián)網(wǎng)上的信息進行基于用戶興趣模型的定制采集,并將信息采集的結(jié)果推送給客戶[5]。

        2.5 智能Agent技術(shù)

        智能Agent具有感知能力、問題求解能力、與外界進行通信能力,它使用戶通過代理通信協(xié)議進行交換,以實現(xiàn)問題自動解決。智能Agent能在沒有明確具體要求的情況下,以用戶需求為先導(dǎo)進行信息搜集和信息加工,代替用戶進行信息查詢、篩選、管理等工作,并能推測用戶意圖,自動制定、調(diào)整和執(zhí)行工作計劃,是用戶獲取資源的“自動助手”。

        在信息采集中智能Agent主要完成資源導(dǎo)航、信息發(fā)現(xiàn)和信息過濾功能。資源導(dǎo)航是指智能Agent能夠根據(jù)用戶提供的初始URL或相關(guān)Web頁面作為訓(xùn)練樣本,自動搜集、發(fā)掘用戶所需的信息,提供資源導(dǎo)航服務(wù)。智能Agent具有推理能力和從經(jīng)驗中學(xué)習(xí)能力,在用戶查詢請求不明確時,能夠根據(jù)知識庫中的事實和推理規(guī)則發(fā)現(xiàn)用戶的潛在信息需求。過濾功能指智能Agent根據(jù)預(yù)定的主題和需求偏好過濾信息,并以不同級別(全文、摘要、標(biāo)題)呈現(xiàn)給用戶。

        智能Agent的智能性、代理性、協(xié)作性、主動性使它成為滿足網(wǎng)絡(luò)信息檢索、個性化信息需求的重要技術(shù),越來越受到廣大用戶的青睞。Intelliseek公司的BrandPulse就利用了智能代理技術(shù),它能夠從各種各樣的信息源中收集與特定品牌或主題相關(guān)的信息[6]。CA公司推出的Neugent是一種基于神經(jīng)網(wǎng)絡(luò)的智能代理技術(shù),它能夠在不斷變化的商業(yè)環(huán)境中跟蹤客戶行為,從龐大的海量數(shù)據(jù)中以不同角度分析各種復(fù)雜的模式,并在統(tǒng)計的基礎(chǔ)上做出預(yù)測,為商業(yè)用戶提供極具價值的商業(yè)信息[7]。

        3 一個基于自動采集的CI模型

        3.1 模型的基本思想

        通過調(diào)查發(fā)現(xiàn),目前大多數(shù)企業(yè)都或多或少采用了一定的智能化手段輔助競爭情報采集,基本上都實現(xiàn)了信息的自動采集,大部分還實現(xiàn)了自動去重和自動標(biāo)引,少數(shù)企業(yè)還實現(xiàn)了基于自動摘要的競爭情報采集。而如何實現(xiàn)自動分類則是目前企業(yè)最受關(guān)注的一類智能化競爭情報采集方式?;诖耍P者提出了一個基于自動采集的CI模型,如圖1所示,希望能夠建立一個自動采集和跟蹤給定主題信息的CI系統(tǒng),解決Web環(huán)境下的動態(tài)競爭情報的采集問題。

        3.2 模型的基本架構(gòu)

        模型主要由采集模塊、分析模塊、監(jiān)控模塊和呈送模塊構(gòu)成,各部分模塊功能如下:

        3.2.1 采集模塊

        根據(jù)企業(yè)確立的情報需求,通過Robot程序?qū)eb信息源進行自動采集,從給定的主題或URL出發(fā),通過超文本傳輸協(xié)議(http)獲取web文檔,并將超鏈接的相關(guān)文檔地

        址列入URL列表中,進行遍歷搜索,最后形成一個有關(guān)企業(yè)競爭情報的文本集合。采集模塊主要實現(xiàn)技術(shù)有搜索引擎技術(shù)和智能Agent技術(shù)。智能Agent技術(shù)對用戶信息需求、偏好進行甄別、歸納,自動代理用戶查找其感興趣的信息;結(jié)合搜索引擎技術(shù)“面向主題”的檢索模式,在密切關(guān)注用戶信息需求的基礎(chǔ)上,提高信息采集的覆蓋面,以彌補智能Agent信息搜索范圍有限的缺陷。

        3.2.2 分析模塊

        分析階段是競爭情報系統(tǒng)的核心,主要借助于系統(tǒng)提供的各種分析模型以及數(shù)據(jù)挖掘工具對采集模塊采集的信息進行綜合分析、深層挖掘,從而得到企業(yè)所需的信息。分析模塊的關(guān)鍵技術(shù)有文本分析、文本聚類以及數(shù)據(jù)挖掘技術(shù)等,通過文本分析與聚類技術(shù)對web頁進行自動分類、自動摘要、自動聚類等智能化分析處理,充分挖掘信息中隱藏的價值;數(shù)據(jù)挖掘技術(shù)是企業(yè)實現(xiàn)數(shù)據(jù)深層次挖掘的核心技術(shù),可以在大量信息中發(fā)現(xiàn)未知的關(guān)系、模式,從而實現(xiàn)關(guān)聯(lián)分析、時序演變分析、偏差檢測等。Web環(huán)境下,對文本資源的挖掘顯得尤為重要,基于文本內(nèi)容的文本分類、自動摘要、文本聚類等技術(shù)的成熟,為企業(yè)競爭情報系統(tǒng)提供了有力的支持。

        3.2.3 監(jiān)控模塊

        監(jiān)控模塊主要對特定主題和對象進行多方位連續(xù)追蹤,對于異常情況能夠及時發(fā)現(xiàn)并提出預(yù)警,以使企業(yè)迅速采取相關(guān)措施。實施監(jiān)控的項目包括市場需求動態(tài)監(jiān)測、突發(fā)事件監(jiān)控、競爭對手跟蹤、易失客戶分析、潛在客戶調(diào)查以及客服記錄統(tǒng)計等[8]。監(jiān)控模塊主要利用智能Agent技術(shù)和數(shù)據(jù)挖掘技術(shù),通過監(jiān)控一個主題的變化情況,利用基于偏差的異常數(shù)據(jù)監(jiān)測方法設(shè)置預(yù)警指標(biāo),分析各種變化量及變化幅度,對可能出現(xiàn)的機遇或風(fēng)險提供早期預(yù)警,幫助企業(yè)及時掌握市場動態(tài),發(fā)現(xiàn)問題并找到原因。對競爭對手進行監(jiān)控和技術(shù)跟蹤,分析競爭對手行為,對行業(yè)趨勢和競爭環(huán)境進行檢測分析,為企業(yè)決策者提供準(zhǔn)確、及時的競爭情報,使企業(yè)在瞬息萬變的市場競爭中處于主動地位。

        3.2.4 呈送模塊

        呈送模塊通過對分析挖掘的結(jié)果進行評價,生成競爭情報報告,提交給用戶,為企業(yè)決策提供依據(jù)。呈送模塊為整個競爭情報系統(tǒng)提供了一個信息交流和共享的平臺,該模塊應(yīng)具有情報知識樹分類導(dǎo)航、多途徑檢索、報告自動生成等功能。呈送模塊主要利用信息過濾、信息推送以及可視化技術(shù),消除無關(guān)的、多余的信息,過濾出支持企業(yè)決策的關(guān)鍵信息,將分析結(jié)果以適當(dāng)方式及時反饋給適當(dāng)?shù)牟块T和人員。

        參考文獻

        [1]Hsinchun Chen,Michael Chau,Daniel Zeng.CI Spider:a tool for competitive intelligence on the web[J].Decision Support System,2002,(34):1-17.

        [2]喬佃剛.利用結(jié)構(gòu)化數(shù)據(jù)采集技術(shù),挖掘深層網(wǎng)絡(luò)信息[EB/OL].http:∥blog.csdn.net/qiaodg/archive/2006/05/18/744407.aspx,2008-03-01.

        [3]陳萍麗.web挖掘在競爭情報系統(tǒng)中的應(yīng)用[J].中國信息導(dǎo)報,2003,(3):58.

        [4]Amir M.Hormozi,Stacy Giles.Data mining:A Competitive Weapon for Banking and Retail Industries[J].Information Systems Management,2004:62-71.

        [5]吳偉.國外競爭情報軟件研究[J].情報理論與實踐,2004,(1):103-106.

        [6]Neugent智能代理介紹[EB/OL].http:∥news.chinabyte.com/429/103429.shtml,2008-07-10.

        [7]張念萍,盧偉.市場動態(tài)競爭情報系統(tǒng)及其運用[J].經(jīng)濟與社會發(fā)展,2004,(5):32-34.

        亚洲av无码国产精品色午夜字幕 | 久久久精品电影| 日本黄色高清视频久久| 91九色成人蝌蚪首页| 欧美人妻日韩精品| 亚洲综合色一区二区三区另类| 国产后入内射在线观看| 亚洲国产精品久久婷婷| 中国丰满人妻videoshd| 少妇精品无码一区二区三区| 性感人妻一区二区三区| 国产精品国产三级国产专播下| 午夜毛片不卡免费观看视频| 好吊妞人成免费视频观看| 中文字幕中乱码一区无线精品 | 亚洲一区二区高清在线| 亚洲女人的天堂网av| 色欲av蜜桃一区二区三| 日韩爱爱网站| 日韩乱码精品中文字幕不卡| 人妻精品在线手机观看| 亚洲丁香五月天缴情综合| 国产精品每日更新在线观看 | 国产午夜福利小视频合集| 精品免费久久久久国产一区| 国产成人一区二区三区影院| 疯狂的欧美乱大交| 香蕉色香蕉在线视频| 91国内偷拍一区二区三区| 国产精品亚洲一区二区三区| 孩交精品xxxx视频视频| 亚洲AV无码一区二区三区精神| 美女脱了内裤洗澡视频| 亚洲熟女乱综合一区二区| 国产精品高潮无码毛片| 成a人片亚洲日本久久| 国产精品办公室沙发| 色综合久久久久久久久五月| 精品一区二区三区长筒靴| 狂猛欧美激情性xxxx大豆行情| 搡老熟女老女人一区二区|