亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時代企業(yè)競爭情報研究的創(chuàng)新與發(fā)展

        2012-04-29 00:44:03黃曉斌鐘輝新
        圖書與情報 2012年6期
        關(guān)鍵詞:情報研究數(shù)據(jù)量情報

        黃曉斌 鐘輝新

        摘要:文章概述了大數(shù)據(jù)的主要特征,分析了大數(shù)據(jù)對企業(yè)競爭情報研究的影響,包括企業(yè)競爭力的提升需要大數(shù)據(jù)的支持,現(xiàn)有企業(yè)競爭情報數(shù)據(jù)處理面臨的一些新問題,企業(yè)競爭情報分析方法亟待創(chuàng)新,提出在大數(shù)據(jù)時代企業(yè)競爭情報研究的發(fā)展方向,應(yīng)重視數(shù)據(jù)和信息的集成、注意對數(shù)據(jù)的清洗與過濾、關(guān)注新的數(shù)據(jù)類型的挖掘分析方法、促進數(shù)據(jù)分析的可視化、探索大數(shù)據(jù)新的分析技術(shù)和工具的應(yīng)用等。

        關(guān)鍵詞:大數(shù)據(jù)企業(yè)競爭情報數(shù)據(jù)挖掘

        中圖分類號:G250.2文獻標識碼:A文章編號:1003-6938(2012)06-0009-06

        1引言

        隨著信息技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)的普及利用,各種終端設(shè)備記錄了人類社會復(fù)雜頻繁的信息行為從而產(chǎn)生了驚人的數(shù)據(jù)量。據(jù)國際數(shù)據(jù)公司(IDC)的研究報告稱,2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8ZB,并預(yù)測到2020年,全球?qū)碛?5ZB(1ZB=10億TB)的數(shù)據(jù)量[1]。大數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和領(lǐng)域,被視為“未來的新石油”,逐漸成為重要的生產(chǎn)因素。隨著消費者、企業(yè)、各個經(jīng)濟領(lǐng)域不斷挖掘大數(shù)據(jù)的潛力,我們正處在一個巨大浪潮的尖峰,這個浪潮就是大數(shù)據(jù)驅(qū)動的技術(shù)創(chuàng)新、生產(chǎn)率提高、經(jīng)濟增長以及新的競爭形勢和新價值的產(chǎn)生[2]。近年來,大數(shù)據(jù)技術(shù)研究和應(yīng)用迅速發(fā)展,許多國家已經(jīng)意識到了大數(shù)據(jù)的重要性,并作為戰(zhàn)略性技術(shù)大力推動其發(fā)展,大數(shù)據(jù)時代已悄然而至。

        2大數(shù)據(jù)的含義與特征

        目前對大數(shù)據(jù)還沒有標準的定義,通常認為它是一種數(shù)據(jù)量很大、數(shù)據(jù)形式多樣化的非結(jié)構(gòu)化數(shù)據(jù)。亞馬遜網(wǎng)絡(luò)服務(wù)、數(shù)據(jù)科學家JohnRauser曾提到一個簡單的定義:大數(shù)據(jù)是任何超過了一臺計算機處理能力的龐大數(shù)據(jù)量[3]。維基百科定義為:大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合[4]。百度百科定義為:大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。從各種各樣類型的數(shù)據(jù)中快速獲得有價值信息的能力,就是大數(shù)據(jù)技術(shù)[5]。IBM從三個基本特性角度來定義大數(shù)據(jù),即:“3V”:體量(Volume),速度(Velocity)和多樣性(Variety)。也有人為大數(shù)據(jù)包括三個要素,即:大分析(BigAnalytic)、大帶寬(BigBandwidth)和大內(nèi)容(BigContent)[6]。

        概括起來,大數(shù)據(jù)的特征主要體現(xiàn)在如下幾個方面:

        (1)數(shù)據(jù)總量規(guī)模增長巨大。同一類型的數(shù)據(jù)在快速增長,目前在傳感器網(wǎng)絡(luò)、地理信息導(dǎo)航系統(tǒng)、社會網(wǎng)絡(luò)(如微博)、即時通訊(如QQ)、電子商務(wù)(如淘寶)、數(shù)字圖書館、網(wǎng)絡(luò)日志等領(lǐng)域都產(chǎn)生了龐大的數(shù)據(jù),規(guī)模在不斷擴大。如淘寶目前每天活躍數(shù)據(jù)量已經(jīng)超過50TB,共有4億條產(chǎn)品信息和2億多名注冊用戶在上面活動。零售巨頭沃爾瑪每小時都要處理100多萬筆客戶交易,數(shù)據(jù)庫估計超過2500萬億字節(jié)——相當于美國國會圖書館書籍數(shù)的167倍,而移動互聯(lián)網(wǎng)用戶發(fā)送和上傳的數(shù)據(jù)量達到1.3EB[7]。

        (2)數(shù)據(jù)增長的速度呈指數(shù)級持續(xù)增長。目前很多領(lǐng)域的數(shù)據(jù)都以驚人的速度增長,根據(jù)WinterCorp的調(diào)查顯示,最大的數(shù)據(jù)倉庫中的數(shù)據(jù)量每兩年增加3倍(年均增長率為173%),其增長速度遠超摩爾定律增長速度。照此計算,2015年最大數(shù)據(jù)倉庫中的數(shù)據(jù)量將逼近100PB[8]。大數(shù)據(jù)的動態(tài)性強,要求分析處理應(yīng)快速響應(yīng),在動態(tài)變化的環(huán)境中快速完成分析過程,有些甚至必須實時分析,否則這些結(jié)果可能就是過時、無效的。如導(dǎo)航定位系統(tǒng)、股票分析系統(tǒng)等對數(shù)據(jù)實時處理有著較高的要求,大數(shù)據(jù)分析和處理的方法必須能快速地適應(yīng)相關(guān)業(yè)務(wù)更新頻率加快的需求。

        (3)新的數(shù)據(jù)來源和數(shù)據(jù)類型在不斷增加。目前產(chǎn)生大數(shù)據(jù)的領(lǐng)域在不斷增加,數(shù)據(jù)類型不僅包括普通文本、照片、動畫、音頻與視頻等,還有像位置信息、鏈接信息等新類型的數(shù)據(jù)。伴隨著社交網(wǎng)絡(luò)、移動計算和傳感器等新技術(shù)不斷的應(yīng)用,大數(shù)據(jù)中有許多是非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù),沒有特定的描述模型,數(shù)據(jù)結(jié)構(gòu)是不固定、不完全或不規(guī)則的。

        (4)數(shù)據(jù)的價值日益突現(xiàn)。大數(shù)據(jù)猶如一座富礦,通過海量數(shù)據(jù)的處理、整合分析,可以發(fā)現(xiàn)新的知識,從而創(chuàng)造新的更大的價值。大數(shù)據(jù)為許多行業(yè)帶來新的商機和發(fā)展機遇,充分利用大數(shù)據(jù)可為企業(yè)帶來強大的競爭力。大數(shù)據(jù)分析能從龐大的數(shù)據(jù)中發(fā)現(xiàn)稀疏而有高價值的知識和規(guī)律,為預(yù)測和決策提供相關(guān)支持。如視頻監(jiān)控的數(shù)據(jù)量通常十分大,雖然絕大部分可能沒有實際利用價值,但幾秒鏡頭捕捉到某罪犯體貌特征,可能對公安部門而言就是十分珍貴的。大數(shù)據(jù)分析就是要進行披沙揀金,發(fā)現(xiàn)這些珍貴的信息。

        綜上所述,對于大數(shù)據(jù)中“大”的理解,主要有兩個方面,第一是指大量的、快速增長的數(shù)據(jù),第二則是數(shù)據(jù)中所蘊含的價值量較大。可見,大數(shù)據(jù)之“大”,并不光是指數(shù)據(jù)的數(shù)量之大,它的意義還在于數(shù)據(jù)的價值之大。

        3大數(shù)據(jù)對企業(yè)競爭情報的影響

        情報研究是利用數(shù)據(jù)和信息提煉出有價值的情報,為決策提供有關(guān)方案,也就是對數(shù)據(jù)進行處理、組織和解釋,以揭示其潛在的知識,轉(zhuǎn)化為可執(zhí)行利用的情報。企業(yè)競爭情報分析就是從原始的數(shù)據(jù)中發(fā)現(xiàn)關(guān)于競爭環(huán)境、競爭對手和競爭策略情報的過程,從而形成高附加價值的產(chǎn)品。因此,大數(shù)據(jù)分析在對象、運用的方法和目標等方面都與企業(yè)競爭情報研究有許多交集,大數(shù)據(jù)的興起必然對企業(yè)競爭情報產(chǎn)生深刻的影響。

        3.1企業(yè)提升競爭力需要大數(shù)據(jù)的支持

        數(shù)據(jù)競爭已經(jīng)成為企業(yè)提升核心競爭力的利器。來自各個方面零碎的龐大數(shù)據(jù)融合在一起,可以構(gòu)建出企業(yè)競爭的全景圖,洞察到競爭環(huán)境和競爭對手的細微變化,從而快速響應(yīng),制定有效競爭策略。龐大的數(shù)據(jù)更具有統(tǒng)計意義,能為各種預(yù)測模型提供支持,從而能預(yù)測未來的發(fā)展趨勢,幫助企業(yè)獲得先機。相關(guān)的數(shù)據(jù)整合在一起,能不斷產(chǎn)生新的信息和知識,有助于提高生產(chǎn)率、降低經(jīng)營成本。如2008年初,阿里巴巴平臺上整個買家的詢盤數(shù)急劇下滑,自然導(dǎo)致買盤的下降,說明歐美對中國采購量在下滑。海關(guān)是賣了貨出去以后再獲得數(shù)據(jù),而阿里巴巴提前半年時間就從詢盤上推斷出世界貿(mào)易發(fā)生變化了[9]。企業(yè)的競爭不再只是勞動生產(chǎn)率的競爭,而是知識生產(chǎn)率的競爭。數(shù)據(jù)是信息的載體,是知識的源泉,是企業(yè)創(chuàng)造價值和利潤的原材料,因此,基于知識的競爭將集中體現(xiàn)在基于數(shù)據(jù)的競爭上。正如馬云所說,未來是數(shù)據(jù)競爭的時代,誰擁有數(shù)據(jù),誰就擁有未來。如今各行各業(yè)都出現(xiàn)了以數(shù)據(jù)分析為競爭力的企業(yè),它們都是在數(shù)據(jù)分析的基礎(chǔ)上與其他企業(yè)展開競爭,以提升核心競爭能力,保持或獲得行業(yè)領(lǐng)先地位,如谷歌、寶潔、沃爾瑪?shù)仁澜缰?。沃爾瑪就建立了一個超大的數(shù)據(jù)中心,其存儲能力高達4PB以上,通過大數(shù)據(jù)分析,沃爾瑪掌握了顧客的購買習慣,不同商品一起購買的概率,購買者在商店所穿行的路線、購買時間和地點,從而確定商品的上架布局以及對分類進行優(yōu)化;決定對各個商店的不同商品進行增減,以保持最優(yōu)的庫存,降低成本;洞察銷售全局,瞬間捕獲到各種細微的變化,從而快速響應(yīng),制定營銷策略;利用大數(shù)據(jù)工具對供應(yīng)鏈進行分析以選擇供應(yīng)商、優(yōu)化物流配送方案和進行價格談判等;利用大數(shù)據(jù)分析工具對熱銷商品品種和庫存的趨勢進行分析,以選定需要補充的商品,分析顧客購買趨勢和季節(jié)性購買模式,以確定降價商品,并對其數(shù)量和運作做出反應(yīng)[10]??梢?,大數(shù)據(jù)已經(jīng)成為企業(yè)的核心資產(chǎn),對數(shù)據(jù)的掌控可以形成對市場的支配,并且獲取巨大的回報。大數(shù)據(jù)是企業(yè)用于提升核心能力的重要手段,而為提升企業(yè)競爭優(yōu)勢的大數(shù)據(jù)分析是企業(yè)競爭情報研究的重要范疇。

        3.2企業(yè)競爭情報數(shù)據(jù)處理面臨的新問題

        如何確保規(guī)模龐大、異構(gòu)和動態(tài)的數(shù)據(jù)實用可靠,為企業(yè)競爭情報研究不斷地提供高質(zhì)量的“原材料”,是大數(shù)據(jù)時代企業(yè)競爭情報面臨的挑戰(zhàn)。大數(shù)據(jù)為企業(yè)競爭情報工作提出了一些新的問題:(1)管理的數(shù)據(jù)量龐大。在大數(shù)據(jù)時代,企業(yè)的競爭情報研究需要大量異構(gòu)的數(shù)據(jù)支持,而收集、存儲和維護這樣龐大的數(shù)據(jù)對于一般的企業(yè)來說是一種很大的負擔。(2)收集范圍廣泛。為了使企業(yè)競爭情報分析更加精準、可靠,支持企業(yè)全方位決策,企業(yè)不但要持續(xù)不斷地收集內(nèi)部業(yè)務(wù)流程中各個環(huán)節(jié)的數(shù)據(jù),還要收集顧客行為、競爭對手、供應(yīng)鏈、宏觀經(jīng)濟等數(shù)據(jù),這種數(shù)據(jù)收集需要投入大量的人力、物力。面對不斷產(chǎn)生的龐大數(shù)據(jù),企業(yè)需要持續(xù)增加存儲空間,這也是一筆不菲的投入。(3)數(shù)據(jù)安全風險增大。有關(guān)企業(yè)大量的數(shù)據(jù)趨向集中,一旦泄密或者被競爭對手利用,后果不堪設(shè)想;大數(shù)據(jù)量使企業(yè)可能采用云服務(wù)的模式,委托第三方進行數(shù)據(jù)存儲和管理,這樣接觸企業(yè)數(shù)據(jù)的人員就會增加,風險無形增大。(4)數(shù)據(jù)質(zhì)量難于控制。在大數(shù)據(jù)時代,數(shù)據(jù)經(jīng)過層層的萃取轉(zhuǎn)化為決策的情報,數(shù)據(jù)的質(zhì)量也變得愈加重要。高質(zhì)量的數(shù)據(jù)必須保證數(shù)據(jù)的客觀、可用和完整。數(shù)據(jù)的質(zhì)量問題涉及數(shù)據(jù)收集、使用、傳遞等所有過程,而數(shù)據(jù)在發(fā)布階段經(jīng)常會被扭曲。在大數(shù)據(jù)時代,數(shù)據(jù)的質(zhì)量是情報價值體現(xiàn)的生命線,不管分析的方法如何先進,但如果輸入時是垃圾數(shù)據(jù),最終獲得的還是垃圾結(jié)果,對企業(yè)不但無益反而有害。(5)數(shù)據(jù)難于動態(tài)集成。目前競爭情報收集子系統(tǒng)對整個企業(yè)范圍內(nèi)的數(shù)據(jù)集成大多采用靜態(tài)整合策略,當數(shù)據(jù)源中的數(shù)據(jù)發(fā)生變化時,這些變化就不能立即反映給決策者,導(dǎo)致決策使用的是過時的數(shù)據(jù),而大數(shù)據(jù)對實時響應(yīng)要求很高,因此,競爭情報系統(tǒng)對分布式的數(shù)據(jù)如何進行動態(tài)集成也是一個很大挑戰(zhàn)。

        3.3企業(yè)競爭情報的分析方法亟待創(chuàng)新

        大數(shù)據(jù)里隱含了許多“金子”,然而“金子”卻不是現(xiàn)成的,需要通過一定方法和工具從中才能“淘”出來。誰掌握最先進的“淘金”方法和工具,誰就能把握先機,從而獲得競爭優(yōu)勢,而落后者就可能面臨被淘汰的危險。然而,目前從大數(shù)據(jù)中提煉情報的分析方法面臨諸多問題:(1)難于處理龐大的數(shù)據(jù)量。在大數(shù)據(jù)時代,企業(yè)競爭情報的分析方法和工具需要處理龐大的數(shù)據(jù),通常是PB級的,但是傳統(tǒng)的企業(yè)情報分析技術(shù)無法處理這么大量的數(shù)據(jù),在分析上TB級的數(shù)據(jù)量時,都會花費幾十個小時的時間才能得到結(jié)果,如果分析PB級的數(shù)據(jù)量時,分析軟件可能根本無法運行,或者運行很久才能獲得結(jié)果。(2)難于處理分布式的數(shù)據(jù)。目前企業(yè)競爭情報的分析工具一般都是對數(shù)據(jù)進行集中式處理,然而在大數(shù)據(jù)時代,數(shù)據(jù)是分布式存儲的,如果沒有良好的訪問數(shù)據(jù)模式,必然導(dǎo)致服務(wù)器之間的通訊增加,計算開銷加大,時間延長,成本提高。(3)分析數(shù)據(jù)結(jié)構(gòu)比較單一。傳統(tǒng)企業(yè)競爭情報分析工具的數(shù)據(jù)通常是結(jié)構(gòu)化數(shù)據(jù),而大數(shù)據(jù)時代,企業(yè)有各種不同類型的數(shù)據(jù)集,其中有可能包含來自企業(yè)資源計劃系統(tǒng)和客戶關(guān)系管理系統(tǒng)的交易數(shù)據(jù)、網(wǎng)絡(luò)評論和電子商務(wù)數(shù)據(jù),還有內(nèi)部文檔和其它格式信息等,絕大部分的數(shù)據(jù)是非結(jié)構(gòu)化的,超出了現(xiàn)有的企業(yè)競爭情報分析能力。(4)無法處理流數(shù)據(jù)。動態(tài)數(shù)據(jù)流是大數(shù)據(jù)的主要特征之一,有了分布式的文件系統(tǒng)支撐之后,也必須有進行數(shù)據(jù)流處理功能才能發(fā)揮其效用,但是目前企業(yè)情報分析工具基本不具備分布式流處理的功能,對許多實時數(shù)據(jù)的處理無能為力。(5)數(shù)據(jù)抽樣受限。由于分析手段的限制,取樣時的樣本數(shù)不夠大,不能充分反映和代表所有的數(shù)據(jù);同時受限于分析能力而無法獲取復(fù)雜問題的答案,受限于時間而不得不采用某項簡單的建模技術(shù)。另外,由于沒有足夠的時間來執(zhí)行多次迭代,模型精度在一定程度上大打折扣。(6)反應(yīng)速度滯后。在一個開放和競爭的大數(shù)據(jù)時代,速度是企業(yè)的生命線,企業(yè)所需的競爭情報是變化的、實時的,這要求企業(yè)快速從數(shù)據(jù)中捕捉情報后用于決策,那么企業(yè)競爭情報分析中要對數(shù)據(jù)存儲、計算、建立模型的過程、提交結(jié)果的方式等進行快速應(yīng)變,但目前的企業(yè)競爭情報分析應(yīng)變性還要達不到這樣的要求。大數(shù)據(jù)分析處理的基本要求就是速度要快。沒有速度,價值再大的數(shù)據(jù)也只能是一堆無法流通的廢紙。大數(shù)據(jù)研究就是對高速增長、規(guī)模龐大、多樣性的數(shù)據(jù)進行快速的挖掘分析,以發(fā)現(xiàn)其中隱含的規(guī)律知識,并以持續(xù)應(yīng)變的方式提供有效的服務(wù)。因此,企業(yè)競爭情報研究方法要適應(yīng)大數(shù)據(jù)時代的要求,必須在數(shù)據(jù)的處理量、數(shù)據(jù)類型、處理速度和方式方法上進行創(chuàng)新。

        4大數(shù)據(jù)時代企業(yè)競爭情報分析的發(fā)展方向

        在大數(shù)據(jù)時代,數(shù)據(jù)分析日益成為企業(yè)提高利潤來源的支撐點,企業(yè)已經(jīng)不滿足于對現(xiàn)有數(shù)據(jù)的分析和監(jiān)測,而是更期望能對未來趨勢有更多的分析和預(yù)測,能洞察細微的變化,以增強企業(yè)競爭力。因此,需要對數(shù)據(jù)進行深度分析,而這正是企業(yè)競爭情報工作職責所在。從上述看到,目前的競爭情報研究方法和技術(shù)處理還存在不少的問題,因此,必須與大數(shù)據(jù)的分析方法和技術(shù)結(jié)合,并探索新的方法和技術(shù),形成新的分析方法體系。在大數(shù)據(jù)時代,定量分析將會得到更廣泛的運用,提供更精確情報信息。大數(shù)據(jù)技術(shù)主要實現(xiàn)對動態(tài)、異構(gòu)、龐大數(shù)據(jù)的存儲和管理,并從中提取出簡約的數(shù)據(jù)集。大數(shù)據(jù)為數(shù)據(jù)挖掘技術(shù)提供了更廣的“舞臺”,數(shù)據(jù)挖掘主要是在數(shù)據(jù)中發(fā)現(xiàn)有潛在價值知識和模式,而競爭情報分析主要是將挖掘的知識激活,轉(zhuǎn)化為產(chǎn)生行動的情報。大數(shù)據(jù)時代企業(yè)競爭情報分析主線仍是數(shù)據(jù)—信息—知識—情報逐層萃取的路線。

        4.1加強數(shù)據(jù)和信息的集成

        數(shù)據(jù)集成是通過各種手段和工具將已有的數(shù)據(jù)集合起來,按照一定的邏輯關(guān)系對這些數(shù)據(jù)進行統(tǒng)一的規(guī)劃和組織,如建立各種數(shù)據(jù)倉庫或虛擬數(shù)據(jù)庫,實現(xiàn)數(shù)據(jù)資源的有效共享。隨著分布式系統(tǒng)和網(wǎng)絡(luò)環(huán)境日益普及,大量的異構(gòu)數(shù)據(jù)源被分散在各個網(wǎng)絡(luò)節(jié)點中,而它們之間往往是相互獨立的。為了使這些孤立的數(shù)據(jù)能夠更好地聯(lián)系起來,迫切地需要建立一個公共的集成環(huán)境,提供一個統(tǒng)一的、透明的訪問界面。因此,數(shù)據(jù)集成所要解決的問題是把位于不同的異構(gòu)信息源上的數(shù)據(jù)合并起來,以便提供這些數(shù)據(jù)的統(tǒng)一查詢、檢索和利用。數(shù)據(jù)集成屏蔽了各種異構(gòu)數(shù)據(jù)間的差異,通過集成系統(tǒng)進行統(tǒng)一操作。數(shù)據(jù)分析通常需要大量的數(shù)據(jù)作為支撐,而這些數(shù)據(jù)通常又是分散和異構(gòu)的,通過集成可以更好地保證所分析的數(shù)據(jù)質(zhì)量問題[11]。互聯(lián)網(wǎng)是一個大而復(fù)雜的異構(gòu)數(shù)據(jù)環(huán)境,每一個站點都可以看作是數(shù)據(jù)源,各站點間的信息和組織都不一樣,每個數(shù)據(jù)源都是異構(gòu)的,要利用這些數(shù)據(jù)進行數(shù)據(jù)挖掘分析,必須研究站點之間異構(gòu)數(shù)據(jù)的集成問題。網(wǎng)絡(luò)數(shù)據(jù)集成就是從大量的數(shù)據(jù)中將有用的數(shù)據(jù)按照不同的應(yīng)用進行整合、封裝、處理的過程,以解決數(shù)據(jù)挖掘的應(yīng)用質(zhì)量和數(shù)量問題。由于大數(shù)據(jù)的量比較大,采取集中式的挖掘方法總體上看比較困難,而采用分布式協(xié)作策略是較為可行的方式,按照某種標準如學科領(lǐng)域或地理區(qū)域?qū)?shù)據(jù)資源空間進行劃分,得到若干子空間,再對每一個子空間分別建立相應(yīng)的系統(tǒng)進行數(shù)據(jù)挖掘分析,構(gòu)成網(wǎng)絡(luò)上的分布式協(xié)作數(shù)據(jù)挖掘群體系統(tǒng),然后對挖掘的結(jié)果和數(shù)據(jù)進行整合,形成總體方面的知識。目前很多企業(yè)設(shè)有許多分支機構(gòu),有些大型的企業(yè)甚至還有海外分支機構(gòu),其業(yè)務(wù)數(shù)據(jù)一般也要通過集成才能進行總體的競爭情報分析,更好地為企業(yè)的戰(zhàn)略決策服務(wù)。

        4.2注重數(shù)據(jù)的清洗與過濾

        大數(shù)據(jù)時代企業(yè)所要處理的數(shù)據(jù)比較多,但數(shù)據(jù)的質(zhì)量往往參差不齊,如有些數(shù)據(jù)不一致或不準確、數(shù)據(jù)陳舊以及人為造成的錯誤等,通常被稱之為“臟數(shù)據(jù)”。由于數(shù)據(jù)挖掘是數(shù)據(jù)驅(qū)動,因而數(shù)據(jù)質(zhì)量顯得十分重要?!芭K數(shù)據(jù)”往往導(dǎo)致分析結(jié)果的不正確,進而影響到?jīng)Q策的準確性。由于大部分的數(shù)據(jù)庫是動態(tài)的,許多數(shù)據(jù)是不完整的、冗余的、稀疏甚至是錯誤的,這將會給數(shù)據(jù)的知識發(fā)現(xiàn)帶來困難。由于人為因素的影響,如數(shù)據(jù)的加工處理以及主觀選取數(shù)據(jù)等,從而使得數(shù)據(jù)具有某些噪聲,會影響數(shù)據(jù)分析模式抽取的準確性。大量冗余數(shù)據(jù)也會影響到分析的準確性和效率。因此,在數(shù)據(jù)挖掘分析時,首先需要進行數(shù)據(jù)預(yù)處理,也就是要對數(shù)據(jù)進行凈化和過濾,刪除一些無關(guān)的數(shù)據(jù)。數(shù)據(jù)清洗是一個減少錯誤和不一致性、解決對象識別的過程[12]。一般通過概率統(tǒng)計等原理查找數(shù)值異常的記錄。如在網(wǎng)站的日志文件數(shù)據(jù)處理中,可以通過檢查URL的后綴刪除認為不相關(guān)的數(shù)據(jù),可使用一個缺省的后綴名列表幫助刪除文件,去掉一些不能反映用戶行為的記錄,過濾一些請求錯誤和失敗的記錄等。

        在大數(shù)據(jù)時代,不能不計成本盲目的收集各種海量的數(shù)據(jù),否則將成為一種嚴重的負擔。數(shù)據(jù)的體量只是大數(shù)據(jù)的一個特征,而數(shù)據(jù)的價值、傳遞速度和持續(xù)性才是關(guān)鍵。為了達到這些目標,企業(yè)競爭情報收集可以采用最小數(shù)據(jù)集的方法,指通過收集具有代表性的最少的數(shù)據(jù),更好地掌握一個觀察對象所有的特點或者一個事件所處狀態(tài),其核心是針對被觀察的對象建立一套精簡實用的數(shù)據(jù)指標,采用一定取樣標準選擇和過濾相關(guān)數(shù)據(jù)。總之,通過對數(shù)據(jù)質(zhì)量的控制和管理,可以提高數(shù)據(jù)分析的準確性,進一步提高競爭情報工作的效益。

        4.3關(guān)注新數(shù)據(jù)類型的分析方法

        在大數(shù)據(jù)時代,企業(yè)無論是日常運營,還是重大戰(zhàn)略決策,都會在各種各樣的信息系統(tǒng)中留下各種數(shù)據(jù)記錄,這些數(shù)據(jù)通過技術(shù)整合起來,可以再現(xiàn)一個企業(yè)的運行軌跡和發(fā)展全景。競爭情報研究就是發(fā)現(xiàn)有價值的知識和模式,洞察企業(yè)競爭環(huán)境,預(yù)測未來,從而獲得競爭優(yōu)勢。隨著信息技術(shù)的普及應(yīng)用,新的數(shù)據(jù)類型不斷產(chǎn)生,下面一些新的數(shù)據(jù)類型和分析方法值得關(guān)注。

        (1)實時數(shù)據(jù)。如微博、短信等大量的動態(tài)數(shù)據(jù)流,是一種十分重要的競爭情報源。數(shù)據(jù)流挖掘是對數(shù)據(jù)進行單遍現(xiàn)行掃描,快速處理數(shù)據(jù),提供實時近似結(jié)果的技術(shù)。如窗口技術(shù)采用分而治之的策略,將流數(shù)據(jù)按照特定的需求分配到不同的窗口,進入窗口內(nèi)的數(shù)據(jù)才會被處理,以減少分析處理的數(shù)據(jù)量;而概要數(shù)據(jù)結(jié)構(gòu)技術(shù)將數(shù)據(jù)流進行概括統(tǒng)計的數(shù)據(jù)結(jié)構(gòu)代表原始數(shù)據(jù),而不是保留數(shù)據(jù)流中的全部數(shù)據(jù),從而減少處理的數(shù)據(jù)量[13]。在大數(shù)據(jù)時代,競爭情報分析的數(shù)據(jù)許多是連續(xù)、快速、隨時間變化的,對如此巨大的數(shù)據(jù)流,企圖存儲或者掃描所有的數(shù)據(jù)都是不實際的,只有采用動態(tài)的數(shù)據(jù)流挖掘分析技術(shù)才能有效解決數(shù)據(jù)的沖擊,獲得實時近似的結(jié)果。數(shù)據(jù)流挖掘技術(shù)能為競爭情報提供實時查詢服務(wù)和處理,從而促使企業(yè)的“觸角”保持足夠的敏捷性。

        (2)動態(tài)數(shù)據(jù)。從時間的維度發(fā)現(xiàn)有關(guān)變化規(guī)律。時間序列分析是指從大量不同時間重復(fù)測得的數(shù)據(jù)中發(fā)現(xiàn)前后數(shù)據(jù)相似或者有規(guī)律的模式、趨勢和突變的方法,主要的技術(shù)主要是相似模式發(fā)現(xiàn),包括相似模式聚類和相似模式搜索時間序列,采用的主要挖掘方法主要有小波變換法和經(jīng)驗?zāi)B(tài)分解法[14]等。在大數(shù)據(jù)時代,各種數(shù)據(jù)源源不斷的產(chǎn)生,比如交易數(shù)據(jù)、網(wǎng)站訪問日志等,從中必然會呈現(xiàn)出時間上的規(guī)律,企業(yè)希望從積累了大量的歷史數(shù)據(jù)中分析出一些模式,以便從中發(fā)現(xiàn)商業(yè)機會,通過趨勢分析,甚至預(yù)先發(fā)現(xiàn)一些正在新涌現(xiàn)出來的機會,比如企業(yè)可以通過數(shù)據(jù)時間序列分析了解產(chǎn)品銷售的旺季和淡季,制定針對性的營銷策略,減少生產(chǎn)和銷售的波動性,從而獲得利潤和競爭優(yōu)勢。

        (3)關(guān)聯(lián)數(shù)據(jù)。關(guān)聯(lián)數(shù)據(jù)發(fā)現(xiàn)技術(shù)是分析數(shù)據(jù)之間的聯(lián)系,將孤立、離散的數(shù)據(jù)點結(jié)合產(chǎn)生數(shù)據(jù)鏈或者數(shù)據(jù)圖,隨后從多個數(shù)據(jù)源中查出匹配給定關(guān)聯(lián)模式的實例、最后再對匹配的實例評估。目前已應(yīng)用的主要方法有:圖論的稀有度監(jiān)測法、圖熵法和基于謂詞的邏輯歸納推理法等[15]。關(guān)聯(lián)發(fā)現(xiàn)技術(shù)特別適合于動態(tài)的數(shù)據(jù)發(fā)現(xiàn)未知的模式,而大數(shù)據(jù)中隱含了大量未知、潛在的關(guān)系,新模式的發(fā)現(xiàn)有利于企業(yè)采取“藍?!睉?zhàn)略,搶占先機,從而獲得競爭優(yōu)勢。

        (4)社會網(wǎng)絡(luò)數(shù)據(jù)。社會網(wǎng)絡(luò)分析也叫鏈接挖掘,是通過網(wǎng)絡(luò)中的關(guān)系分析探討網(wǎng)絡(luò)的結(jié)構(gòu)及屬性特征,其挖掘重要任務(wù)的是基于鏈接的節(jié)點排序、基于鏈接節(jié)點的分類、節(jié)點聚類、鏈接預(yù)測、子圖發(fā)現(xiàn)等[16]。在大數(shù)據(jù)時代,大量相關(guān)的數(shù)據(jù)聚合在一起,相互支撐解釋和印證,形成了復(fù)雜的數(shù)據(jù)網(wǎng)絡(luò),數(shù)據(jù)之間的關(guān)系具有非常重要的價值,如通過消費者行為的鏈接數(shù)據(jù)挖掘能發(fā)現(xiàn)傳銷顧客網(wǎng)絡(luò),從而制定找出利潤最大化的顧客群,又如從人際關(guān)系的網(wǎng)絡(luò)節(jié)點的中心度來分析競爭對手,從而制定相關(guān)的競爭策略等。

        4.4促進數(shù)據(jù)分析的可視化

        數(shù)據(jù)可視化技術(shù)指的是運用計算機圖形學和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像顯示出來,并進行交互處理的方法和技術(shù),其本質(zhì)是從抽象數(shù)據(jù)到可視化結(jié)構(gòu)的映射。在大數(shù)據(jù)時代,數(shù)據(jù)只是原材料,其真正的價值需要通過知識和情報來實現(xiàn)。企業(yè)競爭情報分析的結(jié)果必須是可理解的,才能較為容易地轉(zhuǎn)化為生產(chǎn)力??梢暬梢苑从硵?shù)據(jù)的語義關(guān)系,加快數(shù)據(jù)的處理速度,使龐大的數(shù)據(jù)得到充分有效利用;可以在人與數(shù)據(jù)間實現(xiàn)交互,幫助人們觀察到數(shù)據(jù)中隱含的問題,為發(fā)現(xiàn)和理解有關(guān)規(guī)律提供有力工具??梢暬垢偁幥閳蟾右子诶斫夂瓦\用。采用一定的分析模型將相關(guān)的數(shù)據(jù)組織在一起,直觀地表達競爭情報和競爭情報之間的邏輯關(guān)系,如進行一些關(guān)聯(lián)分析,以生動形象的方式顯示描繪人物、公司和事件之間的聯(lián)系,探索事件、人、地點、產(chǎn)品和組織間潛在關(guān)系并預(yù)測可能產(chǎn)生的結(jié)果,輔助決策過程??梢暬勺鳛橐环N基礎(chǔ)技術(shù)嵌入到企業(yè)競爭情報分析工具中,人們總是希望看到研究報告中的生動圖像,而不是一大堆枯燥的數(shù)據(jù),企業(yè)競爭情報研究結(jié)果通過可視化方式,采用不同數(shù)據(jù)維度提供給不同層次的決策者使用,便于理解,支持企業(yè)高效運營。因此,可視化技術(shù)是大數(shù)據(jù)時代企業(yè)競爭情報研究的有效工具。

        4.5探索大數(shù)據(jù)新的分析技術(shù)和工具的應(yīng)用

        大數(shù)據(jù)時代企業(yè)競爭情報面臨的數(shù)據(jù)量是無法比擬的,對一些實時性要求較高的決策,分析方法的速度和效率顯得十分重要。傳統(tǒng)的競爭情報分析方法顯然難于處理不斷增長的、龐大的、異構(gòu)的數(shù)據(jù),只有借助新的處理技術(shù)才能實現(xiàn)數(shù)據(jù)提取和清洗、分析和利用。目前大數(shù)據(jù)相關(guān)技術(shù)研究已取得一定的進展。如“MapReduce”是一種簡潔的并行計算模型,它在系統(tǒng)層面解決了擴展性、容錯性等問題,通過接受用戶編寫的函數(shù),自動地在可伸縮的大規(guī)模集群上并行執(zhí)行,從而可以處理和分析大規(guī)模的數(shù)據(jù)?!癕apReduce”具有簡潔的模型、良好的擴展性、容錯性和并行性,可以進行復(fù)雜深入的數(shù)據(jù)分析,隨著其性能的不斷改進和分析能力的不斷增強,能夠幫助人們從大數(shù)據(jù)中分析和發(fā)現(xiàn)有用的知識[17]。如何提高數(shù)據(jù)挖掘算法的效率和適應(yīng)性,使挖掘方法具有一定規(guī)模的伸縮性,是數(shù)據(jù)分析較為突出的問題。應(yīng)用實時性技術(shù)和分布并行算法技術(shù)是提高數(shù)據(jù)挖掘方法效率和實用化的有效途徑。此外,統(tǒng)計分析語言標準化也有助于提高數(shù)據(jù)分析效果。如R語言是主要用于統(tǒng)計分析、繪圖的語言和操作環(huán)境,其功能包括數(shù)據(jù)存儲和處理系統(tǒng)、數(shù)組運算工具、完整連貫的統(tǒng)計分析工具。R語言針對大數(shù)據(jù)將廣泛使用的統(tǒng)計算法進行了優(yōu)化,能夠在短暫的時間內(nèi)從大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的信息[18]。目前業(yè)界對大數(shù)據(jù)的處理分析方法已開始進行了一些探索,并且開發(fā)了一些相關(guān)的工具。企業(yè)競爭情報研究應(yīng)該針對大數(shù)據(jù)的特點,吸收和融合數(shù)據(jù)挖掘分析新的技術(shù)方法,不斷創(chuàng)新和發(fā)展。

        5結(jié)語

        企業(yè)競爭情報可以幫助企業(yè)洞察競爭環(huán)境,發(fā)現(xiàn)新的競爭對手、判斷競爭的發(fā)展性動向,及時做出相關(guān)的反應(yīng),從而獲得較大的競爭優(yōu)勢。大數(shù)據(jù)提供了一個全新的信息生態(tài)環(huán)境,給企業(yè)競爭情報研究帶來了深刻的影響,促使其不斷地創(chuàng)新和變革,以適應(yīng)企業(yè)在大數(shù)據(jù)時代獲取核心競爭力的需求。大數(shù)據(jù)時代的企業(yè)競爭情報研究將走傳統(tǒng)情報分析方法與大數(shù)據(jù)技術(shù)相結(jié)合的發(fā)展道路。目前基于大數(shù)據(jù)的企業(yè)競爭情報研究剛剛起步,許多問題仍然需要進一步探討。

        參考文獻:

        [1]F.GantzandD.Reinsel.The2011DigitalUniverseStudy:ExtractingValuefromChaos[EB/OL].[2012-08-18].ww

        w.emc.com/collateral/demos/microsites/emc-digitaluniver

        se-2011/index.htm.

        [2]Bigdata:thenextfrontierforinnovation,competitionandproductivity[R].McKinseyGlobalInstitute,2011.

        [3]PhilipRussom.bigdataanalytics[EB/OL].[2012-08-01].

        http://www.docin.com/p-340502098.html.

        [4]Bigdata[EB/OL].[2012-08-18]http://en.wikipedia.org/wiki/Big_data.

        [5]大數(shù)據(jù)[EB/OL].[2012-08-18].http://baike.baidu.com/view/6954399.html.

        [6]涂蘭敬.專家觀點:“大數(shù)據(jù)”與“龐大數(shù)據(jù)”的區(qū)別[J].網(wǎng)絡(luò)與信息,2011,(12):37-38.

        [7]國金證券.“大數(shù)據(jù)”行業(yè)專題分析報告[EB/OL].[2012-08-01].http://wenku.baidu.com/view/177989130

        b4e767f5acfce3f.html.

        [8]王珊等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學報,2011,34(10):15-16.

        [9]國金證券.“大數(shù)據(jù)”行業(yè)專題分析報告[EB/OL].[2012-08-01].http://wenku.baidu.com/view/177989130b

        4e767f5acfce3f.html.

        [10]涂子沛.大數(shù)據(jù)[M].廣西師范大學出版社,2012:161,

        304-306.

        [11]畢強.網(wǎng)絡(luò)信息集成服務(wù)研究綜述[J].情報理論與實踐,2004,(1):21-25.

        [12]郭志懋.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J].軟件學報.2012,12(11):22-28.

        [13]JiaweiHanMichelineKamber.范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械出版社,2007:306-320.

        [14]倪志偉等.動態(tài)數(shù)據(jù)挖掘[M].北京:科學出版社,2010:31,232.

        [15]張公讓.商務(wù)智能與數(shù)據(jù)挖掘[M].北京:北京大學出版社,2010:151-159.

        [16]約翰·斯科特.劉軍譯.社會網(wǎng)絡(luò)分析法[M].重慶:重慶大學出版社,2007:1-6.

        [17]覃雄派等.大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J].軟件學報,2012,2(1):33-42.

        [18]AlainF.Zuur.R.語言初學者指南[M].西安:西安交通大學出版社,2011:3-10.

        作者簡介:黃曉斌(1961-),男,中山大學資訊管理學院教授,博士生導(dǎo)師,研究方向:競爭情報、網(wǎng)絡(luò)信息開發(fā)利用;鐘輝新(1979-),男,中山大學資訊管理學院博士生,電子科技大學中山學院圖書館館員,研究方向:商情分析與競爭情報。

        猜你喜歡
        情報研究數(shù)據(jù)量情報
        情報
        情報
        情報
        體育信息情報研究發(fā)展趨勢探析
        基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
        計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
        面向新階段高質(zhì)量發(fā)展的圖書情報研究(卷首語)
        高刷新率不容易顯示器需求與接口標準帶寬
        寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
        電子制作(2019年13期)2020-01-14 03:15:18
        交接情報
        97夜夜澡人人爽人人喊中国片| 国产精品人妻熟女男人的天堂| 最美女人体内射精一区二区 | 亚洲av高清在线观看三区| 国产av一区二区三区狼人香蕉| 精品一区二区三区四区国产| 亚洲av福利无码无一区二区 | 国产精品无圣光一区二区| 日本污视频| 亚洲美女av二区在线观看| 二区三区三区视频在线观看| 日本一卡2卡3卡4卡无卡免费网站| 亚洲一区二区三区成人| av福利资源在线观看| 国产亚洲精品av久久| 中文字幕v亚洲日本| 国产精品天堂avav在线| 国产午夜精品综合久久久| 国产三级a三级三级| 亚洲色欲久久久久综合网| 亚洲无线码一区在线观看| 日韩av一区二区三区精品久久| 五月天国产成人av免费观看| japanesehd中国产在线看| 日日婷婷夜日日天干| 奇米狠狠色| 蜜桃在线观看视频在线观看| 日日噜噜夜夜狠狠视频| 亚洲欧美一区二区三区| 久久久亚洲精品午夜福利| 国产一区二区三区成人| 免费人成网站在线观看欧美| 欧美理论在线| 全程国语对白资源在线观看| 亚洲av丰满熟妇在线播放| 久久发布国产伦子伦精品| 国产亚洲精选美女久久久久| 日韩中文字幕素人水野一区 | 国产 在线播放无码不卡| 亚洲国产中文字幕精品| 曰本人做爰又黄又粗视频|