劉春輝
(云南財(cái)經(jīng)大學(xué)體育部,云南 昆明 650221)
大數(shù)據(jù)分析作為大數(shù)據(jù)使用過(guò)程中最基礎(chǔ)的內(nèi)容之一,在其應(yīng)用的過(guò)程中,就是要對(duì)多類型、大量的數(shù)據(jù)群體進(jìn)行全面的剖析,從而能夠?qū)㈦[藏在數(shù)據(jù)集群中的有效數(shù)據(jù)信息挖掘出來(lái)。近些年來(lái),大數(shù)據(jù)分析技術(shù)的快速發(fā)展受到了圖書(shū)情報(bào)界的高度重視,大多數(shù)的學(xué)者認(rèn)為大數(shù)據(jù)分析的出現(xiàn),對(duì)推動(dòng)整個(gè)圖書(shū)情報(bào)行業(yè)的發(fā)展有著非常重要的意義,同時(shí)也認(rèn)為大數(shù)據(jù)分析對(duì)情報(bào)學(xué)產(chǎn)生的影響不是片面的,而是非常全面的,其中最為顯著、直接的影響就是情報(bào)分析。
情報(bào)分析在實(shí)際應(yīng)用的過(guò)程中也可以稱為情報(bào)研究,就是結(jié)合用戶的實(shí)際需求,利用現(xiàn)代化的科學(xué)技術(shù)和操作手段來(lái)對(duì)數(shù)據(jù)進(jìn)行分析和評(píng)價(jià),從而獲得更有價(jià)值的情報(bào)產(chǎn)品。所以才會(huì)說(shuō),情報(bào)分析與大數(shù)據(jù)分析之間有著一定的共性,都是將數(shù)據(jù)和信息作為主要的研究對(duì)象。
從19 世紀(jì)的工業(yè)革命以來(lái),蒸汽機(jī)的出現(xiàn)對(duì)人們的生活和工作方式帶來(lái)了非常大的沖擊,自進(jìn)入20世紀(jì)以來(lái),計(jì)算機(jī)的出現(xiàn)則大大地推進(jìn)了時(shí)代的變革,人們的生活方式更是發(fā)生了巨大的變化。移動(dòng)互聯(lián)網(wǎng)端的社交方式,已經(jīng)成為人們?nèi)粘I畹闹匾M成部分,每分每秒都在進(jìn)行大量的數(shù)據(jù)更替和交換。據(jù)統(tǒng)計(jì),當(dāng)前階段互聯(lián)網(wǎng)運(yùn)行一天內(nèi)所產(chǎn)生的數(shù)據(jù)能夠?qū)⒄麅蓛|張的光盤(pán)刻滿,已經(jīng)完全超過(guò)了人類所產(chǎn)生的可印刷數(shù)據(jù)的總和。大數(shù)據(jù)帶來(lái)的是一個(gè)時(shí)代的變革,各行各業(yè)的數(shù)據(jù)都已經(jīng)進(jìn)入了量化發(fā)展的階段,數(shù)據(jù)信息也變得隨處可見(jiàn)。當(dāng)然數(shù)據(jù)群在變龐大的同時(shí),同樣也會(huì)變得非常冗雜,因此做好數(shù)據(jù)的劃分也是非常必要的。同時(shí),從煩冗、復(fù)雜的數(shù)據(jù)群中篩選出更有價(jià)值的數(shù)據(jù)信息,或者是創(chuàng)造出更有價(jià)值的信息,都有著非常重要的價(jià)值。
情報(bào)分析對(duì)于數(shù)據(jù)的依賴和重視程度也是非常高的,在進(jìn)入大數(shù)據(jù)時(shí)代之前,情報(bào)分析是由少量工作人員,通過(guò)對(duì)特定數(shù)據(jù)進(jìn)行分析得出結(jié)果。自進(jìn)入大數(shù)據(jù)時(shí)代以來(lái),情報(bào)分析所需要面對(duì)的數(shù)據(jù)群得到了進(jìn)一步的擴(kuò)大,綜合知識(shí)的涉及范圍越來(lái)越廣,分類的細(xì)化程度也在不斷地加深,在想通過(guò)人力來(lái)完成數(shù)據(jù)的分析顯然是不可能的,因此情報(bào)分析工作也越來(lái)越依賴計(jì)算機(jī)了,但是這也從側(cè)面凸顯出數(shù)據(jù)分析是情報(bào)分析的重要環(huán)節(jié)之一。
對(duì)于大數(shù)據(jù)來(lái)說(shuō),數(shù)據(jù)結(jié)構(gòu)上的多樣性是其最為突出的特點(diǎn)之一,日常生活中的信息、 交易記錄、照片、電子郵件等,都屬于大數(shù)據(jù)的范疇,只是數(shù)據(jù)的形式不同而已。通過(guò)這些動(dòng)態(tài)的數(shù)據(jù)更替,能夠更好地反映出相關(guān)的人物或者是事件,同時(shí)在此基礎(chǔ)上,進(jìn)行更加深入的數(shù)據(jù)研究和分析的話,還能夠?qū)崿F(xiàn)對(duì)事件和人物的深度挖掘。在實(shí)際的市場(chǎng)應(yīng)用中,可以對(duì)得到的大數(shù)據(jù)信息進(jìn)行進(jìn)一步的挖掘和創(chuàng)新,從而得到一種新的商業(yè)形式,這對(duì)市場(chǎng)的開(kāi)拓以及競(jìng)爭(zhēng)力的提升,都有著重要的作用和意義,同時(shí)還能夠?yàn)樾律虡I(yè)形式的選擇提供可靠的保障。例如,可以通過(guò)對(duì)某用戶瀏覽記錄信息的分析,判斷出用戶日常的喜好和瀏覽習(xí)慣,從而利用數(shù)據(jù)分析的形式,在用戶后期瀏覽的過(guò)程中,做好定向的推送。除此之外,還能夠通過(guò)各種形式的社交平臺(tái)發(fā)掘用戶的社交狀態(tài)以及個(gè)人動(dòng)態(tài),通過(guò)對(duì)不同層次數(shù)據(jù)信息的利用和整合,得到全面的用戶特征體系。
隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,情報(bào)分析手段在多個(gè)行業(yè)都得到了規(guī)?;氖褂?,同時(shí)隨著使用深度的不斷增加,需要考慮和研究的問(wèn)題也越來(lái)越多。情報(bào)分析發(fā)展至今,單一的數(shù)據(jù)已經(jīng)無(wú)法更好地滿足情報(bào)分析的需求,因此實(shí)現(xiàn)信息的多元化整合對(duì)整個(gè)大數(shù)據(jù)技術(shù)和情報(bào)分析技術(shù)的發(fā)展有著重要的意義。例如,對(duì)于一篇論文來(lái)說(shuō),其來(lái)源可能是維普、萬(wàn)方、知網(wǎng)或者是其他,但是要想完成一個(gè)課題,僅僅依靠某一篇論文是不行的,需要進(jìn)行大量的數(shù)據(jù)汲取和整合,以得到有效的數(shù)據(jù)信息,從而更好地完成一個(gè)論文課題。
如果兩個(gè)或者是兩個(gè)以上的變量,在面對(duì)一個(gè)相同規(guī)則時(shí),對(duì)于變量的取值有著一定規(guī)律性的話,在取相同變量值的同時(shí),其對(duì)應(yīng)的變量就會(huì)按照某種規(guī)律發(fā)生相應(yīng)的變化,由此就可以說(shuō)兩者之間存在著一定的關(guān)聯(lián)性。在當(dāng)前的大數(shù)據(jù)時(shí)代背景下,大數(shù)據(jù)分析過(guò)程中對(duì)于數(shù)據(jù)的處理,在理念上有三種較大的轉(zhuǎn)變,首先就是數(shù)據(jù)對(duì)象要全體不要抽樣,其次對(duì)于數(shù)據(jù)處理效率的要求要高于處理結(jié)果的精確度,最后就是要求數(shù)據(jù)之間的相關(guān)性而不是因果性。其中相關(guān)性則是大數(shù)據(jù)分析的特征。同樣,在情報(bào)學(xué)的基礎(chǔ)原理中,相關(guān)性也發(fā)揮著巨大的作用,同時(shí)相關(guān)性分析也是情報(bào)實(shí)踐分析過(guò)程中的常用方法,任何一種情報(bào)都是在一定規(guī)則的影響下相互關(guān)聯(lián)的。
通過(guò)上述分析能夠看出,大數(shù)據(jù)分析和情報(bào)分析之間還是存在著比較多的共性的,但是差異性的存在也是不可否認(rèn)的。從數(shù)據(jù)對(duì)象的層面來(lái)進(jìn)行對(duì)比的話,大數(shù)據(jù)分析更加側(cè)重的是數(shù)值信息,而情報(bào)分析更關(guān)注的則是文本信息;從數(shù)據(jù)規(guī)模的層面來(lái)進(jìn)行對(duì)比分析的話,大數(shù)據(jù)分析的整體數(shù)據(jù)規(guī)模比較大和全,而情報(bào)分析則追求的是數(shù)據(jù)的適合度,突出的是數(shù)據(jù)所具有的關(guān)鍵性; 對(duì)于分析時(shí)機(jī)上的差異來(lái)說(shuō),大數(shù)據(jù)分析一般進(jìn)行的是實(shí)時(shí)分析,而情報(bào)分析卻存在一定的時(shí)滯性;對(duì)于數(shù)據(jù)任務(wù)來(lái)說(shuō),情報(bào)分析的任務(wù)非常明確,整個(gè)分析模式也是規(guī)定好的,整個(gè)分析按照既定的流程開(kāi)展即可,而大數(shù)據(jù)分析側(cè)重于對(duì)新模式的挖掘。
情報(bào)分析與數(shù)據(jù)分析之間,不僅分析對(duì)象上有所差距,在數(shù)據(jù)性質(zhì)方面也存在著較大的差別,不管是定性分析還是定量分析,情報(bào)分析都是以文本分析為主要對(duì)象和分析基礎(chǔ)。這里所說(shuō)的文本分析,主要指的是專業(yè)、論文、科技報(bào)告、政策文本等內(nèi)容對(duì)象,由于情報(bào)分析的對(duì)象是文本,而文本本身又有著語(yǔ)義上的關(guān)聯(lián)關(guān)系,因此對(duì)于情報(bào)分析來(lái)說(shuō),其分析過(guò)程的重要內(nèi)容就是找出這些文本之間所具有的語(yǔ)義關(guān)系。大數(shù)據(jù)分析則與情報(bào)分析是完全不同的,大數(shù)據(jù)分析對(duì)分析對(duì)象的類型沒(méi)有具體的要求,并不局限于某種類型的數(shù)據(jù)信息,從現(xiàn)階段的實(shí)際應(yīng)用情況來(lái)看的話,大數(shù)據(jù)分析更多時(shí)候是以數(shù)值數(shù)據(jù)和結(jié)構(gòu)化的短文本數(shù)據(jù)為主要分析對(duì)象的,常見(jiàn)的大數(shù)據(jù)分析對(duì)象包括銷售數(shù)據(jù)、用戶數(shù)據(jù)以及傳感器所采集到的數(shù)據(jù)等。
對(duì)于大數(shù)據(jù)來(lái)說(shuō),其分析對(duì)象是大數(shù)據(jù),但是結(jié)合大數(shù)據(jù)的定義和基本的特征來(lái)說(shuō),只有達(dá)到PB 以上級(jí)別的數(shù)據(jù)信息才能夠稱為大數(shù)據(jù)信息。除此之外,維基百科對(duì)于大數(shù)據(jù)的定義也有著清楚的解釋,就是無(wú)法在短時(shí)間內(nèi)利用一些常規(guī)的軟件來(lái)對(duì)相關(guān)的內(nèi)容進(jìn)行管理和處理的一種數(shù)據(jù)集合,也可以解釋為,能夠通過(guò)傳統(tǒng)算法或者是數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行處理的數(shù)據(jù)則不能被稱為大數(shù)據(jù)。除此之外,對(duì)于大數(shù)據(jù)分析工作而言,其分析過(guò)程更加強(qiáng)調(diào)的是對(duì)全體數(shù)據(jù)的分析,這也是大數(shù)據(jù)分析工作的顯著特點(diǎn)之一。
對(duì)于情報(bào)分析來(lái)說(shuō),大多數(shù)的分析過(guò)程都不需要使用大量的數(shù)據(jù),有海量的數(shù)據(jù)集合就已經(jīng)能夠滿足情報(bào)分析工作的開(kāi)展需要。對(duì)于情報(bào)分析工作來(lái)說(shuō),在開(kāi)展某一分析任務(wù)時(shí),要想獲取和任務(wù)有關(guān)的全部數(shù)據(jù)幾乎是不可能的,即使能夠收集到全部的數(shù)據(jù),在情報(bào)分析的過(guò)程中,也不一定需要對(duì)全部的數(shù)據(jù)信息進(jìn)行分析,通常情況下只需要對(duì)部分關(guān)鍵數(shù)據(jù)和主導(dǎo)數(shù)據(jù)進(jìn)行分析。
對(duì)于數(shù)據(jù)的分析時(shí)機(jī)來(lái)說(shuō),通常分為實(shí)時(shí)分析和歷史分析兩種情況。歷史分析指的就是對(duì)歷史出現(xiàn)的數(shù)據(jù)整體進(jìn)行科學(xué)的分析,當(dāng)前階段的歷史分析的主要方式有兩種,分別是交互式的歷史分析和批量式的歷史分析。而實(shí)時(shí)分析則可以理解為動(dòng)態(tài)分析,在實(shí)踐的過(guò)程中一般包括基于時(shí)間窗口的分析和動(dòng)態(tài)流的分析。對(duì)于大數(shù)據(jù)分析而言,其提出的目的就是更好地滿足對(duì)數(shù)據(jù)量、 數(shù)據(jù)類型以及處理速度的要求,實(shí)時(shí)分析也因此成了大數(shù)據(jù)分析的一大特色。但是,對(duì)于某些具有特色、 特點(diǎn)的大數(shù)據(jù)分析系統(tǒng)來(lái)說(shuō),由于應(yīng)用場(chǎng)景的不同,對(duì)于歷史分析能力也有著一定的要求。
對(duì)于情報(bào)分析和數(shù)據(jù)分析在分析時(shí)機(jī)上的差異來(lái)說(shuō),主要體現(xiàn)在分析的過(guò)程中,情報(bào)分析的分析過(guò)程并不會(huì)對(duì)歷史分析還是實(shí)時(shí)分析進(jìn)行區(qū)別,雖然在情報(bào)動(dòng)態(tài)分析的過(guò)程中,對(duì)于新數(shù)據(jù)集群的依賴性比較大,但是在對(duì)數(shù)據(jù)的規(guī)律性進(jìn)行總結(jié)的過(guò)程中,通常會(huì)帶有一定的階段性和滯后性。因此,對(duì)于數(shù)據(jù)情報(bào)分析來(lái)說(shuō),要想實(shí)現(xiàn)對(duì)趨勢(shì)和規(guī)律的總結(jié)分析,就會(huì)涉及對(duì)歷史數(shù)據(jù)的整合和分析。
對(duì)于大數(shù)據(jù)分析來(lái)說(shuō),其最典型的分析任務(wù)就是通過(guò)數(shù)據(jù)之間的相關(guān)性,來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)模式的深度挖掘和預(yù)測(cè)分析。對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō),大數(shù)據(jù)強(qiáng)調(diào)的是數(shù)據(jù)未知性和未知模式之間的相關(guān)性,僅在此點(diǎn)上,大數(shù)據(jù)分析就與情報(bào)分析之間有著較大的差異。對(duì)于預(yù)測(cè)分析來(lái)說(shuō),大數(shù)據(jù)分析主要包含對(duì)趨勢(shì)和缺失信息的預(yù)測(cè),所謂趨勢(shì)預(yù)測(cè)就是對(duì)事物可能的發(fā)展軌跡和最終產(chǎn)生的影響力進(jìn)行分析,而缺失信息預(yù)測(cè)則指的是對(duì)現(xiàn)有信息中缺失的信息或者是始終未出現(xiàn)的信息進(jìn)行預(yù)測(cè)。
對(duì)于情報(bào)分析來(lái)說(shuō),其分析目的和分析任務(wù)一般都是比較明確的,并且在分析的過(guò)程中,還需要回答具體的問(wèn)題,也就是說(shuō),在情報(bào)分析工作開(kāi)始之初,就已經(jīng)知道了整個(gè)分析的結(jié)果。對(duì)于情報(bào)分析工作人員來(lái)說(shuō),其主要的工作任務(wù)就是圍繞著整個(gè)情報(bào)分析的課題,對(duì)各類相關(guān)的信息進(jìn)行搜集,同時(shí)還可以利用各種形式的工具和方法來(lái)開(kāi)展內(nèi)容分析的工作,對(duì)于分析過(guò)程中可能出現(xiàn)的新現(xiàn)行、 新情況等進(jìn)行監(jiān)控,并結(jié)合分析結(jié)果中的蛛絲馬跡,去探索數(shù)據(jù)群體中的規(guī)律,最終形成一份完整的分析報(bào)告。
通過(guò)對(duì)大數(shù)據(jù)分析和情報(bào)分析關(guān)系的科學(xué)辯證,可以清楚地認(rèn)識(shí)到,二者之間既存在著一定的共性,也存在著一定的差異性。但是,二者在實(shí)踐應(yīng)用的過(guò)程中,并不會(huì)因?yàn)椴町愋缘拇嬖冢绊懙綄?shí)際應(yīng)用的效果。在實(shí)踐中通過(guò)對(duì)大數(shù)據(jù)分析和情報(bào)分析共性的總結(jié)和整理,能夠更加清楚地認(rèn)識(shí)到大數(shù)據(jù)分析給情報(bào)分析帶來(lái)的發(fā)展和機(jī)遇。但是,要能夠認(rèn)識(shí)到情報(bào)分析和大數(shù)據(jù)在本質(zhì)上的差異,即使大數(shù)據(jù)分析的規(guī)模越來(lái)越大,涉及面越來(lái)越廣,但情報(bào)分析仍有著自己獨(dú)有的特色,如果實(shí)踐者能夠?qū)⑶閳?bào)分析的特色和優(yōu)勢(shì)充分發(fā)揮出來(lái)的話,對(duì)于大數(shù)據(jù)時(shí)代的發(fā)展也是一個(gè)巨大的挑戰(zhàn)。