田然
摘 要 隨著“大數(shù)據(jù)時(shí)代”的來(lái)臨,信息處理和應(yīng)用也同時(shí)進(jìn)入了新的發(fā)展領(lǐng)域。一個(gè)全新的理念從計(jì)算機(jī)領(lǐng)域拓展延伸到了傳播學(xué)領(lǐng)域,通過(guò)大數(shù)據(jù)對(duì)受眾相關(guān)信息即時(shí)收集和分析,媒介可以從中以數(shù)據(jù)的形式獲得相關(guān)結(jié)論,并對(duì)下一步的傳播或其他行為、策略進(jìn)行調(diào)整。巨大的發(fā)展紅利和客觀的社會(huì)、經(jīng)濟(jì)效益,使得對(duì)數(shù)據(jù)量化的研究越發(fā)深入,“一切皆可量化”成為了理想狀態(tài)。而在“一切皆可量化”的探索過(guò)程中,也出現(xiàn)了“量化”上的缺失和不足,對(duì)于“一切皆可量化”是否存在的爭(zhēng)議逐漸增多,而抽象概念的量化正是其中亟待解決的問(wèn)題之一。
關(guān)鍵詞 大數(shù)據(jù);量化;抽象概念
中圖分類(lèi)號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360(2018)19-0028-03
當(dāng)大數(shù)據(jù)時(shí)代蓬勃發(fā)展,對(duì)大數(shù)據(jù)的分析、篩選和使用提出了更高的期望和要求。在人工智能程序不斷完善的背景下,所有的信息都被納入了大數(shù)據(jù)的“數(shù)據(jù)庫(kù)”收集的范圍。在學(xué)界,尤其是計(jì)算機(jī)、人工智能領(lǐng)域,出現(xiàn)了一種觀點(diǎn),即社會(huì)的一切事物、行為和聯(lián)系都可以被具體量化為數(shù)據(jù)?!傲炕背蔀榇髷?shù)據(jù)時(shí)代最重要的成果。
“一切皆可量化”的概念認(rèn)為大數(shù)據(jù)時(shí)代的數(shù)據(jù)化,實(shí)質(zhì)是一種把現(xiàn)象轉(zhuǎn)變?yōu)榭芍笜?biāo)分析的量化形式過(guò)程。通過(guò)文本的定量分析,由機(jī)器或程序閱讀這些數(shù)字化形成的數(shù)據(jù),用于對(duì)人類(lèi)行為的預(yù)測(cè)。這樣的觀念,正在成為一種主流的思想。
1 “一切皆可量化”的爭(zhēng)議
“一切皆可量化”的特點(diǎn)是大數(shù)據(jù),而“大”所帶來(lái)的后果是精確性的下降。它的應(yīng)用,其關(guān)鍵不在數(shù)據(jù)的收集,而在于數(shù)據(jù)的分析環(huán)節(jié),只有分析的結(jié)果才能夠?yàn)槭鼙娝惺?,并接受相?yīng)應(yīng)用而產(chǎn)生的服務(wù)。如何對(duì)信息安全進(jìn)行有效地監(jiān)管,如何保證受眾的知情權(quán),已經(jīng)成為巨大的挑戰(zhàn)?!耙磺薪钥闪炕敝械摹敖钥伞笔且环N技術(shù),或者傳播學(xué)層面的可能,而并非代表著許可。如何確保受眾對(duì)于自身數(shù)據(jù)的上傳和共享得到充分的知情,享有確認(rèn)和監(jiān)管的權(quán)利,是“一切皆可量化”急需解決的關(guān)鍵問(wèn)題。在此基礎(chǔ)上,保障共享和被收集信息的安全,也尤為引人關(guān)注。
“一切皆可量化”是一種宏觀的概念,一方面,媒介在大眾傳播的過(guò)程中需要媒介、受眾的主觀能動(dòng)參與,受情感、人文情懷的影響與支配,而感情和具體的情感體驗(yàn)很難用數(shù)據(jù)去具體界定與衡量。另一方面,受眾參與大眾傳播,接觸信息或上傳、提供信息具有瞬時(shí)性,具有一定的空間、時(shí)間的限制和影響,數(shù)據(jù)并非恒定不變且過(guò)度依賴(lài)于設(shè)備、信息技術(shù),在特定的環(huán)境下并不能完成數(shù)據(jù)的收集和分析。因此,如何判斷量化后是否改變了其原有屬性,量化后的傳播效果如何判斷,都是“一切皆可量化”需要解決的問(wèn)題。
對(duì)于中文而言,“一切皆可量化”還面臨著技術(shù)層面的巨大挑戰(zhàn)。不同于英文等西方語(yǔ)言體系的特點(diǎn),中文的表達(dá)講究隱喻、修辭、借代、暗指等,往往需要結(jié)合具體的語(yǔ)境、場(chǎng)景,甚至是標(biāo)點(diǎn)符號(hào)、斷句、組詞等進(jìn)行輔助表達(dá)。而“一切皆可量化”自然是無(wú)法按照人的邏輯、思維和情感判斷對(duì)這些表達(dá)進(jìn)行精細(xì)、準(zhǔn)確地量化。這也是“一切皆可量化”在特定的語(yǔ)言和文化中無(wú)法完全實(shí)現(xiàn)的重要原因
之一。
2 抽象概念量化的進(jìn)展分析
在信息的傳播過(guò)程中,受眾會(huì)因?yàn)榻邮苄畔⒌拇碳ざa(chǎn)生相應(yīng)的情緒、感受、想法、思考。傳播學(xué)研究就已經(jīng)明確的定義,受眾在未接受信息刺激時(shí),以及在選擇接受信息洪流中的某種信息刺激時(shí),已經(jīng)持有自己的觀點(diǎn)和傾向、主張。那么,這樣的主張、傾向、感受、情緒等抽象性的“數(shù)據(jù)”,不能簡(jiǎn)單地按照大數(shù)據(jù)的收集方法,從用戶(hù)的身體指標(biāo)、行動(dòng)軌跡、搜索內(nèi)容、消費(fèi)指數(shù)等直觀數(shù)據(jù)中進(jìn)行量化,大數(shù)據(jù)應(yīng)該怎樣在沒(méi)有人類(lèi)邏輯思維判斷和“察言觀色”的基礎(chǔ)上進(jìn)行量化呢?
大數(shù)據(jù)真正的價(jià)值在于“全”,而大數(shù)據(jù)分析就是通過(guò)多維度、多層次的數(shù)據(jù),以及歷時(shí)態(tài)的關(guān)聯(lián)數(shù)據(jù),“找到問(wèn)題的癥結(jié),直抵事實(shí)的真相”[1]。因此,大數(shù)據(jù)要做到“全”,就必須嘗試將抽象數(shù)據(jù)進(jìn)行準(zhǔn)確的量化,并與直觀數(shù)據(jù)、形象數(shù)據(jù)納入統(tǒng)一的數(shù)據(jù)及分析體系。
其中一種方式是建立結(jié)果模型,將所需要的數(shù)據(jù)以具體的傳播行為進(jìn)行量化。參照新浪微博輿情監(jiān)測(cè)系統(tǒng),是通過(guò)對(duì)微博所體現(xiàn)的受眾觀點(diǎn)進(jìn)行數(shù)量統(tǒng)計(jì)和分析,從而與整體微博環(huán)境中的關(guān)注度、發(fā)布數(shù)等進(jìn)行整合,形成對(duì)于微博輿論的數(shù)據(jù)量化,同時(shí)對(duì)效果進(jìn)行統(tǒng)計(jì)分析,從而形成預(yù)測(cè)或參照。這樣的方法實(shí)則上是利用了一種層次分析法,將相應(yīng)的直觀數(shù)據(jù)指標(biāo)與抽象數(shù)據(jù)指標(biāo)結(jié)合在一起,對(duì)效果和后續(xù)傾向進(jìn)行量化的數(shù)據(jù)分析。
而為了應(yīng)對(duì)中文語(yǔ)系特有的復(fù)雜性和隱喻性,規(guī)避因多義詞、異議詞帶來(lái)的意義混淆,部分學(xué)者及從業(yè)人員嘗試采取層層分解、分析的方式,運(yùn)用大數(shù)據(jù)的快速運(yùn)算、海量分析的技術(shù)特點(diǎn),對(duì)抽象畫(huà)的概念進(jìn)行判斷。即將內(nèi)涵豐富的抽象概念,分解成為能容易被量化和分析的詞語(yǔ)或判斷標(biāo)準(zhǔn),在同一個(gè)意義框架內(nèi)進(jìn)行分解定位,根據(jù)這些分解后的數(shù)據(jù)判斷標(biāo)準(zhǔn)被觸及和涉及的程度,對(duì)抽象概念進(jìn)行相應(yīng)的量化[2]。
另一種方式,是采取邏輯學(xué)及統(tǒng)計(jì)學(xué)、哲學(xué)結(jié)合的方式,形成一種“質(zhì)化與量化研究”,將社會(huì)現(xiàn)象切割為一個(gè)個(gè)用數(shù)據(jù)表達(dá)的條塊,并賦予這些模塊在含義與表達(dá)數(shù)據(jù)上的逐一對(duì)應(yīng)關(guān)系。質(zhì)化的實(shí)質(zhì)是一種微觀的某種現(xiàn)象進(jìn)行深入觀察分析,以歸納法進(jìn)行分析形成數(shù)據(jù)。這樣的方式需要人工的參與,利用大數(shù)據(jù)平臺(tái)進(jìn)行初選判斷后進(jìn)行具體研判,但仍未擺脫前大數(shù)據(jù)時(shí)代的量化分析局限,且效率和效果均大受影響。
在這樣的體系構(gòu)建中,較為直觀的就是“百度指數(shù)”。“百度指數(shù)”是大數(shù)據(jù)時(shí)代數(shù)據(jù)量化后傳播效果的直觀評(píng)價(jià)體系之一。它按照用戶(hù)關(guān)注程度、媒體關(guān)注程度、受眾分布等進(jìn)行直觀數(shù)據(jù)體現(xiàn),同時(shí)結(jié)合性別、年齡、職業(yè)、學(xué)歷,對(duì)相應(yīng)的信息進(jìn)行指數(shù)判斷和評(píng)價(jià)。此外,它利用受眾轉(zhuǎn)發(fā)數(shù)量、關(guān)鍵詞詞頻、評(píng)論傾向等數(shù)據(jù),反映受眾在指數(shù)所涉及的數(shù)據(jù)中所保持的抽象性意見(jiàn)和反饋,從而體現(xiàn)了包括抽象概念在內(nèi)的量化后傳播效果。但這種反饋實(shí)際上仍舊較為簡(jiǎn)單,是一種最基本的頻次分析結(jié)果,具備的參考價(jià)值有限。
3 “一切皆可量化”中抽象概念的設(shè)想
為了應(yīng)對(duì)抽象概念的量化,真正實(shí)現(xiàn)“一切皆可量化”,運(yùn)用傳播學(xué)的理論,結(jié)合大數(shù)據(jù)運(yùn)用的實(shí)際,嘗試對(duì)其提出一定的假設(shè)與設(shè)想,構(gòu)建一種具備通用性的邏輯判斷模式。
首先,發(fā)揚(yáng)和繼承原有的“量化”判斷體系。這種體系基于用戶(hù)的個(gè)人數(shù)據(jù)收集和整合,通過(guò)用受眾轉(zhuǎn)發(fā)數(shù)量、關(guān)鍵詞詞頻、評(píng)論傾向進(jìn)行意見(jiàn)的整理和收集。
其次,與經(jīng)過(guò)用戶(hù)同意而進(jìn)行收集和整理的性別、年齡、職業(yè)、學(xué)歷等信息進(jìn)行對(duì)比,從而形成直觀的分布效果和統(tǒng)計(jì)數(shù)據(jù),為數(shù)據(jù)的應(yīng)用者提供參考,產(chǎn)生相應(yīng)的社會(huì)和經(jīng)濟(jì)價(jià)值。這種收集的另一個(gè)關(guān)鍵在于,對(duì)于受眾的長(zhǎng)文、長(zhǎng)句、長(zhǎng)詞進(jìn)行逐步分解,采取“意義表達(dá)”“句意加強(qiáng)或反轉(zhuǎn)”“個(gè)人態(tài)度表明”等進(jìn)行分解歸類(lèi),從而按照相應(yīng)的組合進(jìn)行判斷,得到受眾最為準(zhǔn)確的態(tài)度和立場(chǎng)。
此外,建立關(guān)鍵詞庫(kù),對(duì)信息關(guān)鍵詞進(jìn)行梳理、歸納匯總之后,建立一個(gè)信息關(guān)鍵詞庫(kù),由詞庫(kù)進(jìn)行相應(yīng)的信息轉(zhuǎn)換,類(lèi)似于密碼表格的形式,按照詞庫(kù)中的內(nèi)容對(duì)應(yīng)相應(yīng)的信息,從而轉(zhuǎn)換為特定的數(shù)據(jù)或數(shù)據(jù)符號(hào),融入整個(gè)大數(shù)據(jù)量化的系統(tǒng)中。例如,“難道”“豈能”表示句意具有反轉(zhuǎn)的可能性,“非?!薄笆帧北硎菊Z(yǔ)氣的加強(qiáng),從而對(duì)頻次整理進(jìn)行輔助。
同時(shí),要將表情包、表情、修飾圖片等加入統(tǒng)計(jì)和分析的庫(kù)中。在微博、微信和QQ心情等主要表達(dá)方式中,表情包等圖片形式的存在更具有直觀性,也更容易進(jìn)行歸納、整理和統(tǒng)計(jì)、分析。
另外,在建立結(jié)果模型的基礎(chǔ)上,結(jié)合智能化的質(zhì)化研究,出現(xiàn)了利用受眾在大數(shù)據(jù)系統(tǒng)內(nèi)獲取信息時(shí)所產(chǎn)生的搜索、點(diǎn)擊、暫停、跳轉(zhuǎn)等行為,進(jìn)行相應(yīng)的態(tài)度判斷,例如跳轉(zhuǎn)代表有興趣、屏蔽代表厭惡、重播或回看代表關(guān)注、暫停代表思考等,了解受眾在獲取信息過(guò)程中的抽象情感、態(tài)度、感覺(jué)和心情,用以對(duì)數(shù)據(jù)進(jìn)行補(bǔ)充。在此基礎(chǔ)上,通過(guò)有效地編碼,將大數(shù)據(jù)變?yōu)榭煞治龅臄?shù)據(jù),提取有價(jià)值的,更重要的是能量化的數(shù)據(jù)。
因此,抽象數(shù)據(jù)的收集和量化,繼而被分析,被賦予通用性和實(shí)用性,其方法應(yīng)是運(yùn)用事先預(yù)設(shè)的結(jié)果模型,對(duì)抽象概念進(jìn)行分解形成單一的或直觀的信息,再對(duì)信息進(jìn)行編碼排列,從關(guān)鍵詞捕捉、傾向性表達(dá)判斷、用詞頻次、使用行為等方面進(jìn)行綜合性量化,并進(jìn)行相應(yīng)的密碼配套和解碼轉(zhuǎn)化;同時(shí)在大數(shù)據(jù)技術(shù)自動(dòng)化的同時(shí),保證人工抽查和再判斷的方式,減輕錯(cuò)誤概率,并對(duì)部分極端數(shù)據(jù)進(jìn)行及時(shí)處理,增強(qiáng)大數(shù)據(jù)的預(yù)警機(jī)制。
與此同時(shí),借鑒手機(jī)定位中的多元定位法,可以在抽象意見(jiàn)的判斷中引入相關(guān)的“場(chǎng)域”概念。即參照抽象數(shù)據(jù)的量化過(guò)程,對(duì)數(shù)據(jù)進(jìn)行抽象化還原,從而判斷受眾對(duì)于量化數(shù)據(jù)的接受和反饋情況。例如,將數(shù)據(jù)按照態(tài)度、感受、心情、消費(fèi)沖動(dòng)、傾向選擇、意見(jiàn)改變等分類(lèi)劃定為一個(gè)“場(chǎng)域”,對(duì)“場(chǎng)域”進(jìn)行行為模式的定義,從而將抽象數(shù)據(jù)快速還原到一個(gè)相對(duì)大數(shù)據(jù)較小并具有共通性的區(qū)域內(nèi),類(lèi)似于數(shù)學(xué)上的坐標(biāo)軸。這樣的坐標(biāo)軸按照相應(yīng)的“X”“Y”“Z”軸進(jìn)行隔離,按照各坐標(biāo)軸上的數(shù)字進(jìn)行多維定位,從而在立體幾何圖像中找到精確的唯一坐標(biāo)點(diǎn)。這樣的方式同樣可以應(yīng)用在大數(shù)據(jù)的抽象概念分析中,通過(guò)對(duì)用戶(hù)詞頻、語(yǔ)氣詞、助動(dòng)詞、態(tài)度附加使用等數(shù)據(jù)的統(tǒng)計(jì),在“支持”“反對(duì)”“中立”結(jié)合“歡迎”“疑惑”“排斥”等抽象態(tài)度,在這樣的坐標(biāo)軸上,按照態(tài)度深淺進(jìn)行精確定位。這樣的通過(guò)多個(gè)“場(chǎng)域”的疊加,多次定位的方式,最終形成立體坐標(biāo),在將坐標(biāo)帶入相應(yīng)的判斷表格中進(jìn)行具體判定,完成還原和效果的判斷過(guò)程。
無(wú)論是“分解—解碼”機(jī)制,還是“場(chǎng)域”概念,其實(shí)質(zhì)都是解決“一切皆可量化”過(guò)程中對(duì)于抽象概念的量化難題。無(wú)論如何,大數(shù)據(jù)仍舊是互聯(lián)網(wǎng)的發(fā)展趨勢(shì),“一切皆可量化”也將成為關(guān)注的重要領(lǐng)域,市場(chǎng)有著迫切的需求。
因此,傳播學(xué)也應(yīng)該進(jìn)一步投入關(guān)注力度,對(duì)“一切皆可量化”分成分批解決,“一切”解決包括抽象概念在內(nèi)的內(nèi)容;“皆可”解決法律、道德層面的約束、制約;“量化”解決大數(shù)據(jù)分析、收集和應(yīng)用的技術(shù)和方法,最終使大數(shù)據(jù)時(shí)代的宏利得到真正的體現(xiàn)。
參考文獻(xiàn)
[1]喻國(guó)明.從精確新聞到大數(shù)據(jù)新聞——關(guān)于大數(shù)據(jù)新聞的前世今生[J].青年記者,2014(36):43-44.
[2]喻國(guó)明.構(gòu)建社會(huì)輿情總體判斷的大數(shù)據(jù)方法——以百度海量搜索數(shù)據(jù)的處理為例[J].新聞與寫(xiě)作,2013(7):67-69.