胡昌龍,郭 峘
(湖北工業(yè)大學(xué)管理學(xué)院,湖北 武漢430068)
微博,這個網(wǎng)絡(luò)時代的產(chǎn)品,正在以一種快速而有力的勢頭進入人們的生活,以其方便、快速、交互、靈活的特點參與到傳播當(dāng)中,并慢慢融入了社會的經(jīng)濟生活、文化生活、政治生活的各個方面。在大眾媒介和構(gòu)建輿論引領(lǐng)新格局中飾演著越來越重要的角色。1988年,Rousseau等人提出了“信任”的廣義定義,即建立在對另一方意圖和行為的正向估計基礎(chǔ)之上的不設(shè)防的心理狀態(tài)[1]。信任是一種常態(tài),相信某人的行為或周圍的秩序符合自己的愿望,并相信某人或團體具有言行一致的責(zé)任感[2]。M.W.Seeger等人將“危機”定義為“一種能夠帶來高度不確定性和高度威脅的,特殊的、不可預(yù)測的非常規(guī)事件”。[3]所謂微博信任危機,是指在微博的網(wǎng)絡(luò)環(huán)境下,因不設(shè)防或心理狀態(tài)的減弱、下降、缺失而帶來高度不確定性和高度威脅的、特殊的、不可預(yù)測的非常規(guī)事件[4]。
網(wǎng)絡(luò)具有虛擬、幻想的特點,在虛擬的網(wǎng)絡(luò)世界中,人的身份和行為被符號化,真正的人則隱藏在符號的后面。因此,部分微博網(wǎng)絡(luò)交往主體會把網(wǎng)絡(luò)看成是自我逃避殘酷現(xiàn)實的一種途徑,并將心中的不滿和痛苦發(fā)泄于網(wǎng)絡(luò)的虛擬世界中,類似于一種毫無目的欲望追求,以及不健康的“異化抒發(fā)”。這種微博網(wǎng)絡(luò)交往主體作用于客體的信息的異化,直接使得微博信息和相關(guān)問題趨于復(fù)雜化。
1.2.1 難辨微博信息的真假 由于任何人都可以注冊微博,并且微博上傳播的信息量非常巨大,微博網(wǎng)站很難對微博中傳播信息的真實性做出準(zhǔn)確判斷。再加上大多數(shù)人擁有好奇心,喜歡圍觀等心理狀態(tài),導(dǎo)致微博上的虛假和負面信息大量傳播。這就很難避免“誤打誤傷”、傷及無辜[5]。
1.2.2 難以掌控微博輿論走向 微博用戶“強烈關(guān)注時事”、聚焦一些社會熱點、難點問題,在焦點問題上集體出聲,使微博已經(jīng)成為“殺傷力最強的輿論載體”。因此,當(dāng)微博上存在一些不正確的尤其是錯誤的思想言論時,沉默螺旋效應(yīng)[6]使一些正確的思想言論很難對大眾的情緒進行正確疏導(dǎo)和對社會輿論產(chǎn)生正面的作用[7]。
1.2.3 完整性、系統(tǒng)性受限的信息 微博之所以叫微博是因為它的微型以及容量有限,僅僅可用140個字。這種局限性,很多情況下導(dǎo)致微博內(nèi)容的指向性不明,微博信息對于人們的有效性、目標(biāo)性也大幅度降低。也就是說,微博的大量信息中有很多可能是人們并不想要和需要的,甚至于接收這些信息會浪費人們大量的精力和時間。
認知基模效應(yīng)[6]即人們對同一事物的認知不同,在決斷一個問題之前,主觀地給問題限制一個既定的條件,最后得出一個與事實或發(fā)展現(xiàn)狀背道而馳的結(jié)果?;谶@種效應(yīng),造成了微博信息在一定程度上傳播方向發(fā)生偏差,最后導(dǎo)致信息的本來含義被扭曲,加速了微博信任危機的產(chǎn)生。
本體是一種通過概念和概念之間的關(guān)系來有效描述概念層次結(jié)構(gòu)和語義的模型。
Web挖掘是從Web文檔以及活動中發(fā)現(xiàn)和提取有用的、潛在的、隱藏的信息和模式,是一種在數(shù)據(jù)挖掘的基礎(chǔ)上發(fā)展起來的人工智能技術(shù)。
依據(jù)上面兩個概念的定義,建立基于本體的Web挖掘過程。
第一步,確定數(shù)據(jù)挖掘工作者的任務(wù),從 Web中得到用戶需要的相關(guān)信息和數(shù)據(jù)。待處理的對象包含以下信息:Web數(shù)據(jù)庫、Web結(jié)構(gòu)、用戶使用記錄、靜態(tài)網(wǎng)頁等。
第二步,根據(jù)數(shù)據(jù)挖掘的目的,提取、分解、合并各種不同結(jié)構(gòu)的原始數(shù)據(jù),然后使用本體領(lǐng)域的相關(guān)知識將這些原始數(shù)據(jù)轉(zhuǎn)變?yōu)閹в姓Z義的信息,最后將其存儲到關(guān)系型數(shù)據(jù)庫表或數(shù)據(jù)倉庫中。在這個過程中必須要注意數(shù)據(jù)存儲的方法,分析挖掘中得到的隱藏信息。
第三步,在挖掘方法本體庫和用戶需求進行匹配的基礎(chǔ)上,使用數(shù)據(jù)挖掘方法的本體,利用適當(dāng)?shù)臄?shù)據(jù)挖掘算法對處理后的數(shù)據(jù)進行挖掘、生成模式,主要算法包括訪問路徑分析(圖1)、序列模式分析、分類規(guī)則發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、聚類分析等。
圖1 訪問數(shù)據(jù)分析
面對大量的數(shù)據(jù),基于本體的Web挖掘可以更精確,更詳細的處理實時的復(fù)雜的數(shù)據(jù)并且分析挖掘數(shù)據(jù)。將本體應(yīng)用于Web挖掘,包括兩個內(nèi)容。
基于挖掘方法的本體[8]。挖掘方法本體是指,無論進行數(shù)據(jù)挖掘的是新手還是專家,Web挖掘方法和相應(yīng)算法的本體協(xié)助其在數(shù)據(jù)挖掘過程中,篩選出適當(dāng)?shù)乃惴ê头椒ā?/p>
基于挖掘?qū)ο蟮谋倔w[8]。挖掘?qū)ο蟊倔w是指Web挖掘的領(lǐng)域本體,為了能滿足一定領(lǐng)域范疇內(nèi)的功能共性,重用其知識功能共性的要求,該本體將體現(xiàn)該領(lǐng)域內(nèi)的概念和概念之間的關(guān)系、主要理論、基本原理、領(lǐng)域內(nèi)發(fā)生的活動等,基于此以建立該領(lǐng)域內(nèi)知識的共享。
通常的,Web挖掘的處理過程包括確定主題、資源發(fā)現(xiàn)、數(shù)據(jù)預(yù)處理、模式識別和模式分析等5個過程,在以上基礎(chǔ)過程上,將本體融入到 Web挖掘過程中,建立基于本體的Web挖掘過程(圖2)。
圖2 基于本體的Web挖掘過程
基于Web挖掘的過程,將其與數(shù)據(jù)挖掘的主體相結(jié)合,給出基于本體的Web數(shù)據(jù)挖掘過程的系統(tǒng)模型(圖3)。
圖3 基于本體的Web數(shù)據(jù)挖掘系統(tǒng)模型
網(wǎng)絡(luò)服務(wù)器、代理服務(wù)器等時時刻刻記載著系統(tǒng)中出現(xiàn)的各項重要事件,為微博網(wǎng)上信任危機預(yù)防提供了可用的數(shù)據(jù),但這類數(shù)據(jù)通常是根據(jù)專家對信息的綜合分析或者依靠直覺和經(jīng)驗而得,一般都不夠精確和詳細。所以,在微博網(wǎng)上信任危機預(yù)防中引入本體和Web挖掘的應(yīng)用,可以從數(shù)據(jù)資源中得到與微博信任危機信息相關(guān)聯(lián)的系統(tǒng)特征屬性,再根據(jù)系統(tǒng)特征屬性自動創(chuàng)建檢測微博信任危機信息的模型,運用于自動識別微博信任危機,可以更好地提高模式識別、規(guī)則構(gòu)造的效率。
依據(jù)以上給出的基于本體的Web挖掘過程,設(shè)計基于本體和Web挖掘的微博信任危機預(yù)防模型如圖4所示。
圖4 基于本體和Web挖掘的微博信任危機預(yù)防模型
基于本體和Web挖掘的微博信任危機預(yù)防模型的優(yōu)點包括以下幾個方面。
1)推動微博信任危機預(yù)防知識的共享。由于領(lǐng)域本體可以統(tǒng)一領(lǐng)域內(nèi)的概念,完整地描述微博上各類信任危機信息,同時使信任危機預(yù)防的語義描述問題更加具有靈活性,實現(xiàn)一定領(lǐng)域范圍內(nèi)的功能共性,克服了微博網(wǎng)絡(luò)交往主體與客體的異化性。
2)提高微博信任危機預(yù)防系統(tǒng)的功能。因為創(chuàng)建和使用了挖掘?qū)ο蟊倔w和挖掘方法本體,可以通過映射機制對本體之間進行相互映射,實現(xiàn)異構(gòu)、分布的數(shù)據(jù)之間進行相互操作和共享,為微博信任危機信息的互相訪問提供了途徑,可以提高信任危機預(yù)防系統(tǒng)的準(zhǔn)確性、可用性、可靠性、可擴展性,克服了微博在傳播格局中的局限和問題。
3)使用戶操作規(guī)程簡化?;诒倔w的Web挖掘,類似于給數(shù)據(jù)挖掘過程“提供”了一名“領(lǐng)域?qū)<摇?,以指?dǎo)參與整個挖掘的過程,挖掘出來的信息更加準(zhǔn)確、全面,減少了由人為失誤和主觀原因帶來的一些不好的結(jié)果,克服了認知基模效應(yīng)帶來的理解偏差,為用戶操作帶來方便[4]。
挖掘方法本體是指由全部的挖掘方法創(chuàng)建的本體。對于用戶進行Web挖掘、挖掘結(jié)果的決策應(yīng)用數(shù)據(jù)相當(dāng)重要。因此,需要建立精確的數(shù)據(jù)挖掘方法本體的思路[9]。
第一步,建立單個方法本體。包括:1)各個操作可讀取的信息;2)明確各個操作的運行環(huán)境,包含前提條件以及此操作前驅(qū)操作的兼容性;3)明確各個操作的詳細運行結(jié)果;4)明確閾值的情況;5)對精度、速度、模型復(fù)雜性操作屬性影響的估計。
第二步,將全部的挖掘方法本體合并在一起,創(chuàng)建挖掘方法本體。
第三步,在Web挖掘過程中,各個用戶還可以設(shè)計出新的過程或算法,添加到挖掘方法本體的數(shù)據(jù)庫中。
挖掘?qū)ο蟊倔w對于數(shù)據(jù)預(yù)處理的結(jié)果非常重要,使異構(gòu)數(shù)據(jù)經(jīng)過語義標(biāo)注、語義提取等方法構(gòu)成同構(gòu)化的數(shù)據(jù)庫,直接決定了是否能挖掘到能應(yīng)用于微博信任危機預(yù)防最大限度的數(shù)據(jù)。
構(gòu)造挖掘?qū)ο蟊倔w的方法如圖5所示。
圖5 構(gòu)造挖掘?qū)ο蟊倔w的方法
1)建立所研究的領(lǐng)域或任務(wù)相應(yīng)的領(lǐng)域本體或過程本體,確定本體應(yīng)用的目的。因為領(lǐng)域越大,相應(yīng)所建立的本體就越大,所以需要明確本體應(yīng)用的范圍。
2)為了能建立完善的本體,需要該領(lǐng)域?qū)<业膮⑴c,對本體所有術(shù)語的意義和它們之間的關(guān)系進行定義分析。
3)用建立的語義模型表示本體。
4)按明確性、完整性、一致性、可擴展性這四個標(biāo)準(zhǔn)來建立本體。清晰性是指在定義本體中的術(shù)語時沒有歧義;完整性是指包含該領(lǐng)域內(nèi)的完整的所有概念本體的特性;一致性是指邏輯上相一致的術(shù)語和術(shù)語之間的關(guān)系特性;可擴展性是指在該領(lǐng)域內(nèi),可以不斷加入新的概念,不斷的發(fā)展具有可以擴展的特性的本體特性。
5)對按以上標(biāo)準(zhǔn)所建立本體進行檢驗,符合要求的本體用文件形式存放,否則就轉(zhuǎn)2)。
在基于本體的微博信任危機預(yù)防模型中,由于建立挖掘?qū)ο蟊倔w主要是對網(wǎng)絡(luò)上大量的數(shù)據(jù)進行預(yù)處理,這種處理就有必要遵循一個統(tǒng)一的原則,也就是本體所起到的作用。因此挖掘?qū)ο蟊倔w建立的基本步驟(不包括檢驗過程)如圖6所示。
圖6 挖掘?qū)ο蟊倔w建立的基本步驟
第一步,從與用戶相關(guān)的數(shù)據(jù)中提取有價值的對預(yù)防微博信任危機起到關(guān)鍵性作用的新知識是Web挖掘的目的。為了驗證假設(shè)能否成立,利用數(shù)據(jù)挖掘這個過程,確定微博信任危機預(yù)防的相關(guān)應(yīng)用主題,建立合適的微博信任危機預(yù)防模型。
第二步,基于微博信任危機預(yù)防這一主要內(nèi)容,收集包含往來業(yè)務(wù)數(shù)據(jù)、登記用戶信息、Web服務(wù)器數(shù)據(jù)、代理服務(wù)器數(shù)據(jù)等各種網(wǎng)絡(luò)數(shù)據(jù)源,同時交給預(yù)處理模塊進行處理。
第三步,依據(jù)數(shù)據(jù)挖掘的主題,通過指導(dǎo)挖掘?qū)ο蟊倔w,將各種類的異構(gòu)原始數(shù)據(jù)源轉(zhuǎn)換為基于本體的標(biāo)準(zhǔn)模式的數(shù)據(jù),同時建立數(shù)據(jù)庫。
第四步,依據(jù)數(shù)據(jù)挖掘的主題,通過指導(dǎo)挖掘方法本體,獲取有問題的語義,接著準(zhǔn)確對決策問題進行描述,讓計算機可以基于語義準(zhǔn)確地理解決策者的意圖,對數(shù)據(jù)挖掘方法進行適當(dāng)?shù)倪x擇,以便從目標(biāo)數(shù)據(jù)中提取相關(guān)的有價值的數(shù)據(jù)、知識,從而可以對結(jié)果進行分析、驗證,建立結(jié)果集。
第五步,將建立的結(jié)果集和規(guī)則庫中已具有的規(guī)則進行模式匹配,結(jié)合領(lǐng)域中的規(guī)則和專家的相關(guān)知識,將微博信任危機信息和非信任危機信息區(qū)分開。
第六步,依據(jù)預(yù)警規(guī)則,對微博信任危機的預(yù)兆信息進行及時的報警,將不同的報警信號使用于不同的警報級別,同時注重事態(tài)的發(fā)展,預(yù)備信任危機的應(yīng)急方案。
本文首先對微博信任危機產(chǎn)生的根源進行了分析。針對微博信任危機中來源的信息數(shù)據(jù)繁多、雜亂并且異構(gòu)化數(shù)據(jù)多等缺點,給出了基于本體與Web挖掘的微博信任危機預(yù)防模型,使用此模型可以實現(xiàn)精確度很高的語義挖掘,并且可以根據(jù)語義挖掘的相關(guān)結(jié)果制定預(yù)防辦法。本模型實用性較強,但是本體庫內(nèi)容還需要不斷改進,建立更加完善的本體數(shù)據(jù)庫,進一步研究本體和Web挖掘技術(shù)相結(jié)合的方法,建立可有效運行的算法,提高微博信任危機預(yù)防的深度和精確度。
[1] Rousseau D M,Stkin S B,Colin Camerer.Not sodifferent after all:a cross-discipline view of trust[J].Academy of Management Review,1998(3):393-404.
[2] 臧豪杰.信任危機根源探究及對策建議 [J].領(lǐng)導(dǎo)科學(xué),2012(7):3-6.
[3] Seeger M W.Communication,organization and crisis[J].Communication Yearbook,1998,(21):231-275.
[4] 譚春輝,王 曉.基于本體與 Web挖掘的企業(yè)網(wǎng)上信任危機預(yù)防模型研究 [J].情報科學(xué),2011(5):1 559-1 564
[5] 魯曉薇.微博時代的信任危機 [J].新興傳媒,2011(2):92-93.
[6] 劉海龍.大眾傳播理論:范式與流派[M].北京:中國人民大學(xué)出版社,2008..
[7] 程 誠.試論微博對輿論形成的影響[J].新聞愛好者,2012(10):1-2.
[8] 邢平平,施鵬飛,趙 奕.基于本體論的數(shù)據(jù)挖掘方法[J].計算機工程,2001,5(27):15-16.
[9] 鄒力鶴,王麗珍,姚紹文.數(shù)據(jù)挖掘方法本體研究[J].計算機科學(xué),2005(3):197-799.