燕道成,高紫葉
摘 要 大數據時代,信息挖掘從海量數據中提取出大量具備潛在價值的信息。與此同時,信息挖掘也伴隨著數據隱私,侵權泛濫,數字俘虜,算法繭房,巨頭壟斷,安全隱患等價值風險。規(guī)避信息挖掘的價值風險,需要提高媒介素養(yǎng),走出“數字監(jiān)獄”;強調人文價值,傳達情感溫度;深挖細分市場,保護數據安全。
關鍵詞 大數據;信息挖掘;價值風險;規(guī)避
中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2020)22-0069-04
基金項目:湖南省社科基金重點項目“大數據時代信息價值觀引領研究”(19ZDB019)。
互聯網技術的進一步發(fā)展讓我們迎來了大數據時代,維克托·邁爾-舍恩伯格在《大數據時代:生活、工作與思維的大變革》中提出“大數據正在開啟一次重大的時代轉型。就如同顯微鏡使我們觀測到深邃的微觀世界,望遠鏡讓我們認識到浩瀚的宇宙,大數據技術正在改變我們的生活習慣以及理解世界的方式?!盵 1 ]信息挖掘作為大數據技術的基礎,為我們帶來便捷生活的同時也存在其固有的價值風險,我們如何認識這些風險并采取相應措施是目前需要明確的問題。因而,本文旨在分析大數據時代信息挖掘的相關風險,在采訪大數據從業(yè)人士后給出相對合理科學的規(guī)避建議,以填補以往研究的不足。
1 信息挖掘的價值風險
美國數據官Yin Depar Bundali指出,我們生活在無線數據時代,數據以無聲的方式流入我們的生活。我們憑借數據完成各種任務,從保存電子病歷用以記錄我們的健康信息,到治理經濟,到推動科學進步,不一而足[ 2 ]。信息挖掘能讓我們從海量數據中獲取有價值的信息,為我們的生活決策提供了便利。但是,從哪些渠道收集數據、通過何種邏輯網絡進行深入挖掘、挖掘多大體量的數據庫,這一系列的問題都伴隨著潛在的價值風險。
1.1 數據隱私,侵權泛濫
1969年誕生的互聯網技術僅花了51年時間,便改變了人類的生活。Web2.0讓互聯網從“可讀”進化為“可寫”,用戶自主進行內容生產與網站建設,截至2012年,Twitter上的信息發(fā)布量每天都會超過4億條微博[ 1 ]。用戶不再只是互聯網的觀看者,而成了真正的參與者與生產者。隨著移動智能終端的發(fā)明與5G的誕生,個人的行為舉止與身體信息都能轉變成數據記錄下來,大體量的數據傳輸更為精準、快速,如今我們已經身處于萬物互聯的大數據時代。
大數據時代的信息挖掘為企業(yè)帶來發(fā)展機遇。通過挖掘人們在網絡中的瀏覽軌跡信息,電商可以推送“你可能喜歡的產品”;通過定位人們的位置,社交媒體可以給你介紹“附近的人”;通過挖掘人們的醫(yī)療記錄,藥商公司可以判斷其需要的藥品和所處的社會地位。這些信息可能有用戶自愿公開的,也有非自愿公開的。
需要明確的是用戶個人信息不等同于隱私信息,只有個人不愿意公開的且需要受到保護的信息才屬于隱私信息。但是,大數據技術為數據隱私的界定設置了難題。除了上述隱私信息,用戶的一些數據行為如瀏覽路徑、思考過程等經過信息挖掘和大數據分析后,可能也會產生用戶不愿意泄露的個人信息。因而,信息挖掘的數據隱私范圍更為廣泛,除了用戶最初不愿公開的信息,還包括對用戶數據行為進行挖掘分析后可能泄露的隱私數據。
由于信息挖掘是在相當大量級的數據庫里抓取數據進行分析預測,預測內容多與數據之間具有相關性,而非具體的因果關系,因而,用戶往往對自己的數據隱私泄露一無所知。以美國“推測少女懷孕并泄露給商家”一案為例,美國塔吉特公司通過分析女性顧客的網購數據,可以預測到在校女學生懷孕的隱私。當用戶在互聯網上分享了自己的信息,這些信息被企業(yè)挖掘采集之后,用戶便很難對其進行控制。這給企業(yè)的行為營銷帶來了便利,但也加劇了侵權與犯罪。第46次《中國互聯網發(fā)展狀況報告》顯示,截至2020年6月有20.6%的網民遭遇過個人信息泄露,網絡詐騙與密碼被盜分別占比
17%、9.9%[3]。
大數據時代數據已經變成亟待變現的資本,企業(yè)在盈利目的的驅使下必定會盡可能多地收集用戶數據,充實數據庫資源。雖然目前各大App運營商都會征求用戶移動終端各項存儲信息的公開權限,但是這樣的征求形同虛設。一方面不少用戶的隱私意識薄弱,并未考慮到信息泄露的風險,另一方面用戶想要獲得App使用權就不得不同意相關條款?;ヂ摼W行業(yè)采集用戶信息已經成了基本原則,其條款內容動輒十來項,許多都和用戶所需要的服務無甚關聯。
1.2 數字俘虜,算法繭房
大數據技術為企業(yè)的科學決策提供了量化依據,已經成為企業(yè)的核心競爭力。為了確保后續(xù)程序的準確進行,信息挖掘必須要有多樣化的數據來源、真實有效的數據信息、大體量的數據庫支撐和邏輯清晰的數據關聯。上述任何一項的不足都可能導致數據挖掘不到位,進而影響大數據的預測結果。因此,信息挖掘的結果并非百分之百正確。以信息挖掘為基礎的大數據技術雖然為企業(yè)和政府決策提供了幫助,但這只具有參考價值,不能完全被技術分析的結果所左右。
“異化”(Alienation)一詞源自于拉丁文alienatio,本義為“讓渡、喪失、差異、疏遠”等。馬克思使用“異化”這一概念用以說明“勞動異化”現象,即人類勞動的產物卻對象化為一個奴役人、控制人的異己對象世界[4]。同樣的概念放在大數據時代依然適用。如今,我們的身體狀態(tài)、活動、情緒乃至思維都轉換成可以傳輸的數據,形成“數字孿生”。原本不合理的生存狀態(tài)被日益普及的大數據技術變得合理化,技術讓人們獲得高質量生活的同時喪失了批判性思維,成為單向度的人。人們對數據的單向推崇將刺激更為深入的信息掘活動,當人們的行為決策都以數據為導向之后,我們便成為了數字俘虜,大數據時代的數據異化由此而來。
數字俘虜不僅意味著我們在行動上被數據所掌控,更意味著思想上的被掌控。我們對信息的選擇性接觸傾向在大數據技術未產生前便已存在。但是,隨著信息挖掘與算法推薦技術的發(fā)展,我們的選擇性接觸變得更為狹窄了。過去,我們且能在不同內容之間選擇自己感興趣的內容,而現在,我們只能在相同內容之中強化自己的固有觀點與偏好。以今日頭條的成功為例,它以信息挖掘為基礎進行算法推薦,用戶能夠輕松獲取自己感興趣的新聞推送,這樣的方式減少了用戶的時間成本,進而有利于形成習慣、提高用戶忠誠度。用戶每天所接收的信息變成同一類信息的集合,久而久之,用戶將被困在思想繭房之中,數據挖掘只會將蠶繭越織越厚,因為它所遵循的是完全固化的技術邏輯。
1.3 巨頭壟斷,安全隱患
從數據基礎資源看,社會管理與服務機構、生活服務性的電商平臺天然能收集到龐大的個人數據。社會管理機構以人口統(tǒng)計局為例,周期性的人口普查工作需要了解公民的婚育情況、受教育情況、職業(yè)、收入等信息,這些信息所構成的大型數據庫僅為國家所有,官方報告中不可能給出細化的人口信息。生活服務型電商平臺以淘寶為例,用戶的消費記錄、線上瀏覽路徑及GPS定位包含有龐大的數據資源,這些基礎資源已經讓淘寶超過了其他許多企業(yè)。
信息挖掘能力可以細化為信息獲取意識、信息獲取路徑和信息獲取方法的差異。從信息獲取意識方面看,未經過專業(yè)教育的普通人已經習慣了碎片化的信息接收方式,在日常生活中不會有意收集并保存信息。而具備大數據時代發(fā)展意識的企業(yè)經營者和社會機關則會日常關注各個方面的數據信息,思考數據背后的潛在價值。從數據獲取路徑來看,數據獲取路徑的多樣化能夠提升數據挖掘能力。但問題在于大型企業(yè)擁有更大規(guī)模的用戶,相應的數據獲取的路徑也就越多,精細的數據網絡將反作用于企業(yè)經營,巨頭壟斷的趨勢會進一步被強化。從數據獲取方法來看,用什么工具來抓取數據會直接影響到數據挖掘的能力。先進的互聯網公司可以通過聘用專業(yè)的高技術人才,運用更加科學的抓取工具來獲取到更多有價值的數據。
信息分析與應用屬于信息挖掘的后續(xù)工作,基礎數據的不足和數據挖掘的不到位會直接破壞信息分析應用的結果。此外,數據分析還需要有發(fā)散思維和創(chuàng)新能力,即不僅能發(fā)現數據所反映的表層問題,還能挖掘延伸到數據潛藏的深層信息。政府和行業(yè)巨頭擁有更為專業(yè)的人才,其思維的發(fā)散性也會更強。上述幾個方面都證實了大數據時代巨頭壟斷的必然趨勢,且隨著時間的發(fā)展,行業(yè)參與者之間的鴻溝會逐漸加深。
行業(yè)巨頭壟斷會伴隨著新的問題——數據安全。巨頭所擁有的龐大數據庫相當于一份大蛋糕,大型企業(yè)數據庫屢遭攻擊,大數據時代的數據泄露不僅意味著企業(yè)資本的流失,還意味著無數用戶會面臨名譽損毀、網絡詐騙、綁架勒索等人身風險。據業(yè)內人士透露,京東每年僅花在遠成辦公保障網絡傳輸信息安全上的資金就有幾千萬。以往數據分散,即使信息泄露也只會小范圍內產生影響,而巨頭壟斷下的高密度數據庫資源一旦被黑客攻擊成功,所波及的范圍將從國內擴展到國際。
2 風險的規(guī)避
大數據時代的信息挖掘面臨著上文所提到的三大風險問題,對于這些問題我們并非無能為力。既然享受了技術帶給我們的諸多好處,就得面對與克服它所固有的問題。針對這些風險,下文將分別提出規(guī)避建議。
2.1 提高媒介素養(yǎng),走出“數字監(jiān)獄”
傳統(tǒng)意義上受眾的媒介素養(yǎng)主要體現為對媒介手段的使用能力和對媒介信息的識讀、篩選與判斷能力。大數據時代的公眾媒介素養(yǎng)應當在傳統(tǒng)意義的基礎上有所擴展,其中關鍵的一點是對個人信息的掌握與保護能力。對個人信息的掌握與保護可以貫徹到媒介使用前、媒介使用中與媒介使用之后。
目前,各大互聯網服務商在提供服務之前都會向用戶征求各種授權,如地理位置、手機存儲內容、手機聯系人方式等。這些授權部分簡明易懂,部分則以長篇大論出現。然而,已經習慣快節(jié)奏生活與碎片化閱讀的用戶往往沒有耐心去深究其中的利弊,只是機械化地選擇同意,在不知不覺中已經失去了對自己信息的掌握權。因此,在用戶使用媒介之前,可以先思考服務商授權內容是否與其所提供的實際服務相關聯,如若無關,用戶有權拒絕相關授權。媒介使用中的掌握與保護主要體現為用戶個人信息的發(fā)布。其中,最為值得注意的是用戶在社交媒體的個人信息。社會化媒體的出現讓過去各自獨立的小房間連成彼此互通的社區(qū),弱關系加持下的信息掘將進一步深化。能獲得用戶的個人信息不再只是與其直接相關的親朋好友,還可以是與其沒有直接關聯的網民和企業(yè)。在媒介使用中審慎發(fā)布個人信息,是大數據時代的公民需要學習的技能。
維克托·邁爾-舍恩伯格指出,在今天這個時代,遺忘變成例外,記憶變成常態(tài),人類住進了數字化的圓形監(jiān)獄[5]。數字化生存中的個人都成了一個個比特,在傳輸中被永久存儲在數據庫之中。一條陳年信息幾經周轉去到不同數據庫之后,經過不同的分析思路便可成為新的信息。雖然周轉過后的數據被不同的主體所控制,但這些數據的原主人依然有權對這些數據進行更改,甚至將其徹底刪除。被遺忘權已然成為大數據時代的新權利。目前人們的數據意識薄弱,據中國消協2018年發(fā)布的報告,超八成受訪者曾遭遇個人信息泄露問題,信息泄露之后1/3受訪者選擇自認倒霉[6]。人們只有不斷提高自己的媒介素養(yǎng),在上述的三個階段掌握與保護好個人信息,才能跳出數據監(jiān)視下的數字監(jiān)獄獲得一些新鮮空氣。
2.2 強調人文價值,傳達情感溫度
從科技倫理的角度看,科技倫理具有內在的復雜結構,“在這一結構中,一方面,科技的產生、應用與發(fā)展都離不開人,另一方面,倫理也是用來規(guī)范和指導人的行為的。”[7]科技的發(fā)展與人的發(fā)展是息息相關的。如今,大數據技術已經滲透于我們生活的方方面面,與此同時,被唯數據論支配的人們不僅喪失了創(chuàng)新意識和冒險精神,而且在逐漸變成片面追求物質利益的動物。因而,大數據時代的信息挖掘亟需強調其人文價值。
信息掘如何做到以人為本?以人為本即強調人的內在價值,外在工具的應用以促進人的良性發(fā)展為最終目的。針對這個問題,有大數據從業(yè)人員認為,目前,多數推薦算法根據用戶現有的興趣推薦,導致用戶看到的內容范圍越來越窄。因此推薦算法的改進可以更加注重推薦的廣度,損失一些點擊率來挖掘用戶更多潛在的興趣。也就是說,我們可以將過去的線性挖掘邏輯轉變成網狀挖掘邏輯,在深化的同時擴展挖掘的寬容度。該從業(yè)人員還表示,推薦算法本質是排序的過程,按深度優(yōu)先就是把相關性強的物品排在前面,如果要廣度的話就會更加看重用戶權重,比如有用戶喜歡游戲,但是他還喜歡別的,就提高別的這些的權重。因而在信息挖掘基礎上的算法推薦可以轉變排序方式,將與之相聯系的弱興趣內容也放在選擇范圍之內。
此外,信息挖掘還應該具有情感底線和人文底色,傳達情感溫度。以傳媒業(yè)的信息挖掘為例,媒體對遇難者個人信息的挖掘應該有所止損,諸如家庭地址、戀愛經歷、親朋好友等信息應該予以保護。一方面,媒體的對遇難者信息的過度曝光可能會對親屬造成二次傷害,另一方面,媒體也無法征求到遇難者對深度個人信息是否公開的授權。當人為冰冷的技術賦予情感溫度時,技術才能更好地服務于人。
2.3 深挖細分市場,保護數據安全
一位受訪人表示,“小企業(yè)生存的關鍵是做好產品,深挖細分市場,擴大用戶基數,參考頭條、抖音、拼多多的發(fā)展道路?!背闪⒂?015年的拼多多以打通下沉市場為其發(fā)展策略,將消費者群體細化為城市市場與鄉(xiāng)村市場,以價格優(yōu)勢率先爭得農村市場,再通過消費者大量的正向反饋和廣告拓展城市市場。在用戶基數擴大的基礎上,拼多多掌握了龐大的用戶數據資源,這些數據反哺產品推送,促進企業(yè)發(fā)展壯大。如今,拼多多已成為阿里、京東的勁敵,此前韻達申通圓通聯手封殺極兔速遞事件實則是這幾家巨頭之間的爭斗。參照拼多多的發(fā)展,中小企業(yè)可以針對自己定位的細分市場創(chuàng)新產品、保障質量,著力擴大自己的用戶基數,爭取獲得完備的用戶數據庫。
大企業(yè)在防止數據泄露方面一般會有完善的機制,主要是為各種數據增加讀寫權限,且數據始終保存在公司內網,只要不受到攻擊一般不會泄露。因而,當數據庫遭到黑客攻擊時,企業(yè)更應該具有一套完備的應對措施。企業(yè)可以在日常培養(yǎng)或吸納相關方面的技術人才,進行企業(yè)內部員工的安全培訓,在數據泄露之后主動提醒用戶修改相關密碼或刪除相關信息。要明確的一點是數據安全的風險是必然存在的,我們只能盡可能減小風險。
參考文獻
[1]維克托·邁爾-舍恩伯格,肯尼斯·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛陽燕,周濤,譯.杭州:浙江人民出版社,2013:21.
[2]桑尼爾·索雷斯.大數據治理[M].匡斌,譯.北京:清華大學出版社,2014:序7.
[3]中國互聯網發(fā)展中心.第46次《中國互聯網發(fā)展狀況報告》[EB/OL].(2020-09-25)[2020-11-01].http// www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202009/ P020200929546215182514.pdf.
[4]中共中央馬克思恩格斯列寧斯大林著作編譯局.馬克思恩格斯全集[M].北京:人民出版社,2002:278.
[5]維克托·邁爾-舍恩伯格.刪除:大數據取舍之道[M].袁杰,譯.杭州:浙江人民出版社,2013:5-22.
[6]中國消費者協會.App個人信息泄漏情況調查報告[EB/ OL].(2018-08-29)[2020-11-01].http//www.cca.org. cn/jmxf/detail/28180.html.
[7]程現昆.科技倫理研究論綱[M].北京:北京師范大學出版社,2011:73.