亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        虛擬與現(xiàn)實(shí):電子蹤跡大數(shù)據(jù)質(zhì)量與知識發(fā)現(xiàn)*

        2019-05-25 03:08:22
        圖書館 2019年5期
        關(guān)鍵詞:蹤跡社會科學(xué)百度

        陳 崢

        (武漢大學(xué)社會學(xué)系 武漢 430072)

        1 三大網(wǎng)絡(luò)的發(fā)展與人類行為互動數(shù)據(jù)的積累

        新一輪的信息技術(shù)革命深刻改變著人類社會的方方面面,我們正在步入數(shù)字化生產(chǎn)和數(shù)字化生活的時(shí)代。隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)三大網(wǎng)絡(luò)在全球范圍的普及,以及其對各個(gè)領(lǐng)域的深度滲透,大量的、多種類的人類行為互動數(shù)據(jù)被記錄下來,成為社會科學(xué)研究的新資源。

        互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)主要通過人機(jī)互動生成數(shù)據(jù)。我國用戶對互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)的使用行為,主要有以下幾種:①網(wǎng)絡(luò)通信(即時(shí)通信、電子郵件);②網(wǎng)絡(luò)信息獲?。ňW(wǎng)絡(luò)搜索、新聞瀏覽、地圖查詢、路況導(dǎo)航);③網(wǎng)絡(luò)社交(微博、微信、論壇/BBS);④網(wǎng)絡(luò)商務(wù)(購物、預(yù)訂、支付)、網(wǎng)絡(luò)金融(網(wǎng)上銀行、證券交易、理財(cái));⑤網(wǎng)絡(luò)學(xué)習(xí)(學(xué)習(xí)型閱讀、在線教育);⑥網(wǎng)絡(luò)娛樂(文學(xué)、視頻、音樂、游戲、直播、娛樂型閱讀);⑦O2O服務(wù)(網(wǎng)上訂外賣、網(wǎng)約車);⑧其他。這些使用行為都會在互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)上生成數(shù)據(jù)。

        第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2017 年12 月,中國網(wǎng)民規(guī)模達(dá)7.72 億,全年共計(jì)新增網(wǎng)民4 074萬人,互聯(lián)網(wǎng)普及率為55.8%,較2016 年底提升了2.6 個(gè)百分點(diǎn),中國手機(jī)網(wǎng)民規(guī)模達(dá)7.53億,較2016年底增加5 734萬人,提升了2.4個(gè)百分點(diǎn);就個(gè)人互聯(lián)網(wǎng)應(yīng)用發(fā)展?fàn)顩r而言,2017 年,我國個(gè)人互聯(lián)網(wǎng)應(yīng)用保持快速發(fā)展,各類應(yīng)用用戶規(guī)模均呈上升趨勢,其中網(wǎng)上外賣用戶規(guī)模增長顯著,年增長率達(dá)到64.6%;手機(jī)應(yīng)用方面,外賣、旅行預(yù)訂用戶規(guī)模增長明顯,年增長率分別達(dá)到66.2%和29.7%[1]。

        圖1 2016年12月—2017年12月中國網(wǎng)民互聯(lián)網(wǎng)應(yīng)用使用規(guī)模(萬人)

        除了互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)之外,借助先進(jìn)傳感技術(shù)實(shí)現(xiàn)萬物相連的物聯(lián)網(wǎng),也能夠采集大量的人類行為數(shù)據(jù)。例如,車聯(lián)網(wǎng)在通過攝像頭獲取交通流量等數(shù)據(jù)的同時(shí),也獲取了車輛使用者的時(shí)空軌跡;可穿戴設(shè)備借助物聯(lián)網(wǎng)技術(shù)獲取人的動態(tài)信息?;ヂ?lián)網(wǎng)/移動互聯(lián)網(wǎng)的數(shù)據(jù)生成一般需要人機(jī)互動,而物聯(lián)網(wǎng)則一般是由射頻識別(RFID)、紅外感應(yīng)器、激光掃描器、GPS等傳感設(shè)備自動采集信息,在數(shù)據(jù)生成過程中排除或大大減少了人為因素。

        圖2 2016年12月—2017年12月中國網(wǎng)民各類手機(jī)互聯(lián)網(wǎng)應(yīng)用的使用規(guī)模(萬人)

        由上可見,互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)已經(jīng)相當(dāng)普及,各類應(yīng)用的用戶規(guī)模穩(wěn)步增長,而物聯(lián)網(wǎng)則是方興未艾,其發(fā)展前景極為廣闊。據(jù)相關(guān)研究預(yù)測,到2020年,將有340億臺物聯(lián)網(wǎng)設(shè)備接入互聯(lián)網(wǎng),這意味著全球?qū)⑷司鶕碛?臺以上的物聯(lián)網(wǎng)設(shè)備[2]。

        三大網(wǎng)絡(luò)已經(jīng)生成、采集了海量的人類行為互動數(shù)據(jù),并且數(shù)據(jù)量還會持續(xù)高速增長。近十年來,社會科學(xué)界越來越關(guān)注這些數(shù)據(jù)的科學(xué)價(jià)值。在前互聯(lián)網(wǎng)時(shí)代,大規(guī)模的普通人群行為互動數(shù)據(jù)難以獲取,社會科學(xué)實(shí)證研究常常面臨“巧婦難為無米之炊”的窘境。計(jì)算社會科學(xué)提出者大衛(wèi)·拉澤爾等學(xué)者敏銳察覺到,在網(wǎng)絡(luò)中積累的大量長時(shí)間、連續(xù)性、大規(guī)模的人類行為與互動數(shù)據(jù),具有前所未有的廣度、深度和尺度,認(rèn)為對這些數(shù)據(jù)的收集與分析,將為拓展、深化甚至革新對個(gè)體行為、群體交往、組織結(jié)構(gòu)乃至整個(gè)社會運(yùn)行規(guī)律的認(rèn)識開辟一條新路徑[3]。

        數(shù)據(jù)驅(qū)動型知識發(fā)現(xiàn)是大數(shù)據(jù)時(shí)代計(jì)算社會科學(xué)的核心內(nèi)容之一,它把三大網(wǎng)絡(luò)中的人類行為互動數(shù)據(jù)作為感知個(gè)人與社會的資源,致力于通過對數(shù)據(jù)洪流的分析與挖掘,發(fā)現(xiàn)隱藏在紛繁復(fù)雜的社會現(xiàn)象背后的人類行為特征與模式,進(jìn)而揭示人類行為與社會發(fā)展的某些規(guī)律。例如,邁克爾·尼爾森特別強(qiáng)調(diào)利用計(jì)算機(jī)從數(shù)據(jù)中挖掘出事物之間不曾被發(fā)現(xiàn)的聯(lián)系[4]。致力于計(jì)算社會科學(xué)與大數(shù)據(jù)研究的德國學(xué)者尤爾根·普費(fèi)弗則指出:“強(qiáng)大的計(jì)算資源加之海量的社交媒體數(shù)據(jù)集,讓結(jié)合機(jī)器學(xué)習(xí)、自然語言處理、網(wǎng)絡(luò)分析及對于人口結(jié)構(gòu)與人類行為統(tǒng)計(jì)測量的研究數(shù)量以前所未有的規(guī)模增長[5]。”

        2 內(nèi)容與蹤跡:對數(shù)據(jù)處理技術(shù)的不同要求

        三大網(wǎng)絡(luò)中生成、采集的人類行為互動數(shù)據(jù)是典型的大數(shù)據(jù)。雖然目前大數(shù)據(jù)尚無嚴(yán)格統(tǒng)一的定義,但我們普遍認(rèn)為其具有“4V”特征——Volume(大量)、Velocity(高速)、Variety(多態(tài))、Value(有價(jià)值且價(jià)值密度低)。人類行為互動數(shù)據(jù)不僅體量龐大、持續(xù)高速增漲,并且其種類、模態(tài)多種多樣(如文本、圖片、音頻、視頻、空間位置等等);此外,它對包括社會科學(xué)研究在內(nèi)的眾多領(lǐng)域具有很高的價(jià)值,同時(shí)相對于具體的研究和實(shí)踐任務(wù)而言,又顯著地呈現(xiàn)出價(jià)值密度低的特點(diǎn)。

        大數(shù)據(jù)是規(guī)模巨大的數(shù)據(jù)集合,在存儲、管理、分析等方面大大超出了傳統(tǒng)計(jì)算機(jī)軟硬件工具能力范圍。我們必須借助新一代的數(shù)據(jù)處理技術(shù),如云計(jì)算、人工智能等,才能在社會科學(xué)研究中將大數(shù)據(jù)的價(jià)值發(fā)揮出來。

        人類行為互動數(shù)據(jù)可分為兩種主要類型:一是用戶生成內(nèi)容(簡稱UGC),指由用戶原創(chuàng)的內(nèi)容(不包括轉(zhuǎn)發(fā)、復(fù)制的他人原創(chuàng)內(nèi)容);二是電子蹤跡,指三大網(wǎng)絡(luò)所記錄的包含時(shí)空變量的人類行為的動態(tài)軌跡。例如,搜索日志記錄匯集了用戶的網(wǎng)絡(luò)搜索行為,對其進(jìn)行加工可形成搜索指數(shù);社交媒體用戶發(fā)布的信息內(nèi)容屬于UGC,而該微博的瀏覽量、點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)則是關(guān)注該內(nèi)容的用戶群體所留下的電子蹤跡數(shù)據(jù)。這些數(shù)據(jù)不僅記錄了用戶行為的時(shí)間,而且大多可以通過IP地址、ID、通訊基站、GPS等獲得其空間分布狀態(tài)信息。兩種數(shù)據(jù)的不同特點(diǎn)決定了其對數(shù)據(jù)處理技術(shù)的要求也有所不同。

        UGC一般是文本、圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù),其分析處理需要借助人工智能技術(shù)。目前在社會科學(xué)研究中最常見的是基于自然語言理解技術(shù)的文本內(nèi)容分析,包括語義識別、主題提取、觀點(diǎn)聚類、情緒識別等。目前的自然語言理解技術(shù)對于文本數(shù)據(jù)的分析處理尚存在一定程度的模糊性,對圖片、音頻、視頻的分析處理更是差強(qiáng)人意。目前UGC數(shù)據(jù)的加工精度在很多時(shí)候還達(dá)不到對精確性要求較高的社會科學(xué)研究的要求,數(shù)據(jù)處理技術(shù)有待進(jìn)一步提升。

        與UGC數(shù)據(jù)不同,電子蹤跡數(shù)據(jù)一般是結(jié)構(gòu)化/可結(jié)構(gòu)化、量化/可量化的數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)的處理技術(shù)(包括支持分布式計(jì)算)相對成熟,數(shù)據(jù)的加工精度一般較高。例如,網(wǎng)絡(luò)搜索數(shù)據(jù)以用戶搜索日志為基礎(chǔ),通過對關(guān)鍵詞的統(tǒng)計(jì)分析,可以得出搜索規(guī)模、搜索時(shí)間、變化趨勢、地域分布等特征變量的值。這些都是可以結(jié)構(gòu)化表達(dá)的數(shù)據(jù),能夠方便地用于社會科學(xué)定量研究。例如政府利用搜索指數(shù)來分析公眾對政策、社會事件等的關(guān)注程度,旅游景區(qū)利用搜索指數(shù)來預(yù)測高峰期的游客數(shù)量等等。電子蹤跡數(shù)據(jù)的分析要比內(nèi)容分析容易得多,數(shù)據(jù)處理的精確性也高得多。

        需要指出的是,很多人類行為互動數(shù)據(jù)同時(shí)包含用戶生成內(nèi)容(UGC)和電子蹤跡兩種數(shù)據(jù),例如微博、微信、論壇等社交媒體數(shù)據(jù),其中既有原創(chuàng)者發(fā)布的內(nèi)容和參與者評論的內(nèi)容,也有用戶瀏覽、點(diǎn)贊、轉(zhuǎn)發(fā)等行為留下的電子蹤跡。對這類數(shù)據(jù),在條件許可的情況下,計(jì)算社會科學(xué)研究經(jīng)常會將對內(nèi)容與電子蹤跡兩種數(shù)據(jù)的分析融合在一起。目前計(jì)算社會科學(xué)研究者一般未將內(nèi)容(非結(jié)構(gòu)化數(shù)據(jù))和電子蹤跡(結(jié)構(gòu)化/可結(jié)構(gòu)化數(shù)據(jù))進(jìn)行明確區(qū)分。這種區(qū)分實(shí)際上是十分必要的,有助于研究者對數(shù)據(jù)處理的誤差作出正確判斷。

        電子蹤跡大數(shù)據(jù)受倫理和法律限制較小。在人類行為互動數(shù)據(jù)中,有一些內(nèi)容不能合法獲得并用于研究,而其中的電子蹤跡則在經(jīng)過技術(shù)處理之后可以成為社會科學(xué)研究的資料。例如智能手機(jī)的即時(shí)通信和網(wǎng)絡(luò)電子郵件,其通信內(nèi)容一般涉及用戶隱私,未經(jīng)授權(quán)不得使用,而獲得大規(guī)模用戶群體的授權(quán)幾乎是不可能的;不過其中的通信時(shí)間、通信雙方的空間位置、通信頻度等電子蹤跡數(shù)據(jù)經(jīng)過匿名、脫敏等處理,可以用于研究。這使得電子蹤跡數(shù)據(jù)在現(xiàn)階段受到數(shù)據(jù)驅(qū)動型知識發(fā)現(xiàn)的高度重視。

        3 價(jià)值與質(zhì)量:基于電子蹤跡大數(shù)據(jù)的知識發(fā)現(xiàn)

        電子蹤跡數(shù)據(jù)記錄了規(guī)模龐大的普通人群的行為狀態(tài),成為認(rèn)識人和社會的全新知識來源。有學(xué)者認(rèn)為,電子蹤跡,互聯(lián)網(wǎng)搜索、標(biāo)上時(shí)間的文本、聲音、圖像,海量數(shù)據(jù)集,記錄了人們的決定和活動。也許分析這些電子蹤跡,就會破解人類行為的秘密[6]。當(dāng)前,基于電子蹤跡大數(shù)據(jù)的知識發(fā)現(xiàn)已經(jīng)運(yùn)用于社會科學(xué)研究的諸多學(xué)科,如政治學(xué)、經(jīng)濟(jì)學(xué)、社會學(xué)、傳播學(xué)等。

        在政治學(xué)領(lǐng)域,鑒于社交媒體已經(jīng)成為各種政治勢力的角力場,國外有學(xué)者試圖探究運(yùn)用推特電子蹤跡數(shù)據(jù)推知民意乃至預(yù)測大選結(jié)果的可行性[7]。

        在社會學(xué)領(lǐng)域,電子蹤跡數(shù)據(jù)的社會內(nèi)涵是焦點(diǎn)問題之一。例如,有學(xué)者探究了推特用戶賬戶擁有的粉絲數(shù)量與該賬戶關(guān)注的賬戶數(shù)對結(jié)合型與橋接型在線社會資本的影響。他們發(fā)現(xiàn)結(jié)合型社會資本與用戶帳戶的粉絲數(shù)量相關(guān),而橋接型社會資本則受其所關(guān)注賬戶數(shù)量的影響,但這種相關(guān)與影響并非絕對,僅在某種程度上呈現(xiàn)相關(guān)性[8]。

        在經(jīng)濟(jì)學(xué)領(lǐng)域,電子蹤跡數(shù)據(jù)所蘊(yùn)含的經(jīng)濟(jì)價(jià)值問題頗受關(guān)注。有學(xué)者力圖探尋個(gè)人在社交媒體上的受歡迎程度可否轉(zhuǎn)化為現(xiàn)實(shí)的經(jīng)濟(jì)收益,如名人社交媒體賬戶粉絲數(shù)量的增減與其收入水平的浮動是否存在相關(guān)性[9]。

        在傳播學(xué)領(lǐng)域,國內(nèi)學(xué)者利用微博電子蹤跡數(shù)據(jù)來分析輿情傳播的空間分布、傳播速度、熱度;國外學(xué)者從信息流轉(zhuǎn)的角度闡釋推特電子蹤跡數(shù)據(jù),例如,有學(xué)者將推特轉(zhuǎn)發(fā)區(qū)分為信息型轉(zhuǎn)發(fā)與對話型轉(zhuǎn)發(fā),前者指僅轉(zhuǎn)發(fā)原信息,后者指在轉(zhuǎn)發(fā)的同時(shí)添加評論,并析出兩者出現(xiàn)的頻率[10]。

        這些具有創(chuàng)新意義的探索還僅僅是開始,電子蹤跡數(shù)據(jù)將逐漸凸顯巨大的社會科學(xué)價(jià)值。同時(shí),數(shù)據(jù)質(zhì)量也成為必須認(rèn)真審視的問題。

        社會科學(xué)研究對數(shù)據(jù)質(zhì)量最基本的要求是(定性意義上的)真實(shí)性和(定量意義上的)準(zhǔn)確性。大數(shù)據(jù)時(shí)代到來之時(shí),很多人忽視了對數(shù)據(jù)質(zhì)量的審慎考察,憑借簡單的經(jīng)驗(yàn)甚至直覺就斷言大數(shù)據(jù)的真實(shí)性。2012年,IBM提出大數(shù)據(jù)的真實(shí)性(Veracity)特征,雖然在2013年又解釋為“追求大數(shù)據(jù)的真實(shí)性”,但已經(jīng)造成了廣泛的誤解,許多學(xué)者迄今還認(rèn)為這家著名的互聯(lián)網(wǎng)企業(yè)所表達(dá)的意思是大數(shù)據(jù)是真實(shí)的。維克托·邁爾-舍恩伯格認(rèn)為大數(shù)據(jù)記錄下來的是人們的平常狀態(tài),因此可以有效避免問卷調(diào)查等傳統(tǒng)研究方法可能存在的偏見[11]。范·戴克甚至認(rèn)為,大規(guī)模數(shù)據(jù)集具有真實(shí)、客觀、準(zhǔn)確的特征,可提供能夠產(chǎn)生先前人們無法想象的深刻洞見的更高級形式的智能與知識[12]。依據(jù)上述觀點(diǎn),電子蹤跡數(shù)據(jù)作為大數(shù)據(jù)的一種,它當(dāng)然應(yīng)該是真實(shí)、自然、客觀、準(zhǔn)確的數(shù)據(jù)。

        這類觀點(diǎn)有一個(gè)共同點(diǎn)——并未經(jīng)過深思明辨,就草率給出結(jié)論。大數(shù)據(jù)種類繁多,不同的數(shù)據(jù)有不同的本質(zhì)和特征,數(shù)據(jù)質(zhì)量也有很大差別,大數(shù)據(jù)是否真實(shí)、自然、客觀、準(zhǔn)確,決不可一概而論。認(rèn)真細(xì)致地考察各類人類行為互動數(shù)據(jù)的質(zhì)量,對于將其正確運(yùn)用于社會科學(xué)研究是極為必要的。文章將以社會科學(xué)研究最常使用的電子蹤跡數(shù)據(jù)——網(wǎng)絡(luò)搜索數(shù)據(jù)為例進(jìn)行分析說明。

        4 大數(shù)據(jù)也會說謊:信度存疑的網(wǎng)絡(luò)搜索數(shù)據(jù)

        提供搜索引擎服務(wù)的各大互聯(lián)網(wǎng)公司積累了海量用戶搜索行為數(shù)據(jù),推出了基于搜索日志分析的應(yīng)用產(chǎn)品,如全球搜索市場份額第一的谷歌公司的谷歌趨勢,中國搜索市場份額第一的百度公司的百度指數(shù)等。這些應(yīng)用產(chǎn)品通過對一段時(shí)間內(nèi)的關(guān)鍵詞搜尋量進(jìn)行統(tǒng)計(jì),了解用戶關(guān)心的事物、話題,并展現(xiàn)用戶行為的整體趨勢、地域分布、時(shí)間特征等電子蹤跡。

        在很多人看來,搜索數(shù)據(jù)理應(yīng)是最“不會說謊的大數(shù)據(jù)”,因此不論是谷歌趨勢還是百度指數(shù),其可靠性必定是相當(dāng)高的。然而事實(shí)卻不能如人所愿,盛極一時(shí)的“谷歌流感趨勢”(Google Flu Trends, GFT),即是憑借用戶搜索行為的電子蹤跡來預(yù)測流感疫情,它以“大數(shù)據(jù)洞見的典范”步入舞臺中心,最終以“大數(shù)據(jù)缺陷的典范”黯然退場。計(jì)算社會科學(xué)的提出者大衛(wèi)·拉澤爾對谷歌流感趨勢的失敗原因進(jìn)行了分析,發(fā)現(xiàn)導(dǎo)致預(yù)測出現(xiàn)嚴(yán)重偏差的原因之一是谷歌出于商業(yè)目的,不斷地改變其搜索推薦算法,而很多用戶會參考谷歌的推薦來進(jìn)行搜索[13]。搜索推薦算法的變化影響了用戶的搜索行為,在某種程度上引導(dǎo)了數(shù)據(jù)的生成,進(jìn)而影響數(shù)據(jù)分析結(jié)果。谷歌目前無法克服這種引導(dǎo)性,因?yàn)樗阉魍扑]算法是依據(jù)廣告商的付費(fèi)和訴求來變化的,谷歌離不開廣告收入,作為一家企業(yè),不能不把盈利放在首位。谷歌最終選擇了將GFT下線。2017年6月,歐盟委員會向谷歌開出金額為24.2億歐元的天價(jià)罰單,同時(shí)給出的一份聲明稱,谷歌進(jìn)入購物比價(jià)市場后,利用其在網(wǎng)上搜索領(lǐng)域的主導(dǎo)地位,操縱搜索結(jié)果,不公平地把客戶引向自己的購物服務(wù),令規(guī)模較小的購物搜索服務(wù)供應(yīng)商處于不利地位[14]。這一事件揭示了“大數(shù)據(jù)不會說謊”本身就是在說謊,因?yàn)樗阉鹘Y(jié)果是可以操縱的,谷歌能夠憑借技術(shù)手段按其偏好顯示搜索結(jié)果。

        百度也存在對用戶搜索行為進(jìn)行引導(dǎo),對搜索結(jié)果進(jìn)行操縱的情況。2016年的“魏則西事件”,充分暴露出百度通過競價(jià)排名對搜索結(jié)果進(jìn)行排序。百度指數(shù)的產(chǎn)品說明中關(guān)于常見問題有這樣兩則內(nèi)容:①您可以通過更有效地使用百度營銷產(chǎn)品,及其他營銷活動,提高您的品牌、產(chǎn)品在網(wǎng)民中的知名度和購買需求,從而提高網(wǎng)民對您的品牌、產(chǎn)品的搜索指數(shù);②百度指數(shù)在防作弊(反作弊)方面做了大量工作,研究并建立了一整套相應(yīng)的防作弊(反作弊)技術(shù)體系,力求將作弊現(xiàn)象減少到最低限度?!瓰樽畲笙薅缺WC百度指數(shù)整體信息公平、公正,對于已經(jīng)有明確證據(jù)證明使用作弊手段來提高排名的關(guān)鍵詞,百度指數(shù)會對其數(shù)據(jù)進(jìn)行很大幅度的降權(quán)處理[15]。

        以上內(nèi)容足以說明,百度指數(shù)是可以通過“百度營銷產(chǎn)品”來提升的。此外,用戶可能采用某些技術(shù)手段(如編寫程序讓計(jì)算機(jī)自動搜索,以生成電子蹤跡數(shù)據(jù))在前臺作弊,百度也能夠在后臺對數(shù)據(jù)進(jìn)行調(diào)控?;蛟S正因?yàn)榇耍俣戎笖?shù)在免責(zé)聲明中稱:“百度指數(shù)僅能作為您的參考資料,我們不對數(shù)據(jù)的準(zhǔn)確性、正確性、最新性及完整性做任何承諾和保證。因此,您在基于百度指數(shù)中的任何內(nèi)容作出任何決策之前,您應(yīng)該自行確認(rèn)所有相關(guān)信息的準(zhǔn)確性和完整性?!盵16]

        綜上所述,網(wǎng)絡(luò)搜索數(shù)據(jù)并不一定是真實(shí)、自然、客觀、準(zhǔn)確的電子蹤跡,在數(shù)據(jù)生成過程中可能被引導(dǎo)、被操縱、被造假、被調(diào)控。此外,不同搜索引擎提供商的數(shù)據(jù)一般來說存在差異。圖3和圖4是以“云計(jì)算”和“人工智能”為關(guān)鍵詞的百度指數(shù)和搜狗指數(shù)趨勢,兩者存在數(shù)量上的差異是正常的(百度的用戶更多),但在整體趨勢上也存在明顯差異,就無法判斷誰更準(zhǔn)確可靠了。在計(jì)算社會科學(xué)研究中,基于網(wǎng)絡(luò)搜索數(shù)據(jù)得出的結(jié)果具有重要參考價(jià)值,但要真正作出嚴(yán)謹(jǐn)可靠的科學(xué)結(jié)論,還必須借助其他研究方法進(jìn)行交叉論證。

        圖3 2018年1月—2018年6月以“云計(jì)算”與“人工智能”為關(guān)鍵詞的百度搜索指數(shù)趨勢

        圖4 2018年1月—2018年6月以“云計(jì)算”與“人工智能”為關(guān)鍵詞的搜狗搜索指數(shù)趨勢

        5 虛擬與現(xiàn)實(shí):電子蹤跡大數(shù)據(jù)的兩重性

        與網(wǎng)絡(luò)搜索數(shù)據(jù)一樣,其它種類的電子蹤跡數(shù)據(jù)也存在數(shù)據(jù)質(zhì)量問題。例如電子商務(wù)、社交媒體、網(wǎng)絡(luò)約車平臺上生成的電子蹤跡數(shù)據(jù)等。

        電子商務(wù)數(shù)據(jù)一直受到經(jīng)濟(jì)學(xué)、管理學(xué)研究的高度重視,在微觀和宏觀兩個(gè)層面都具有研究價(jià)值。在微觀層面,企業(yè)可以借助電子商務(wù)數(shù)據(jù)了解行業(yè)發(fā)展趨勢、競爭品牌狀況、市場對產(chǎn)品的態(tài)度、用戶的消費(fèi)偏好與消費(fèi)習(xí)慣等等,從而將傳統(tǒng)的專家決策轉(zhuǎn)變?yōu)榛跀?shù)據(jù)分析的“慧眼決策”。在宏觀層面,電子商務(wù)數(shù)據(jù)可以用于分析經(jīng)濟(jì)運(yùn)行狀況,例如電子商務(wù)數(shù)據(jù)已經(jīng)成為CPI(消費(fèi)價(jià)格指數(shù))調(diào)查與預(yù)測的一種新數(shù)據(jù)源。它最突出的優(yōu)勢是時(shí)效性強(qiáng),在CPI預(yù)測中格外受青睞。

        電子商務(wù)數(shù)據(jù)也是造假情況最為嚴(yán)重的數(shù)據(jù)。例如,淘寶作為中國最大電商交易平臺,一直高度重視其數(shù)據(jù)的價(jià)值,但屢禁不止的造假行為大大損害了數(shù)據(jù)的信度。由于網(wǎng)店的瀏覽量、銷量和好評率等電子蹤跡數(shù)據(jù)是客戶作出購買決策的重要參考,提高這些數(shù)據(jù)就可能提高銷量,所以不少商家采用刷單的方法造假。據(jù)報(bào)道,電商領(lǐng)域的現(xiàn)狀是“凡是你能想到有交易評價(jià)的線上平臺都存在刷單”。刷單已經(jīng)成為一個(gè)灰色行業(yè),為了讓刷出來的單看起來像真的,刷單公司還采取“空包快遞”等方法,生成完整的物流信息。阿里巴巴是一個(gè)以大數(shù)據(jù)為基底的公司,搜索、廣告等都是基于大數(shù)據(jù)的深度分析。大數(shù)據(jù)的基礎(chǔ)是豐富可靠的數(shù)據(jù),而刷單讓數(shù)據(jù)變得不可靠,阿里巴巴的大數(shù)據(jù)和分析基底也不同程度地被污染。馬云曾在內(nèi)部會議中將炒信定義為三大“毒瘤”之一,要求零容忍。為此,阿里巴巴成立了“炒信特戰(zhàn)隊(duì)”,專門清查平臺上的刷單、炒信行為:2015年,查處關(guān)停了2.9萬家有嚴(yán)重造假行為的店鋪;2016年,一個(gè)月內(nèi)有22萬多個(gè)賣家因?yàn)樯嫦铀问艿教幜P,其中有嚴(yán)重刷單行為的6 000多個(gè)賣家被封店。阿里在對虛假交易的防控、識別和處置上,花費(fèi)了大量人力、財(cái)力,投入數(shù)億元資金鞏固、升級整個(gè)防控體系。這種監(jiān)控、打擊力度不可謂不強(qiáng),但在利益的驅(qū)使下,刷單者“前赴后繼”,直至今日,“炒信特戰(zhàn)隊(duì)”與刷單商家的戰(zhàn)爭仍在繼續(xù)[17]。

        互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)有“第四媒體”之稱,突破時(shí)空限制的強(qiáng)大傳播能力,使其公眾影響力日漸增強(qiáng)。在這種情況下,被認(rèn)為最有助于人們自由表達(dá)的社交媒體,也在一定程度上成為了出于某種目的的工具,數(shù)據(jù)的“自然發(fā)生性”也被大大削弱。這一狀況在政治領(lǐng)域表現(xiàn)得最為突出,隨著互聯(lián)網(wǎng)對政治活動影響力的日益增強(qiáng),傳統(tǒng)的參與行為逐步為鼠標(biāo)點(diǎn)擊行為所替代,支持、反對的程度被認(rèn)為可由點(diǎn)擊、閱讀與轉(zhuǎn)發(fā)數(shù)來衡量[18]。由此,這些電子蹤跡數(shù)據(jù)日漸成為重要的政治資產(chǎn),這就無法避免出于政治目的的數(shù)據(jù)操縱。《衛(wèi)報(bào)》曾曝光美國軍方授權(quán)一家公司開發(fā)一款能讓其悄無聲息地操控社交媒體的軟件,該款軟件可讓一名軍方人員操控10個(gè)偽裝成各國人士的社交媒體賬號[19]。韓國國家情報(bào)院也承認(rèn)曾組建“網(wǎng)絡(luò)水軍”,幫助樸槿惠贏得選舉。這些在專業(yè)機(jī)構(gòu)的精心策劃下生成的社交媒體電子蹤跡,顯然不會是“自然發(fā)生性”數(shù)據(jù)。

        除了政治價(jià)值之外,有些社交媒體上生成的電子蹤跡還具有商業(yè)價(jià)值,企業(yè)也可能雇傭“商業(yè)水軍”來達(dá)到營銷目的。已有學(xué)者指出,大數(shù)據(jù)將政府與企業(yè)決策過程中的公眾角色不斷弱化,取而代之的則是數(shù)據(jù)化的“幻影公眾”[20]。因此,社交媒體數(shù)據(jù)中既有真實(shí)、自然的行為蹤跡,也暗藏著權(quán)力斗爭、商業(yè)利益等方面的較量。其他種類的電子蹤跡數(shù)據(jù)也大多存在類似問題,如網(wǎng)約車平臺一度宣稱可以提供真實(shí)可靠的城市出行數(shù)據(jù),但很快就出現(xiàn)了大量為騙取平臺補(bǔ)貼的刷單現(xiàn)象。

        6 結(jié)語

        電子蹤跡數(shù)據(jù)的質(zhì)量取決于網(wǎng)絡(luò)信息空間是否真實(shí)準(zhǔn)確地反映了現(xiàn)實(shí)社會空間的狀況。與現(xiàn)實(shí)世界對應(yīng),互聯(lián)網(wǎng)被稱為“虛擬世界”。有觀點(diǎn)認(rèn)為,“虛擬世界”既獨(dú)立于現(xiàn)實(shí)世界,又與現(xiàn)實(shí)世界有聯(lián)系,其實(shí)這還沒有闡明其本質(zhì)。網(wǎng)絡(luò)空間是沒有實(shí)物的信息空間,它一方面記錄了現(xiàn)實(shí)社會空間的某些(而不是全部)狀態(tài),另一方面作為一種新型經(jīng)濟(jì)模式和新型社會文化生活的平臺,它也是現(xiàn)實(shí)社會空間的組成部分。前者可以稱為記錄空間,后者則是新型的行動空間。例如,個(gè)人行為的時(shí)空軌跡被物聯(lián)網(wǎng)設(shè)備記錄,屬于現(xiàn)實(shí)社會空間的狀態(tài)被記錄于網(wǎng)絡(luò)信息空間;而個(gè)人在社交媒體上與他人討論問題,則是利用新的平臺交流信息、知識、思想和情感,本質(zhì)上仍然屬于一種現(xiàn)實(shí)社會活動。

        作為現(xiàn)實(shí)社會空間的組成部分,網(wǎng)絡(luò)信息空間具有工具性特征,亦即它可以被用作達(dá)到某種現(xiàn)實(shí)目的的工具。三大網(wǎng)絡(luò)的日益普及,以及人們對網(wǎng)絡(luò)數(shù)據(jù)價(jià)值的日益重視,使利用數(shù)據(jù)來達(dá)到政治、經(jīng)濟(jì)、社會、心理等方面的目的成為可能。因此,“虛擬世界”的工具性特征越來越強(qiáng),越來越多地與現(xiàn)實(shí)世界的利益產(chǎn)生關(guān)聯(lián)。

        在社會科學(xué)研究所采用的眾多電子蹤跡數(shù)據(jù)中,有些原始數(shù)據(jù)質(zhì)量很高,如物聯(lián)網(wǎng)中用攝像頭采集的道路交通流量數(shù)據(jù);有些數(shù)據(jù)則充滿虛假錯誤信息,尤其是互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)中通過人機(jī)互動產(chǎn)生的數(shù)據(jù)。因此,社會科學(xué)研究者在使用這些數(shù)據(jù)時(shí),一定要對數(shù)據(jù)生成、采集、存儲、分析、挖掘的方式與過程有全面的了解,并在此基礎(chǔ)上準(zhǔn)確辨識各種數(shù)據(jù)的本質(zhì)與特征;了解復(fù)雜的計(jì)算機(jī)算法,審慎考量數(shù)據(jù)處理的精度。只有這樣,才能在研究過程中避開陷阱,更好地把新數(shù)據(jù)、大數(shù)據(jù)的價(jià)值發(fā)揮出來[21]。從某種意義上說,對數(shù)據(jù)質(zhì)量的把控將決定計(jì)算社會科學(xué)的未來。

        猜你喜歡
        蹤跡社會科學(xué)百度
        母獅子的蹤跡
        《云南社會科學(xué)》征稿征訂啟事
        《河北農(nóng)業(yè)大學(xué)(社會科學(xué)版)》2021年喜報(bào)
        為什么獨(dú)角仙總是愛打架
        森林里的“彩色蹤跡”
        Robust adaptive UKF based on SVR for inertial based integrated navigation
        百度年度熱搜榜
        青年與社會(2018年2期)2018-01-25 15:37:06
        老廣州:“水城”的蹤跡及風(fēng)情
        中國三峽(2017年2期)2017-06-09 08:15:25
        數(shù)學(xué)在社會科學(xué)中的應(yīng)用
        百度遭投行下調(diào)評級
        人人妻人人澡人人爽超污| 日本一区二区三区啪啪| 巨爆乳中文字幕爆乳区| 久久久精品电影| 亚洲国产日韩综一区二区在性色 | 国产一区二区三区护士| 亚洲一区二区在线观看网址| 伊人情人色综合网站| 伊人久久精品无码二区麻豆| 亚洲成人色区| 久久国产亚洲AV无码麻豆| 性感人妻一区二区三区| 琪琪av一区二区三区| 青青草成人在线播放视频| 国产精品会所一区二区三区| 三年片免费观看大全有| 中国农村熟妇性视频| 久久国产精品二国产精品| 国产精品久久久久尤物| 日本午夜理伦三级好看| av影片手机在线观看免费网址| 森中文字幕一区二区三区免费| 日韩经典午夜福利发布| 乱色熟女综合一区二区三区| 麻豆国产巨作AV剧情老师| 在线免费观看国产视频不卡| 在线观看视频国产一区二区三区 | 一区二区三区中文字幕有码| 一级老熟女免费黄色片| 精品久久久久久无码中文野结衣| 日产学生妹在线观看| 天堂8中文在线最新版在线| 国产在线一区二区三区av| 亚洲av粉色一区二区三区| 国产午夜精品综合久久久| 亚洲国产精品高清一区| 专干老熟女视频在线观看| 国产乱人伦av在线a| 国产精品午夜波多野结衣性色| 国产香蕉尹人在线视频你懂的| 狼狼色丁香久久女婷婷综合|