亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時(shí)代下中國社會(huì)調(diào)查的科學(xué)新觀

        2016-04-10 08:51:19顧佳峰
        大數(shù)據(jù) 2016年2期
        關(guān)鍵詞:入戶精準(zhǔn)樣本

        顧佳峰

        北京大學(xué)中國社會(huì)科學(xué)調(diào)查中心,北京 100871

        大數(shù)據(jù)時(shí)代下中國社會(huì)調(diào)查的科學(xué)新觀

        顧佳峰

        北京大學(xué)中國社會(huì)科學(xué)調(diào)查中心,北京 100871

        大數(shù)據(jù)已經(jīng)成為這個(gè)時(shí)代的顯著特征,大數(shù)據(jù)的發(fā)展為入戶調(diào)查數(shù)據(jù)帶來了極大的沖擊和挑戰(zhàn)。在這種情況下,社會(huì)調(diào)查需要有新的基于中國古老智慧的管理理論,并且把大數(shù)據(jù)和云計(jì)算等都納入社會(huì)調(diào)查系統(tǒng),使其成為社會(huì)調(diào)查運(yùn)作系統(tǒng)的有機(jī)構(gòu)成部分。利用大數(shù)據(jù)分析技術(shù),對(duì)社會(huì)調(diào)查過程中的行為數(shù)據(jù)進(jìn)行分析和利用,可以大大提高社會(huì)調(diào)查的精準(zhǔn)度,有效實(shí)施社會(huì)關(guān)系的精準(zhǔn)管理。最后,對(duì)于大數(shù)據(jù)和調(diào)查數(shù)據(jù)的未來發(fā)展提出了幾點(diǎn)看法。

        大數(shù)據(jù);社會(huì)調(diào)查;大智慧;行為數(shù)據(jù)

        1 大數(shù)據(jù)時(shí)代的基本特點(diǎn)

        1.1 大數(shù)據(jù)的基本特點(diǎn)

        大數(shù)據(jù)和傳統(tǒng)意義上的數(shù)據(jù)有何區(qū)別?這是所有關(guān)心大數(shù)據(jù)的人必須回答的問題。關(guān)于大數(shù)據(jù)的定義,有兩種說法:其一,大數(shù)據(jù)就是數(shù)據(jù);其二,大數(shù)據(jù)不是一般的數(shù)據(jù)。這種界定,有點(diǎn)辯證哲學(xué)的味道。事實(shí)上,上述說法都對(duì),但不解決問題。大數(shù)據(jù)具有典型的特征,可以體現(xiàn)在“4V”之上。大數(shù)據(jù)具有體量上的特征,就是數(shù)據(jù)量大(volume),大到連“海量”、“巨量”都無法來形容。大數(shù)據(jù)一般都不是靜止不動(dòng)的,而是時(shí)時(shí)刻刻都在變化的,而且變化速度很快(velocity)。比如互聯(lián)網(wǎng)上的數(shù)據(jù)以及人體生物信息,時(shí)時(shí)刻刻、分分秒秒都在變化,這么高速變化的數(shù)據(jù)要求新的分析方法。大數(shù)據(jù)的變化性更大(variety),要在動(dòng)態(tài)變化的情境下捕捉到大數(shù)據(jù)背后的規(guī)律,傳統(tǒng)的數(shù)據(jù)分析方法就會(huì)顯得力不從心了。大數(shù)據(jù)中的內(nèi)容是與真實(shí)世界中的發(fā)生息息相關(guān)的(veracity),因此,對(duì)于大數(shù)據(jù)的分析,本質(zhì)上就是要透過數(shù)據(jù)迷霧,看到現(xiàn)實(shí)世界的客觀發(fā)展規(guī)律和本質(zhì)。唯有如此,大數(shù)據(jù)分析才有意義。

        1.2 大數(shù)據(jù)時(shí)代的挑戰(zhàn)

        大數(shù)據(jù)的興起,對(duì)傳統(tǒng)意義上的“小數(shù)據(jù)”形成了很大的沖擊。過去,社會(huì)問題的診斷和公共決策大多依賴于通過調(diào)查收集上來的數(shù)據(jù)和信息。由于受到調(diào)查樣本量的限制,這類調(diào)查數(shù)據(jù)的量是有限的。大數(shù)據(jù)興起后,這類調(diào)查數(shù)據(jù)首當(dāng)其沖,受到了很大的沖擊。2015年秋季,Meyer B D等人在《經(jīng)濟(jì)展望雜志》上發(fā)表了一篇《危機(jī)中的入戶調(diào)查》,引起了社會(huì)調(diào)查界的高度關(guān)注[1]。在這篇論文中,提出了一個(gè)很重要的觀點(diǎn),就是通過入戶調(diào)查來收集數(shù)據(jù)的方式已經(jīng)遭遇到了前所未有的挑戰(zhàn),入戶調(diào)查的無響應(yīng)率(nonresponse rate)甚至高達(dá)30%~40%。在這種情況下,入戶調(diào)查的成本會(huì)顯著上升,使得入戶調(diào)查越來越成為一種不經(jīng)濟(jì)的數(shù)據(jù)收集方法。于是,調(diào)查機(jī)構(gòu)紛紛通過創(chuàng)新和轉(zhuǎn)型來獲得在大數(shù)據(jù)時(shí)代下的生存權(quán)。在這種趨勢(shì)下,調(diào)查數(shù)據(jù)和大數(shù)據(jù)相結(jié)合的混合數(shù)據(jù)收集模式應(yīng)運(yùn)而生,成為了一股新的力量。

        2 大數(shù)據(jù)時(shí)代的社會(huì)變革與研究

        2.1 社會(huì)變遷的數(shù)據(jù)測(cè)量

        大數(shù)據(jù)時(shí)代的到來,從深層次影響著社會(huì)的發(fā)展與轉(zhuǎn)型。中國人越來越離不開智能手機(jī)、互聯(lián)網(wǎng)等,幾乎生活的每個(gè)環(huán)節(jié)都與大數(shù)據(jù)或“小數(shù)據(jù)”有關(guān)聯(lián)。這種社會(huì)變革和轉(zhuǎn)型,對(duì)社會(huì)科學(xué)的研究提出了更高的要求,也提供了絕好的研究機(jī)會(huì)。美國科學(xué)院院士、普林斯頓大學(xué)著名的社會(huì)學(xué)國際權(quán)威謝宇教授,曾為筆者的專著《調(diào)查機(jī)構(gòu)管理:理論與實(shí)踐》一書作序,他寫道:中國正在經(jīng)歷一場(chǎng)急劇、大規(guī)模且不可逆轉(zhuǎn)的社會(huì)變革,這場(chǎng)變革給社會(huì)科學(xué)研究提供了前所未有的良好機(jī)遇[2]。北京大學(xué)召集了包括社會(huì)學(xué)、人口學(xué)、經(jīng)濟(jì)學(xué)、公共衛(wèi)生學(xué)等近20個(gè)社會(huì)學(xué)科的海內(nèi)外專家,在2006年成立了北京大學(xué)中國社會(huì)科學(xué)調(diào)查中心(Institute of Social Science Survey,ISSS),通過實(shí)施全國性的中國家庭追蹤調(diào)查(China family panel studies,CFPS),系統(tǒng)性地收集旨在刻畫中國社會(huì)變遷的微觀數(shù)據(jù),為政府決策和社會(huì)科學(xué)研究提供重要的數(shù)據(jù)支撐[3]。這個(gè)中心剛成立時(shí),只有兩位創(chuàng)始者,而筆者很榮幸就是其中之一,參與了這個(gè)中心籌建、發(fā)展、壯大的全過程,也見證了中國第一個(gè)家庭入戶跟蹤調(diào)查項(xiàng)目的醞釀、設(shè)計(jì)、測(cè)試、實(shí)施和發(fā)展壯大的過程。目前,該數(shù)據(jù)已全部免費(fèi)向社會(huì)開放,數(shù)據(jù)使用者通過ISSS官方網(wǎng)站(www.isss.edu.cn)注冊(cè)后,就可以申請(qǐng)獲得數(shù)據(jù)。調(diào)查中心還通過微信公眾號(hào)(中國民生觀察)及時(shí)發(fā)布數(shù)據(jù)信息。

        2.2 測(cè)不準(zhǔn)定律與社會(huì)調(diào)查研究

        物理學(xué)上有一個(gè)測(cè)不準(zhǔn)定律,不管用人或再怎么精良的儀器測(cè)東西,一定會(huì)有誤差。在CFPS設(shè)計(jì)過程中,在控制測(cè)量誤差上下足了功夫。調(diào)查設(shè)計(jì)、抽樣、問卷設(shè)計(jì)、執(zhí)行、質(zhì)量監(jiān)控、數(shù)據(jù)清理等所有環(huán)節(jié),都盡可能減少誤差,提高調(diào)查數(shù)據(jù)的精準(zhǔn)度。在社會(huì)調(diào)查理論上,西方有所謂的調(diào)查總誤差(total survey error)理論。這個(gè)理論在傳統(tǒng)的非大數(shù)據(jù)時(shí)代中比較適用。但是,當(dāng)中國同時(shí)經(jīng)歷大數(shù)據(jù)的洗禮和劇烈的社會(huì)變革與轉(zhuǎn)型時(shí),繼續(xù)沿用西方的調(diào)查總誤差理論,通過社會(huì)調(diào)查去測(cè)量社會(huì)變遷就會(huì)出現(xiàn)較大的誤差。因?yàn)榇髷?shù)據(jù)時(shí)代的到來,令社會(huì)信息和社會(huì)數(shù)據(jù)傳播方式發(fā)生了重大改變。大數(shù)據(jù)時(shí)代的社會(huì)測(cè)量,需要有對(duì)應(yīng)的調(diào)查方法。

        大數(shù)據(jù)有時(shí)候會(huì)被誤解,認(rèn)為只要數(shù)據(jù)的量大,就稱之為大數(shù)據(jù)。其實(shí)不然。大數(shù)據(jù)的“大”,主要指的是數(shù)據(jù)所包含的信息意義重大。所以,有些數(shù)據(jù)量并不大的“小數(shù)據(jù)”,其實(shí)也是名副其實(shí)的大數(shù)據(jù)。中國古時(shí)候有個(gè)成語——“微言大義”,說的就是這個(gè)意思。數(shù)據(jù)量很小,但是內(nèi)涵和意義卻非常豐富。這類數(shù)據(jù),也是大數(shù)據(jù)。所以,中西方對(duì)于大數(shù)據(jù)的理解,其實(shí)是有細(xì)微差別的。西方的大數(shù)據(jù),主要從量上來講,因?yàn)閿?shù)據(jù)存儲(chǔ)技術(shù)的不斷升級(jí)換代,使得存儲(chǔ)和分析海量數(shù)據(jù)成為可能。中國的大數(shù)據(jù),更多地強(qiáng)調(diào)數(shù)據(jù)所蘊(yùn)含的信息?!俄n非子?說林上》云:“圣人見微以知萌,見端以知末,故見象箸而怖,知天下不足也。”這說明,即便是“小數(shù)據(jù)”,智者也能見微知著,看到微小的苗頭,知道其中的規(guī)律,預(yù)測(cè)出可能會(huì)發(fā)生的顯著變化。

        其實(shí),今日的大數(shù)據(jù)思想,早在《易經(jīng)》中就有體現(xiàn):“仰觀天文,俯察地理,近取諸身,遠(yuǎn)取諸物,乃作八卦”意思是說,由天文、地理和人文大數(shù)據(jù)信息匯集在一起,才形成了八卦。所以,對(duì)于這類包羅萬象的大數(shù)據(jù)的分析和挖掘,要上觀天文,俯觀地理,中看人文,這就是古代的大數(shù)據(jù)挖掘技術(shù)。在《黃帝內(nèi)經(jīng)》中,已經(jīng)提出“大數(shù)”的概念。當(dāng)然,中國古代樸素的“大數(shù)”與現(xiàn)代的“大數(shù)據(jù)”在技術(shù)和分析方法上是不同的。但是,在基本思想上是相通的,都是試圖通過對(duì)現(xiàn)象和數(shù)據(jù)的分析來把握事物發(fā)展的客觀規(guī)律。在這種大數(shù)據(jù)思想的指導(dǎo)下,筆者根據(jù)社會(huì)調(diào)查的實(shí)踐,提出了全面調(diào)查管理(total survey management,TSM)理論,以期通過社會(huì)調(diào)查的有效管理,盡可能減少社會(huì)調(diào)查的測(cè)量誤差,提高社會(huì)監(jiān)測(cè)的精準(zhǔn)度。這個(gè)社會(huì)調(diào)查理論把整個(gè)社會(huì)測(cè)量實(shí)踐分成陰、陽兩個(gè)層面,如圖11所示。陽的層面是調(diào)查管理的5種核心主題:使命愿景、公共關(guān)系、督導(dǎo)關(guān)系、訪員關(guān)系和訪問關(guān)系。陰的層面是調(diào)查管理的5種核心力量:戰(zhàn)略力、組織力、凝聚力、執(zhí)行力和控制力。調(diào)查機(jī)構(gòu)通過對(duì)陰陽消息的平衡把握,實(shí)施社會(huì)調(diào)查和社會(huì)監(jiān)測(cè)項(xiàng)目與活動(dòng),確保實(shí)現(xiàn)測(cè)量誤差最小化。

        圖1 全面調(diào)查管理的基本結(jié)構(gòu)[2]

        3 大數(shù)據(jù)技術(shù)在社會(huì)調(diào)查中的應(yīng)用

        3.1 行為大數(shù)據(jù)及其應(yīng)用

        根據(jù)TSM理論,任何數(shù)據(jù)都包含陰陽消息。因此,在社會(huì)調(diào)查的設(shè)計(jì)和執(zhí)行過程中,要同時(shí)對(duì)兩方面的數(shù)據(jù)進(jìn)行管理。社會(huì)調(diào)查的問卷數(shù)據(jù)是陽層面上的數(shù)據(jù),也是社會(huì)調(diào)查所需要收集的目標(biāo)數(shù)據(jù)。但是,要降低這些數(shù)據(jù)收集的誤差,就需要同時(shí)收集另一部分?jǐn)?shù)據(jù),就是行為數(shù)據(jù)(paradata)。調(diào)查過程中的行為數(shù)據(jù)一般都是隱秘不公開的,僅僅作為內(nèi)部管理和質(zhì)量監(jiān)控之用,所以可以歸于陰層面上的數(shù)據(jù)[4]。在CFPS項(xiàng)目的執(zhí)行過程中,采用的是計(jì)算機(jī)輔助面訪(computer assisted personal interviewing,CAPI)系統(tǒng)。當(dāng)訪員入戶打開調(diào)查專用的筆記本電腦進(jìn)行調(diào)查時(shí),收集行為數(shù)據(jù)的軟件就開始啟動(dòng)。訪員在用筆記本進(jìn)行調(diào)查的每個(gè)動(dòng)作數(shù)據(jù),都被同步紀(jì)錄了下來。圖22為調(diào)查數(shù)據(jù)和行為數(shù)據(jù)的同步收集系統(tǒng)。

        圖2 調(diào)查數(shù)據(jù)和行為數(shù)據(jù)的同步收集系統(tǒng)

        根據(jù)圖22的架構(gòu),整個(gè)社會(huì)調(diào)查的數(shù)據(jù)流都是整合在一起的,在信息系統(tǒng)中進(jìn)行及時(shí)傳輸和共享。調(diào)查數(shù)據(jù)和行為數(shù)據(jù)經(jīng)過傳輸后,進(jìn)入不同的數(shù)據(jù)庫進(jìn)行存儲(chǔ),并用于不同的用途。調(diào)查數(shù)據(jù)收集上來后,就是層層數(shù)據(jù)質(zhì)量的查核。行為數(shù)據(jù)收集上來后,主要用于訪問管理。社會(huì)調(diào)查過程的行為數(shù)據(jù),包括了方方面面的信息,比如訪員的地理位置信息以及移動(dòng)的空間路線、訪員敲擊筆記本電腦鍵盤的信息、每道題所問的時(shí)間長短信息、中間停頓時(shí)間信息等[5]。所有這些行為數(shù)據(jù)都客觀如實(shí)地記錄了身處在調(diào)查現(xiàn)場(chǎng)的訪員的一舉一動(dòng),讓訪員的行為可控,進(jìn)而確保把訪問誤差控制到最低程度。

        3.2 云計(jì)算與訪員行為管理

        一旦行為數(shù)據(jù)采集進(jìn)來,基于云計(jì)算的大數(shù)據(jù)分析就自動(dòng)啟動(dòng)和運(yùn)轉(zhuǎn)。例如,當(dāng)每個(gè)訪員的鍵盤行為數(shù)據(jù)采集起來后,系統(tǒng)的云計(jì)算就可以通過分析每個(gè)訪員的敲擊鍵盤的特征,識(shí)別出每個(gè)訪員的用指習(xí)慣,從而自動(dòng)識(shí)別出是否為指定訪員在通過筆記本進(jìn)行入戶調(diào)查。因?yàn)槊總€(gè)人用手指敲打鍵盤的方式是不同的,體現(xiàn)在鍵盤上,就可以清晰發(fā)現(xiàn)在鍵盤敲打的力度、持續(xù)的時(shí)間等方面,每個(gè)人都會(huì)有一種獨(dú)特的模式?;谠朴?jì)算的大數(shù)據(jù)分析,能夠通過鍵盤敲打的行為數(shù)據(jù),從中找出個(gè)性化的用指模式,進(jìn)而可以精準(zhǔn)識(shí)別出是給定的訪員在用筆記本做調(diào)查,還是冒充訪員的人在用筆記本做調(diào)查。由于這些行為信息的采集是在訪員并不覺察的情況下進(jìn)行的,因此,這些行為數(shù)據(jù)的可靠性極強(qiáng)。即便訪員意識(shí)到有鍵盤使用行為采集系統(tǒng)在收集信息,想要刻意去制造噪音,以混淆鍵盤使用信息,但是實(shí)際上這很難做到。因?yàn)槊總€(gè)人的用指習(xí)慣是很難改變的。

        圖33顯示的是基于云計(jì)算的數(shù)據(jù)鏈管理系統(tǒng)。這是一套實(shí)時(shí)聯(lián)動(dòng)的無縫大數(shù)據(jù)系統(tǒng)。比如,當(dāng)在調(diào)查現(xiàn)場(chǎng)的訪員使用鍵盤時(shí),基于云計(jì)算的數(shù)據(jù)分析系統(tǒng)發(fā)現(xiàn)該訪員的鍵盤使用與過去一貫的模式不同,大數(shù)據(jù)分析系統(tǒng)就會(huì)給出警示,建議督導(dǎo)及時(shí)查核這名訪員,確定使用該筆記本進(jìn)行入戶調(diào)查的人的真實(shí)身份,避免他人冒充訪員進(jìn)行調(diào)查的情形出現(xiàn)。這套大數(shù)據(jù)系統(tǒng)不僅能夠識(shí)別筆記本電腦的訪員身份,而且還能精準(zhǔn)測(cè)量訪員的調(diào)查訪問狀態(tài)。訪員的個(gè)人情緒,往往會(huì)影響調(diào)查訪問的數(shù)據(jù)質(zhì)量。為了提高調(diào)查數(shù)據(jù)的精確度,減少訪問過程中的人為誤差,都需要訪員按照規(guī)定的調(diào)查行為標(biāo)準(zhǔn)開展入戶調(diào)查,盡可能減少訪員的個(gè)人因素的干預(yù)和影響。例如,在訪問過程中,訪員的情緒大幅度波動(dòng),往往會(huì)影響調(diào)查數(shù)據(jù)的質(zhì)量。因此,一般都要求訪員在訪問過程中保持情緒平穩(wěn),心平氣和地完成調(diào)查?;谠朴?jì)算的鍵盤使用模式分析系統(tǒng)能夠?qū)λ性L員的鍵盤使用大數(shù)據(jù)進(jìn)行分析,提煉出若干典型的情緒模式,比如激動(dòng)、憤怒、壓力、害怕等[6]。一旦某個(gè)訪員在鍵盤使用上出現(xiàn)這些負(fù)面情緒特征,相關(guān)的督導(dǎo)就需要予以注意,及時(shí)和該訪員進(jìn)行電話溝通,第一時(shí)間安撫訪員的情緒,并鼓勵(lì)其繼續(xù)按照預(yù)定計(jì)劃完成調(diào)查目標(biāo)[7]。

        圖3 基于云計(jì)算的數(shù)據(jù)鏈系統(tǒng)

        3.3 大數(shù)據(jù)與社會(huì)跟蹤調(diào)查

        社會(huì)調(diào)查分成兩種類型:截面調(diào)查和跟蹤調(diào)查。前者就是在特定時(shí)間和地點(diǎn)進(jìn)行抽樣調(diào)查,每次重復(fù)調(diào)查時(shí),都需要進(jìn)行再次抽樣。后者是在調(diào)查之前確定樣本后,就跟蹤這些樣本進(jìn)行反復(fù)調(diào)查,因此,基礎(chǔ)樣本基本上是不變的。跟蹤調(diào)查的優(yōu)點(diǎn)是能積累信息豐富的面板數(shù)據(jù)(panel data),具有歷時(shí)效應(yīng),能夠觀察特定樣本隨著時(shí)間的發(fā)展演變趨勢(shì),便于更好地預(yù)測(cè)未來[8]。CFPS就是典型的跟蹤調(diào)查,基礎(chǔ)樣本是16 000戶,每兩年做一次跟蹤調(diào)查。但是,跟蹤調(diào)查有個(gè)劣勢(shì),就是樣本跟蹤難度大、成本高。尤其在中國,當(dāng)前正值城市化不斷深入、社會(huì)急劇轉(zhuǎn)型的階段,人口遷徙范圍廣、變動(dòng)大。在這種環(huán)境下,CFPS樣本中不少家庭在第二次進(jìn)行入戶跟蹤調(diào)查時(shí),就已經(jīng)遷移到別的地方,有的已經(jīng)找不到聯(lián)系方式。若無法找到這些遷徙樣本,那么CFPS樣本就會(huì)出現(xiàn)嚴(yán)重流失。樣本一旦出現(xiàn)誤差,缺乏代表性,通過入戶所收集上來的數(shù)據(jù)質(zhì)量就會(huì)出現(xiàn)嚴(yán)重問題。所以,所有遷徙的樣本都必須確認(rèn)其新地址,并且獲得其聯(lián)系方式,繼續(xù)進(jìn)行跟蹤調(diào)查。

        為了做到更精準(zhǔn)地識(shí)別和確定遷徙樣本的新地址,大數(shù)據(jù)挖掘技術(shù)發(fā)揮了強(qiáng)大的威力。2010年,CFPS做完基線調(diào)查之后,2012年開始做跟蹤調(diào)查。在這輪跟蹤調(diào)查做好后,遷徙樣本家庭就出現(xiàn)了。通過互聯(lián)網(wǎng)大數(shù)據(jù)挖掘技術(shù),結(jié)合線下的人員打探,基本上能夠再次聯(lián)系上這些遷徙樣本[9]。在這個(gè)過程中,采用大數(shù)據(jù)和大地圖相結(jié)合的分析方法,在地圖上精準(zhǔn)畫出每個(gè)遷徙樣本的遷徙空間路線。根據(jù)這些遷徙空間制圖的數(shù)據(jù),再加上大數(shù)據(jù)建模和挖掘技術(shù),就能模擬出樣本家庭空間遷徙的情況,預(yù)測(cè)出2014年樣本家庭遷徙的路線和區(qū)域,提前予以核實(shí)信息和聯(lián)絡(luò),確保遷徙家庭主動(dòng)提供遷徙后的新聯(lián)系方式。同樣的道理,在2012年和2014年數(shù)據(jù)的基礎(chǔ)上,可以刻意預(yù)測(cè)2016年的遷徙情況。如此循環(huán),大數(shù)據(jù)加上地圖的分析,讓很困難的樣本追蹤成為了相對(duì)比較容易的事情。

        4 大數(shù)據(jù)與精準(zhǔn)關(guān)系管理

        4.1 大數(shù)據(jù)需要大智慧

        從哲學(xué)上講,數(shù)據(jù)無論多大,都是客體,是被認(rèn)知的對(duì)象。要從數(shù)據(jù)中找出對(duì)于指導(dǎo)人們行為有用的信息,就需要發(fā)揮主體的主觀能動(dòng)性。如此,大數(shù)據(jù)才能轉(zhuǎn)化為大智慧。但是,人類社會(huì)世事無常,一切都在變化著。如何用大數(shù)據(jù)來刻畫轉(zhuǎn)瞬即逝的社會(huì)關(guān)系,就成為大數(shù)據(jù)時(shí)代普遍的挑戰(zhàn)。谷歌公司的流感預(yù)測(cè)這兩年失靈,對(duì)于原因的剖析,可謂是仁者見仁、智者見智。哈佛大學(xué)政治學(xué)金加里(Gary King)教授等人認(rèn)為,造成谷歌流感趨勢(shì)預(yù)測(cè)結(jié)果偏差的重要原因是大數(shù)據(jù)傲慢(big data hubris)和算法變化(algorithm dynamics)[10]。2015年5月份,筆者專門到金加里教授的辦公室和他討論這個(gè)問題。筆者的觀點(diǎn)是由于大數(shù)據(jù)模型無法捕捉住瞬息變化著的社會(huì)關(guān)系,導(dǎo)致預(yù)測(cè)失效的后果,其失效的原理如同中國古代成語“刻舟求劍”所揭示的那樣,當(dāng)環(huán)境發(fā)生變化了,依然沿用過去的模型去挖掘規(guī)律,往往是失效的。中國古代智慧強(qiáng)調(diào)的是“陰陽消息,五行轉(zhuǎn)移”,強(qiáng)調(diào)的是用動(dòng)態(tài)大數(shù)據(jù)去分析動(dòng)態(tài)的社會(huì)變遷,方能在變化無常的社會(huì)關(guān)系中把握住發(fā)展的規(guī)律。調(diào)查機(jī)構(gòu)在進(jìn)行數(shù)據(jù)收集的過程中,會(huì)遇到方方面面的關(guān)系,需要協(xié)調(diào)和處理這些時(shí)刻都在變化著的關(guān)系。于是,在長期的調(diào)查實(shí)踐摸索與總結(jié)的基礎(chǔ)上,基于大數(shù)據(jù)的精準(zhǔn)關(guān)系管理就產(chǎn)生了。

        通過大數(shù)據(jù)來把握復(fù)雜多變的社會(huì)關(guān)系,從而能夠精準(zhǔn)地協(xié)調(diào)和處理好方方面面的關(guān)系,需要從內(nèi)部和外部兩個(gè)方面同時(shí)進(jìn)行大數(shù)據(jù)收集和分析,就是內(nèi)部修煉和外部整合。筆者與管理大師、《第五項(xiàng)修煉》的作者彼得?圣吉曾經(jīng)專門討論過大數(shù)據(jù)和組織修煉之間的關(guān)系,認(rèn)為在大數(shù)據(jù)時(shí)代,組織修煉能力包括了大數(shù)據(jù)收集、分享、提煉等能力。除了內(nèi)部修煉之外,大數(shù)據(jù)驅(qū)動(dòng)的組織還需要能夠整合外部數(shù)據(jù)和信息,具有強(qiáng)有力的外部大數(shù)據(jù)吸附、消化能力。在大數(shù)據(jù)時(shí)代,有了這兩項(xiàng)基本能力,調(diào)查機(jī)構(gòu)就可以對(duì)變化多端的社會(huì)關(guān)系進(jìn)行精準(zhǔn)分析和把握,使得大數(shù)據(jù)上升為大智慧,通過實(shí)施精準(zhǔn)公關(guān)來協(xié)調(diào)好內(nèi)外部關(guān)系,進(jìn)而成功實(shí)施社會(huì)調(diào)查項(xiàng)目?;诖髷?shù)據(jù)的精準(zhǔn)公關(guān)管理如圖44所示。

        4.2 文本數(shù)據(jù)挖掘與精準(zhǔn)關(guān)系管理

        當(dāng)訪員入戶開展調(diào)查活動(dòng)時(shí),調(diào)查現(xiàn)場(chǎng)各種情況都可能發(fā)生。訪員要成功實(shí)施入戶調(diào)查,就需要第一時(shí)間協(xié)調(diào)好相關(guān)的關(guān)系,獲得當(dāng)?shù)厣鐓^(qū)和受訪戶的支持。在CFPS開始以來,通過OA系統(tǒng)收集所有訪員在現(xiàn)場(chǎng)遭遇情況的文本信息。任何一個(gè)訪員在現(xiàn)場(chǎng)遇到任何情況,都鼓勵(lì)其通過OA系統(tǒng)記錄下來。如此,隨著CFPS實(shí)施的推進(jìn),逐漸積累起越來越多的關(guān)于現(xiàn)場(chǎng)突發(fā)情況和遭遇問題的文本信息。通過文本數(shù)據(jù)挖掘技術(shù),根據(jù)廣大訪員的經(jīng)驗(yàn),對(duì)現(xiàn)場(chǎng)的情況加入分門別類的問題識(shí)別,并予以最優(yōu)化應(yīng)對(duì)[12]。在具體技術(shù)上,采用了文本特征提取技術(shù)[13]、文本檢索技術(shù)、文本自動(dòng)分類技術(shù)、文本自動(dòng)聚類技術(shù)、話題檢測(cè)跟蹤技術(shù)、文本過濾技術(shù)、關(guān)聯(lián)分析技術(shù)以及智能問答技術(shù)等。有了這套系統(tǒng),訪員到調(diào)查現(xiàn)場(chǎng)遇到任何問題,可以通過文本輸入的方式描述問題的情況,可以第一時(shí)間獲得解決問題的對(duì)策和協(xié)助,幫助訪員協(xié)調(diào)好現(xiàn)場(chǎng)關(guān)系,順利完成每一個(gè)入戶調(diào)查。這是文本大數(shù)據(jù)挖掘在精準(zhǔn)關(guān)系管理上的應(yīng)用之一,效果顯著。

        5 未來發(fā)展的若干思考

        5.1 生物社會(huì)調(diào)查(biosocial survey)的深化

        人的行為不僅僅受到社會(huì)的影響,還與其生理、心理等因素有關(guān)。筆者曾經(jīng)與美國科學(xué)院院士、美國人文與科學(xué)院院士、麻省理工學(xué)院資深教授哈維?羅德士(Harvey Lodish)深入探討過這個(gè)問題,認(rèn)為非常有必要同時(shí)調(diào)查人的生理指標(biāo)[14]。隨著可穿戴技術(shù)的迅速發(fā)展,已經(jīng)可以突破社會(huì)調(diào)查在時(shí)間和空間上的限制,實(shí)現(xiàn)時(shí)時(shí)刻刻的數(shù)據(jù)收集工作。所以,未來的社會(huì)調(diào)查,問卷調(diào)查技術(shù)勢(shì)必會(huì)結(jié)合可穿戴技術(shù),整合共同收集樣本的社會(huì)特征和生理指標(biāo)數(shù)據(jù),實(shí)現(xiàn)對(duì)樣本的立體調(diào)查和監(jiān)測(cè),找出個(gè)體社會(huì)行為與其生理特征之間的關(guān)聯(lián)關(guān)系。目前,已經(jīng)有一些社會(huì)調(diào)查項(xiàng)目開始抽取血樣等,為下一步開展DNA等生化因素與社會(huì)行為關(guān)系研究提供基礎(chǔ)性數(shù)據(jù)。

        圖4 基于大數(shù)據(jù)的精準(zhǔn)公關(guān)管理[11]

        5.2 大數(shù)據(jù)的精準(zhǔn)化

        數(shù)據(jù)不是越大越好,而是能推斷出精準(zhǔn)的信息便于更好地解決問題才好。當(dāng)前的硬件存儲(chǔ)技術(shù)以及數(shù)據(jù)收集能力都大為提高,收集大量的數(shù)據(jù)根本不是問題。問題在于,收集到如此海量的數(shù)據(jù)之后,能獲得哪些有用的信息?這就要強(qiáng)調(diào)數(shù)據(jù)挖掘的精細(xì)化和精準(zhǔn)性。如同沙里淘金,不是沙子越多越好,而是最后能掏出多少金子才是關(guān)鍵的核心所在。無論是大數(shù)據(jù),還是“小數(shù)據(jù)”,數(shù)據(jù)本身都不是問題,而是數(shù)據(jù)能提供的信息是否能幫助人們解決其所面臨的問題,這才是關(guān)鍵。所以,問題的核心不在于量,而在于精[15]。

        5.3 數(shù)據(jù)挖掘思想的拓展

        在《莊子?秋水》中記錄過一個(gè)故事。莊子和惠子一道在濠水的橋上游玩,莊子說:“儵魚出游從容,是魚之樂也。”惠子曰:“子非魚,安知魚之樂?”再來看當(dāng)今的大數(shù)據(jù)專家,動(dòng)不動(dòng)就搬出大數(shù)據(jù)來說事,指點(diǎn)江山,預(yù)測(cè)未來?;葑邮降馁|(zhì)疑就出現(xiàn)了:你不是大數(shù)據(jù),怎么知道大數(shù)據(jù)的規(guī)律呢?這是一個(gè)普遍性的問題,就是主體如何去認(rèn)知客體[16]。當(dāng)人們從大數(shù)據(jù)中推演出所謂的趨勢(shì)、規(guī)律時(shí),一定要謹(jǐn)慎,因?yàn)檫@些規(guī)律很可能是表象。這就要求大數(shù)據(jù)專家在數(shù)據(jù)挖掘上,要反復(fù)推敲和檢驗(yàn),而且不能就數(shù)據(jù)論數(shù)據(jù),需要在分析方法上突破數(shù)據(jù)的限制和束縛,陰陽消息,五行轉(zhuǎn)移,從綜合和動(dòng)態(tài)的角度把握大數(shù)據(jù)背后的真正規(guī)律。

        6 結(jié)束語

        當(dāng)人們討論大數(shù)據(jù)時(shí),很容易把大數(shù)據(jù)與小數(shù)據(jù)對(duì)立起來。這種先入為主的判斷,不利于真正認(rèn)識(shí)大數(shù)據(jù)的本來面目。大數(shù)據(jù)興起之后,的確對(duì)包括社會(huì)調(diào)查數(shù)據(jù)在內(nèi)的所謂小數(shù)據(jù)產(chǎn)生了強(qiáng)大的沖擊。不少市場(chǎng)調(diào)查公司也紛紛調(diào)整經(jīng)營方向,從通過市場(chǎng)調(diào)查獲得數(shù)據(jù)轉(zhuǎn)向通過大數(shù)據(jù)技術(shù)來獲得數(shù)據(jù)。但是,大數(shù)據(jù)和小數(shù)據(jù)之間并非是天然對(duì)立的,而是對(duì)立統(tǒng)一的,是可以互為補(bǔ)充的。本文以北京大學(xué)中國社會(huì)科學(xué)調(diào)查中心的中國家庭追蹤調(diào)查為例,闡述了在大數(shù)據(jù)環(huán)境下的微觀入戶調(diào)查如何整合大數(shù)據(jù)技術(shù)而獲得發(fā)展,進(jìn)而收集到精準(zhǔn)的數(shù)據(jù)。大數(shù)據(jù)的興起引起了社會(huì)治理方式的變化。在這種背景下,中國家庭追蹤調(diào)查通過無縫整合大數(shù)據(jù)技術(shù)來精準(zhǔn)獲得關(guān)于中國社會(huì)變遷測(cè)量的微觀數(shù)據(jù),進(jìn)而為社會(huì)治理提供基礎(chǔ)性決策支持?jǐn)?shù)據(jù),提供社會(huì)決策和社會(huì)治理的能力與效率。事實(shí)上,中國家庭追蹤調(diào)查所獲得的數(shù)據(jù)已經(jīng)為政府的重大決策提供了關(guān)鍵性決策依據(jù),比如政府開放單獨(dú)二胎政策,就是以這套數(shù)據(jù)的模擬結(jié)果作為決策依據(jù)的。因此,在大數(shù)據(jù)盛行的今日,大數(shù)據(jù)與小數(shù)據(jù)互相融合與互相補(bǔ)充而形成的決策信息,將會(huì)是社會(huì)治理的重要決策依據(jù)。

        [1] MEYER B D, MOK C, SULLIVAN J X. Household surveys in crisis[J]. Journal of Economic Perspectives, 2015, 29(4): 199-226.

        [2] 顧佳峰. 調(diào)查機(jī)構(gòu)管理: 理論與實(shí)踐[M]. 北京: 人民出版社, 2013. GU J F. Survey Organization Management: Theory and Practice[M]. Beijing: People’s Publishing House, 2013.

        [3] XIE Y, LU P. The sampling design of the China family panel studies (CFPS) [J]. Chinese Journal of Sociology, 2015, 1(4): 471-484.

        [4] S T I E G E R S, R E I P S U. W h a t a r e participants doing while filling in an online questionnaire: a paradata collection tool and an empirical study[J]. Computers in Human Behavior, 2010, 26(6): 1488-1495.

        [5] KREUTER F. Improving Surveys with Paradata: Analytic Uses of Process Information[M]. New York: John Wiley & Sons, 2013.

        [6] MAEHR W. eMotion: estimation of user'semotional state by mouse motions[J]. Elsevier, 2008, 15(3): 15-17.

        [7] G A L E S I C M, T O U R A N G E A U R, COUPER M P, et al. Eye-tracking data: new insights on response order effects and other cognitive shortcuts in survey responding[J]. Public Opinion Quarterly, 2008, 72(5): 892-913.

        [8] TACH L, CORNWELL B. Social networks and social capital: new directions for a household panel survey[J]. Journal of Economic and Social Measurement, 2015, 40(1-4): 249-281.

        [9] PAKIZE S, GANDOMI A. Comparative study of classification algorithms based on MapReduce model[J]. International Journal of Innovative Research in Advanced Engineering, 2014, 1(7): 251-254.

        [10] LAZER D, KENNEDY R, KING G, et al. The parable of Google flu: traps in big data analysis[J]. Science, 2014, 343(6176): 1203-1205.

        [11] 顧佳峰. 調(diào)查機(jī)構(gòu)公共關(guān)系經(jīng)營與管理[M].北京: 經(jīng)濟(jì)日?qǐng)?bào)出版社, 2014. GU J F. Public Relations Management for Survey Institute[M]. Beijing: The Publishing House of the Economic Daily, 2014.

        [12] W ILLIA MS T, G O N G J. Pr e d i c ti n g construction cost overruns using text mining, numerical data and ensemble classifiers[J]. Journal of Automation in Construction, 2014, 43(7): 23-29.

        [13] HEARST M. TextTiling: segmenting text into multi-paragraph subtopic passages[J]. Computational Linguistics, 1997, 23(1): 33-64.

        [14] CHAWLA N V, DAVIS D A. Bringing big data to personalized healthcare: a patient-centered framework[J]. Journal of General Internal Medicine, 2013, 28(3): 660-665.

        [15] CO L L I N S F S, VA R M U S H. A n e w initiative on precision medicine[J]. The New England Journal of Medicine, 2015, 372(9): 1-3.

        [16] DANAH B, KATE C. Critical questions for big data: provocations for a cultural, technological, and scholarly phenomenon[J]. Information, Communication & Society, 2012, 15(5): 662-679.

        * 本文為2015中國大數(shù)據(jù)技術(shù)大會(huì)(BDTC)演講約稿

        Social science research in China social surveys under the big data revolution

        GU Jiafeng
        Institute of Social Sciences Survey, Peking University, Beijing 100871, China

        Big data has become a significant feature of this age. The development of big data brings great impact and challenge to social surveys. To face the challenge, a new management theory based on China’s traditional wisdom of social surveys is needed. Big data and cloud computing should become the constituent parts of total survey management system. The big data analytics can give insights of paradata, which can improve the accuracy of social surveys significantly and implementation of precise management of social relations. Finally, some views on the future development of big data and survey data were proposed.

        big data, social survey, big wisdom, paradata

        C915

        A

        10.11959/j.issn.2096-0271.2016016

        2016-01-20

        顧佳峰(1975-),男,博士,北京大學(xué)中國社會(huì)科學(xué)調(diào)查中心研究發(fā)展部主任,北京大學(xué)創(chuàng)新研究院副院長,美國加州伯克利大學(xué)、哈佛大學(xué)高級(jí)訪問學(xué)者,OECD組織“產(chǎn)業(yè)監(jiān)管調(diào)查項(xiàng)目”中國地區(qū)項(xiàng)目首席科學(xué)家。

        猜你喜歡
        入戶精準(zhǔn)樣本
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        精準(zhǔn)防返貧,才能穩(wěn)脫貧
        推動(dòng)醫(yī)改的“直銷樣本”
        精準(zhǔn)的打鐵
        NBA特刊(2018年11期)2018-08-13 09:29:22
        精準(zhǔn)扶貧 齊奔小康
        民生周刊(2017年19期)2017-10-25 16:48:02
        精準(zhǔn)扶貧二首
        岷峨詩稿(2017年4期)2017-04-20 06:26:26
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        淺議房屋征收穩(wěn)評(píng)入戶應(yīng)注意的問題——以某舊城區(qū)改建項(xiàng)目入戶調(diào)查為例
        探討三網(wǎng)融合及光纖入戶技術(shù)的應(yīng)用
        村企共贏的樣本
        国内精品人妻无码久久久影院94 | 热re99久久精品国产66热6| 天堂麻豆精品在线观看| 精品一区二区av在线| 日韩女优av一区二区| а√中文在线资源库| 国产一区二区在线视频| 内射后入在线观看一区| 国产日韩欧美视频成人| 日韩不卡一区二区三区色图| 好大好湿好硬顶到了好爽视频 | 大胸美女吃奶爽死视频| 国产精品丝袜美腿诱惑| 亚洲无人区乱码中文字幕能看| 国产精品久久久久久久久久红粉 | 国产chinese在线视频| 成人全视频在线观看免费播放| 漂亮人妻出轨中文字幕| 无码国内精品人妻少妇蜜桃视频| 国产成人亚洲综合色婷婷| 国产一起色一起爱| 熟女少妇av免费观看| 成人国产av精品麻豆网址| 国产私人尤物无码不卡| 中文成人无码精品久久久不卡| 日韩秘 无码一区二区三区| 国产av午夜精品一区二区入口 | 精品国产成人av久久| 亚洲国产精品久久久久婷婷老年| 天天草夜夜草| 91久久精品一区二区喷水喷白浆| 肥老熟女性强欲五十路| 性无码专区无码| 亚洲av无码乱码国产精品fc2| 欧美乱人伦中文字幕在线不卡| 黄色三级国产在线观看| 日韩 亚洲 制服 欧美 综合| 丰满人妻在公车被猛烈进入电影| 精品亚洲国产探花在线播放| 神马不卡影院在线播放| 精品卡一卡二乱码新区|