毛平
摘? ?要:大數(shù)據(jù)環(huán)境下,數(shù)據(jù)密集型研究范式逐漸成為人文社科研究的重要范式,并在人文社科領(lǐng)域中取得一批重要研究成果。文章以CSSCI及SSCI、A&HCI數(shù)據(jù)庫為數(shù)據(jù)來源,采用定量與定性相結(jié)合的方法,從多個維度揭示了國內(nèi)外人文社科大數(shù)據(jù)研究的現(xiàn)狀、熱點及前沿趨勢,對比分析了國內(nèi)外相關(guān)研究的異同。研究發(fā)現(xiàn):國內(nèi)外人文社科大數(shù)據(jù)研究均越來越受到學者關(guān)注;社會科學領(lǐng)域的研究要多于人文科學領(lǐng)域;國外研究學科分布比國內(nèi)分布更為廣泛;國內(nèi)外研究熱點主題和趨勢有較大差異。
關(guān)鍵詞:人文社科;大數(shù)據(jù);研究熱點;研究趨勢
中圖分類號:G250.2;C3? ?文獻標識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2019002
Abstract Under the environment of big data, data-intensive research has gradually become an important paradigm of humanities and social sciences research, and has achieved a number of important research results in various disciplines. Sorting out the research context of big data in humanities and social sciences at home and abroad can provide reference for future research. By using CSSCI, SSCI and A&HCI databases as data sources, and combining quantitative and qualitative methods, this paper reveals the research status, hot spots and frontier trends of big data research in humanities and social sciences at home and abroad from multiple dimensions, and also compares and analyses the similarities and differences of the research at home and abroad. It is found that the research on big data in humanities and social sciences at home and abroad has attracted more and more attention from scholars, and more research has been done in the field of social sciences than in the field of humanities; the distribution of foreign research disciplines is wider than that in China and the research themes at home and abroad are quite different.
Key words humanities and social sciences;big data;hot topic;research frontier
近年來,大數(shù)據(jù)逐漸引起了國內(nèi)外學者的廣泛關(guān)注。從研究的學科領(lǐng)域上來看,大數(shù)據(jù)最早被應用于自然科學特別是計算機科學的研究之中,并在數(shù)據(jù)的獲取、存儲、分析、展示以及管理等方面取得了豐碩的研究成果。較之自然科學研究較高的數(shù)據(jù)依賴性,傳統(tǒng)人文社會科學研究則更多依靠研究者的經(jīng)驗、直覺和思辨,以質(zhì)性研究方法居多,數(shù)據(jù)使用相對較少。然而,隨著社會信息化水平的不斷提高以及人文社科量化研究方法的不斷探索,大數(shù)據(jù)思維也逐漸滲透到人文社科研究之中,數(shù)據(jù)驅(qū)動成為經(jīng)濟、管理、圖書情報、新聞傳播、教育、法律、歷史等學科的新導向,人文社科大數(shù)據(jù)研究逐漸興起。
截至目前,國內(nèi)外人文社科大數(shù)據(jù)研究已經(jīng)積累了比較豐富的研究成果。然而,現(xiàn)有研究缺少對國內(nèi)外人文社科大數(shù)據(jù)研究現(xiàn)狀的有效梳理,難以獲知該領(lǐng)域的國內(nèi)外研究熱點、發(fā)展趨勢及研究特色與異同。鑒于此,筆者采用定量與定性相結(jié)合的方法,系統(tǒng)揭示國內(nèi)外人文社科大數(shù)據(jù)研究的現(xiàn)狀脈絡與研究差異,旨在為我國人文社科大數(shù)據(jù)研究和實踐發(fā)展方向提供參考與借鑒。
1? ?數(shù)據(jù)來源
國外研究數(shù)據(jù)以Web of Science中SSCI及A&HCI數(shù)據(jù)庫為來源,以“Big Data”為主題進行高級檢索,文獻類型為“Article”,語種為“English”,時間跨度為1900-2017年,檢索時間為2018年10月22日,共采集整理得到有效論文2250篇,文獻時間分布為2010-2017年。國內(nèi)研究數(shù)據(jù)以中國社會科學引文索引(CSSCI)為來源,以“大數(shù)據(jù)”為關(guān)鍵詞在CSSCI數(shù)據(jù)庫中進行精確匹配檢索,時間跨度為1998-2017年,文獻類型為“論文”,檢索時間為2018年10月22日,剔除重復數(shù)據(jù)、期刊征文、新聞報道等共得到1864篇有效論文,文獻時間分布為2012-2017年。
2? ?研究力量分析
2.1? ? 發(fā)文時序分布
國內(nèi)人文社科大數(shù)據(jù)相關(guān)研究始于2012年,從2013年開始爆發(fā)性增長。本研究將各年發(fā)文量進行趨勢線擬合,R2值為0.9535,較為符合對數(shù)型分布,表明相關(guān)研究被我國學者持續(xù)關(guān)注,該研究領(lǐng)域具有較大研究空間、研究成果將保持穩(wěn)定增長(見圖1)。
國外人文社科大數(shù)據(jù)相關(guān)研究比我國早,始于2010年,興起于2013年。2014年,受各國政府先后發(fā)布的相關(guān)大數(shù)據(jù)政策的影響,相關(guān)研究發(fā)文數(shù)量開始快速增加。對各年發(fā)文量進行趨勢線擬合,較為符合指數(shù)型分布,R2值為0.9581,表明人文社科大數(shù)據(jù)研究同樣被國外學者廣泛關(guān)注,該領(lǐng)域具有良好的研究前景(見圖2)。
2.2? ? 發(fā)文國家/地區(qū)分布
從國際發(fā)文國家/地區(qū)分布上來看,發(fā)文量前三位依次為美國、英國和中國,分別發(fā)表873篇、246篇和240篇(見圖3)。各個國家發(fā)文量分布總體上體現(xiàn)二八冪律形態(tài),美國、英國、中國、澳大利亞、韓國、加拿大和德國7個國家發(fā)文較多,共計1865篇,占全部發(fā)文量的80%左右,其他67個國家/地區(qū)的發(fā)文量占20%左右。從地理位置上看,相關(guān)研究較多的國家/地區(qū)主要分布于北美、西歐、北歐以及亞洲的中國、印度、新加坡和臺灣地區(qū)。這些國家/地區(qū)ICT基礎(chǔ)設(shè)施較好,網(wǎng)絡普及率較高。這也表明人文社科大數(shù)據(jù)研究需要具備一定的社會信息化水平和較好的信息技術(shù)環(huán)境。
從國際上各國家/地區(qū)發(fā)文影響力上看,考慮文獻數(shù)量及樣本大小等差異情況下,本文選用基于H指數(shù)改進的指標Hm指數(shù)[1]衡量各國發(fā)文影響力,計算得出排名前三的國家分別是法國、澳大利亞和美國,其Hm指數(shù)值分別是3.26、3.13和3.12,緊隨其后是英國、中國、丹麥、荷蘭、德國、韓國、加拿大等國家/地區(qū)。美國雖在該領(lǐng)域的研究仍然處于領(lǐng)先地位,被引用頻次及篇均被引用頻次是所有國家中最高的,但從Hm指數(shù)值來看,發(fā)文量并不算最多的法國、澳大利亞,其Hm指數(shù)得分值也較高,甚至超過了美國。我國雖然發(fā)文量較高,但Hm指數(shù)得分值與發(fā)文量并不匹配,表明我國還需要提升發(fā)表論文的國際影響力。
2.3? ? 發(fā)文學科及期刊分布
從發(fā)文的學科分布上來看,國內(nèi)人文社科大數(shù)據(jù)研究在學科分布上并不均衡(見圖4)??紤]各學科發(fā)文數(shù)量及發(fā)文增長速度,大體上可以分為三個方陣:第一方陣為圖書館、情報與文獻學,新聞學與傳播學,教育學和經(jīng)濟學4個學科,此方陣中的各學科發(fā)文量多,增長也較快,特別是圖書館、情報及文獻學學科,發(fā)文數(shù)量尤其突出,遠遠高于其他學科;第二方陣為政治學、法學、統(tǒng)計學與社會學,此方陣中各學科發(fā)文量及發(fā)文增長率居中,有較大發(fā)展?jié)摿?第三方陣為文化學、歷史學、文學、藝術(shù)學等學科,此方陣中各學科無論是發(fā)文數(shù)量還是發(fā)文增長率都比較低。
鑒于Web of Science中的學科分布與CSSCI的學科分布不同,為便于對比分析,筆者將WOS中部分學科做合并處理,得到部分學科統(tǒng)計結(jié)果(見圖5)。
可以看出,國外人文社科大數(shù)據(jù)研究在學科分布上也可以大致分為三個方陣:第一方陣包括MANAGEMENT、ENVIRONMENTAL STUDIES、INFORMATION SCIENCE LIBRARY SCIENCE三個學科,各學科發(fā)文量及發(fā)文增長速度要顯著高于其他學科;第二方陣包括SOCIOLOGY、GEOGRAPHY、COMMUNICATIONS、HEALTH CARE SCIENCES SERVICES、ECONOMICS、EDUCATION SCIENTIFIC DISCIPLINES、LAW、STATISTICS PROBABILITY、ETHICS等學科,這些學科雖然發(fā)文量不及前三個學科,但發(fā)文量的增長速度較快;第三方陣包括LITERATURE、HISTORY、ART、CULTURAL STUDIES等學科,這些學科發(fā)文量比較少,且增長速度較慢,甚至有減少的趨勢。
從發(fā)文期刊分布上看,國內(nèi)研究主要集中于圖書情報類期刊,發(fā)文量排名前三位的分別是《情報理論與實踐》(75篇)、《圖書與情報》(67篇)以及《情報雜志》(60篇),發(fā)文量排名前20的期刊中有7種圖書情報類,3種教育類,2種新聞傳媒類,2種統(tǒng)計類,4種編輯出版類,2種管理類。國外研究發(fā)文量前三位的期刊分別是環(huán)境科學及綠色可持續(xù)類期刊SUSTAINABILITY(39篇)、環(huán)境科學類期刊JOURNAL OF CLEANER PRODUCTION(34篇)及醫(yī)學類期刊PLOS ONE(29篇),其他前十位包括JOURNAL OF THE AMERICAN MEDICAL INFORMATICS ASSOCIATION、SCIENTOMETRICS、INTERNATIONAL JOURNAL OF GEOGRAPHICAL INFORMATION SCIENCE、TECHNOLOGICAL FORECASTING AND SOCIAL CHANGE等,涵蓋信息、法律、人文地理等學科。
從國內(nèi)外人文社科大數(shù)據(jù)研究的學科分布上可以看出,國內(nèi)外研究的學科分布存在較大差異:首先,國內(nèi)研究主要集中于圖書情報學、新聞傳播學、統(tǒng)計學和教育學等學科上,尤其在圖書情報學領(lǐng)域的研究比較多。這是由于大數(shù)據(jù)概念在提出初期,在計算機科學領(lǐng)域有較多應用,在我國人文社科的眾多學科中,與計算機科學聯(lián)系最為緊密的無疑是圖書情報學,這種聯(lián)系從圖書情報學的研究范式演變中可窺豹一斑,因此國內(nèi)圖書情報學在大數(shù)據(jù)的研究上較之其他學科更多。國外研究則主要分布在管理學、經(jīng)濟學、社會學、圖書情報學以及環(huán)境科學等學科。除了圖書情報學之外,國內(nèi)研究較多的新聞傳播學及教育學并沒有成為國外研究的重點學科領(lǐng)域,而在環(huán)境科學、社會學等領(lǐng)域,國外學者較之國內(nèi)學者關(guān)注更多;其次,國外相關(guān)研究在各學科的平均研究熱度要高于國內(nèi),即國外研究中處于第二方陣的學科較多,體現(xiàn)出百花齊放的形態(tài),國內(nèi)研究則主要集中在少數(shù)幾個領(lǐng)域。這表明,我國的人文社科大數(shù)據(jù)研究有向社會學、環(huán)境科學、公共衛(wèi)生、健康醫(yī)療等領(lǐng)域擴展的空間;最后,國內(nèi)在地理學中的研究相對較少,國外的相關(guān)研究,尤其是在人文地理方面的研究則相對較多,這也揭示了地理大數(shù)據(jù)、空間大數(shù)據(jù)等空間變量在人文社科研究中的應用,增加了研究維度的豐富性。
2.4? ? 發(fā)文機構(gòu)分布及合作網(wǎng)絡分析
從國內(nèi)研究機構(gòu)分布上看,發(fā)文量排名靠前的分別是中國人民大學、南京大學、清華大學、北京大學、中國科學院等。共涉及作者2717名,平均每篇發(fā)文作者數(shù)為1.5個,表明國內(nèi)人文社科大數(shù)據(jù)研究的作者合作相對松散。在機構(gòu)合作上,全部發(fā)文共涉及1931個組織機構(gòu),各個研究機構(gòu)之間的合作也比較分散,沒有形成較大的合作網(wǎng)絡。
在國外研究的機構(gòu)分布上,發(fā)文量排名靠前的機構(gòu)為密歇根大學、斯坦福大學、哈佛大學、武漢大學、紐約大學、麻省理工學院、華盛頓大學、中科院、牛津大學和亞利桑那州立大學等。共涉及5707名作者,平均每篇發(fā)文作者數(shù)為2.5個。在國家/地區(qū)合作上,全部發(fā)文共涉及73個國家/地區(qū),在發(fā)文5篇以上的40個國家/地區(qū)中有8個合作網(wǎng)絡。在機構(gòu)合作上,全部發(fā)文共涉及2020個組織機構(gòu),發(fā)文5篇以上的230家機構(gòu)中,有包括哈佛大學、斯坦福大學、牛津大學、中國科學院等在內(nèi)的16個合作網(wǎng)絡。本文使用VOSviewer分別繪制國家/地區(qū)合作網(wǎng)絡(見圖6)與機構(gòu)合作網(wǎng)絡(見圖7),可以看出,各國家/地區(qū)之間、各機構(gòu)之間的合作并不十分緊密。
3? ?研究熱點分析
3.1? ? 國內(nèi)人文社科大數(shù)據(jù)研究熱點
通過關(guān)鍵詞共現(xiàn)分析可以發(fā)現(xiàn)研究對象之間的親疏關(guān)系,挖掘潛在的或者隱含的有用知識,并能夠揭示研究對象所代表的學科或者主體的結(jié)構(gòu)與變化[2]。本文以關(guān)鍵詞為對象,使用CiteSpace軟件構(gòu)建高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡進行聚類獲取研究熱點主題(見圖8),共得到11個主題聚類。其中模塊度Modularity Q值為0.6596,平均輪廓度Silhouette為0.4754,聚類效果良好。
(1)主題類1:大數(shù)據(jù)應用。包括“大數(shù)據(jù)”“商業(yè)模式”“社會治理”“精準扶貧”“計算社會科學”等關(guān)鍵詞。大數(shù)據(jù)環(huán)境下,商業(yè)模式、社會治理等多個人文社科領(lǐng)域出現(xiàn)新的思維模式和實現(xiàn)方式。如數(shù)據(jù)挖掘已經(jīng)在營銷、人力資源、電子商務等各商業(yè)領(lǐng)域廣泛應用,從管理學的角度應用大數(shù)據(jù)技術(shù)以支持商業(yè)分析和決策,成為商學院教育的熱點方向,以數(shù)據(jù)驅(qū)動為主導的金融、市場、戰(zhàn)略、營銷和運作管理研究和實踐指導,成為經(jīng)濟管理重點發(fā)展的核心領(lǐng)域[3]。此外,大數(shù)據(jù)給社會計算提供了機遇,主要呈現(xiàn)兩個發(fā)展趨勢:一個是面向社會科學,包括計算社會科學、計算社會學、社會網(wǎng)絡分析等;另一個是面向技術(shù)應用,包括社交應用、娛樂應用、生產(chǎn)應用等[4]。如陳云松[5]采用谷歌圖書811萬種書籍及8613億詞匯語料庫,通過檢索社會學的學科關(guān)鍵詞獲取歷年詞頻數(shù)據(jù),基于此分析了社會學的學科軌跡,為大數(shù)據(jù)環(huán)境下的計算社會學研究提供了參考。
(2)主題類2:信息素養(yǎng)。包括“數(shù)據(jù)素養(yǎng)教育”“信息素養(yǎng)”“教育治理”“互聯(lián)網(wǎng)+”等關(guān)鍵詞?;ヂ?lián)網(wǎng)+與各傳統(tǒng)行業(yè)的結(jié)合,要求從業(yè)者具備較高的信息意識和信息技能等信息素養(yǎng),能夠判斷何時需要信息,并懂得如何獲取信息、評價信息和有效利用信息成為普適性需求。在大數(shù)據(jù)時代,數(shù)據(jù)素養(yǎng)是信息素養(yǎng)的一種擴展,數(shù)據(jù)意識、數(shù)據(jù)能力及數(shù)據(jù)倫理等數(shù)據(jù)素養(yǎng)的研究內(nèi)容值得學者關(guān)注[6]。
(3)主題類3:智慧教育。包括“電子書包”“學習分析”“個性化學習”等關(guān)鍵詞。利用在線學習產(chǎn)生的痕跡數(shù)據(jù),分析學習者的學習狀態(tài)及學習特征、偏好等,通過基于大數(shù)據(jù)分析的用戶畫像,為學習者提供個性化學習的差異化策略?;诖髷?shù)據(jù)的學習分析讓教育變得千人千面,契合“因材施教”理念,適應了個性化和人性化的學習需求變化[7]。
(4)主題類4:圖書館信息服務。包括“圖書館服務”“信息服務”“個性化服務”“本體”等關(guān)鍵詞。大數(shù)據(jù)為圖書館信息服務的提升提供了分析基礎(chǔ),大數(shù)據(jù)可以為圖書館建立各類風險評估模型、進行用戶流失分析及價值分析、建立新型知識服務引擎、建立更加靈活和智能的網(wǎng)絡化信息資源智能組合形式,從而提升信息服務質(zhì)量等[8]。
(5)主題類5:情報服務。包括“情報分析”“應急決策”“突發(fā)事件”“情報體系”“情報工程”“情報研究”等關(guān)鍵詞。情報服務中引入多源頭數(shù)據(jù),使用大數(shù)據(jù)分析方法、技術(shù)可提升情報服務質(zhì)量及實時響應時間。如李廣建和江信昱[9]討論了競爭情報、商業(yè)管理、生物醫(yī)學、政府治理以及軍事情報等不同領(lǐng)域在大數(shù)據(jù)環(huán)境下的情報分析的發(fā)展動向,指出大數(shù)據(jù)理念與方法對這些領(lǐng)域產(chǎn)生深刻影響等。
(6)主題類6:統(tǒng)計學。包括“小數(shù)據(jù)”“機遇”“應對策略”等關(guān)鍵詞。大數(shù)據(jù)時代給統(tǒng)計學帶來了新的生命力,大數(shù)據(jù)的應用可提高統(tǒng)計質(zhì)量、降低統(tǒng)計成本[10],但同時也給傳統(tǒng)的基于小數(shù)據(jù)樣本分析的統(tǒng)計學帶來了挑戰(zhàn)。大數(shù)據(jù)將使傳統(tǒng)統(tǒng)計學的研究對象、計算規(guī)范及工作過程等發(fā)生重大轉(zhuǎn)變[11]。
(7)主題類7:數(shù)據(jù)新聞。包括“新聞生產(chǎn)”“新聞傳播”“媒介融合”“重構(gòu)”“文本挖掘”等關(guān)鍵詞。大數(shù)據(jù)環(huán)境影響了新聞傳播工作的方方面面,大數(shù)據(jù)滲透到新聞生產(chǎn)的各個核心環(huán)節(jié),大數(shù)據(jù)技術(shù)重新樹立了新聞質(zhì)量的標桿,進一步提升了新聞受眾反饋的價值,拓展了用戶分析的廣度與深度。在大數(shù)據(jù)技術(shù)等因素的推動下,新聞業(yè)務實現(xiàn)方向性調(diào)整,如趨勢預測性新聞和數(shù)據(jù)驅(qū)動型深度報道分量的增加,數(shù)據(jù)呈現(xiàn)、分析與解讀能力的提高,新聞生產(chǎn)中跨界合作的增強等[12]。
(8)主題類8:數(shù)據(jù)公開。包括“政府數(shù)據(jù)開放”“大數(shù)據(jù)思維”“隱私保護”“隱私權(quán)”等關(guān)鍵詞。大數(shù)據(jù)應用的前提是數(shù)據(jù)的可獲取性與易獲取性,但數(shù)據(jù)公開與隱私保護卻是天然相悖,數(shù)據(jù)開放邊界的控制、安全的保障、標準的制定、制度的健全仍需要進行大量探討。
(9)主題類9:新媒體。包括“社交媒體”“輿論引導”“傳統(tǒng)媒體”等關(guān)鍵詞。新媒體時代,微信、微博、移動終端等自媒體的可視化生產(chǎn),極大地拓展了傳統(tǒng)媒體的渠道。全民參與社會新聞傳播與共享的熱情空前,新聞數(shù)據(jù)量激增。新媒體的交互性與即時性、海量性與共享性、多媒體與超文本、個性化與社群化特征,產(chǎn)生了基于大數(shù)據(jù)分析的傳播倫理失范識別、輿情監(jiān)測以及輿論引導等問題的研究訴求。
(10)主題類10:智慧校園。包括“數(shù)據(jù)管理”“高?!薄皠?chuàng)新”等關(guān)鍵詞。校園信息化建設(shè)的重點建設(shè)內(nèi)容之一是打破原有的信息孤島,實現(xiàn)各業(yè)務子系統(tǒng)的對接與融合。系統(tǒng)融合后大量積累的存量數(shù)據(jù)需要活化。通過對這些數(shù)據(jù)的清洗、分析和應用,可更精準地支撐校園的日常運作與高層決策,從而提升校園智能。
(11)主題類11:網(wǎng)絡治理。包括“網(wǎng)絡信息倫理”“網(wǎng)絡空間”“意識形態(tài)”等關(guān)鍵詞。移動互聯(lián)網(wǎng)的普及,社交媒體的發(fā)展等使得網(wǎng)絡成為數(shù)據(jù)的重要承載體,成為國家治理的重要對象。國家網(wǎng)絡治理在大數(shù)據(jù)的場域環(huán)境之下,治理模式的“去中心化”與決策流程的“由下而上”等凸顯出了實踐的新要求,同時還面臨著效度困境、合規(guī)困境及安全困境等諸多挑戰(zhàn)[13]。
3.2? ? 國外人文社科大數(shù)據(jù)研究熱點
對國外發(fā)文數(shù)據(jù)構(gòu)建高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡并聚類,得到11個主題聚類,其中模塊度Modularity Q值為0.5876,平均輪廓度Silhouette為0.6499,聚類效果良好。
(1)主題類1:Big Data Analysis(大數(shù)據(jù)分析),包括“predictive analytics”“prediction”“model”“decision making”“algorithm”“forecasting”“intelligence”等關(guān)鍵詞。主要集中于大數(shù)據(jù)分析的算法、模型以及在預測、決策支持、商務智能等方面的應用。如商務智能分析領(lǐng)域數(shù)據(jù)框架的相關(guān)問題以及大數(shù)據(jù)分析在商務智能各領(lǐng)域的應用等。
(2)主題類2:Social Media(社交媒體),包括“social network”“web”“twitter”“facebook”“communication”“community”“online”“sentiment analysis”“user-generate content”“content analysis”等關(guān)鍵詞。Web2.0環(huán)境下Twitter、Facebook等新型社交媒體蓬勃發(fā)展。社交媒體的網(wǎng)絡關(guān)聯(lián)性及信息承載性,使得基于短視頻、短文本、標簽等社交媒體UGC的研究成為學者關(guān)注的課題。如Twitter發(fā)布內(nèi)容情緒與股票市場預測[14]、基于社交媒體發(fā)布內(nèi)容分析的疾病預測[15]等。
(3)主題類3:Public Health(公共健康),包括“clinical trial”“personalized medicine”“bipolar disorder”“genomics”“heath care”“self-tracking”等關(guān)鍵詞。傳感器、可穿戴設(shè)備的使用,使得心跳、脈搏等淺層次、日常化、自追蹤個人健康數(shù)據(jù)更易獲得,專業(yè)醫(yī)療設(shè)備的研發(fā)使得基因組學等深層次、專業(yè)性個人健康數(shù)據(jù)日益精細化,結(jié)合數(shù)字化醫(yī)學文獻資源,借助文本挖掘等大數(shù)據(jù)分析方法及臨床試驗,實施精準醫(yī)療、個人健康護理與保健等成為研究的重要內(nèi)容。如結(jié)合使用電子健康記錄中的健康醫(yī)療數(shù)據(jù),通過大數(shù)據(jù)分析識別和管理高風險和高成本的病人等[16]。
(4)主題類4:Urban Planning(城市規(guī)劃),包括“gi”“smart city”“pattern”“visualization”等關(guān)鍵詞。遙感、測繪等空間技術(shù)的發(fā)展以及VGI(Volunteered Geographic Information)等眾包方式的推廣,大量空間地理數(shù)據(jù)積聚,這些空間地理數(shù)據(jù)的分析處理為城市規(guī)劃乃至智慧城市的建設(shè)提供決策支撐。如使用居民移動電話數(shù)據(jù)進行土地使用的社會功能分類[17]、基于VGI信息的社會與政治問題研究等[18]。
(5)主題類5:National Governance(國家治理),包括“government”“politics”“survey research”“policy implication”“innovation”“efficiency”等關(guān)鍵詞?;诖髷?shù)據(jù)分析可提升政策制定與執(zhí)行的準確度與效度,進而提升國家治理能力。如利用居民個體事務網(wǎng)絡數(shù)據(jù)中包含的個體交互行為,通過數(shù)據(jù)分析獲取個體間社會關(guān)聯(lián),進而據(jù)此進行行政區(qū)劃的邏輯劃界,替代自然物理劃界方式,從而提高政策受眾的相關(guān)性[19];通過對大數(shù)據(jù)的分析為公共部門決策者提供廣泛的新信息,進而改善政策的執(zhí)行等[20]。
(6)主題類6:Sustainability(可持續(xù)),包括“energy”“climate change”“Land resource management”等關(guān)鍵詞。工業(yè)經(jīng)濟發(fā)展帶來的環(huán)境污染以及資源消耗問題日益受到環(huán)境科學學者們的關(guān)注,基于水、森林、土地、碳排放等大數(shù)據(jù)分析輔助決策是研究的主體。如空氣污染與公民健康問題[21]等。
(7)主題類7:Machine Learning(機器學習),包括“regression”“selection”“accuracy”“data mining”“big data analytics”等關(guān)鍵詞。此部分研究主題為機器學習方法在大數(shù)據(jù)分析中的應用。計算機科學在機器學習算法上的持續(xù)改進和更迭,為人文社科大數(shù)據(jù)研究提供了工具支撐,人文社科大數(shù)據(jù)研究中需明確相關(guān)機器學習算法的應用場景和結(jié)果的可解釋性。
(8)主題類8:Privacy(隱私),包括“surveillance”“policy”“ethic”等關(guān)鍵詞。數(shù)據(jù)開放共享的要求與個人隱私保護的矛盾,引起各國學者、政府部門對于隱私權(quán)、監(jiān)管、道德倫理的廣泛討論。研究課題涉及危害個人信息隱私的用戶信息軌跡追蹤,數(shù)據(jù)挖掘等大數(shù)據(jù)分析算法的內(nèi)生歧視等倫理道德問題[22-23]等。
對比國內(nèi)外人文社科大數(shù)據(jù)研究熱點,可以發(fā)現(xiàn),國內(nèi)外研究存在一部分相似的研究熱點主題,如社交媒體,大數(shù)據(jù)治理、數(shù)據(jù)開放等主題,但也存在比較明顯的研究熱點差異,如國內(nèi)的相關(guān)研究在圖書館信息服務、情報服務、信息素養(yǎng)、新媒體、網(wǎng)絡治理等領(lǐng)域有著較多的研究和關(guān)注,國外的相關(guān)研究則在城市規(guī)劃、健康醫(yī)療、隱私保護、道德倫理、人文地理、可持續(xù)發(fā)展等主題上相對國內(nèi)關(guān)注更多。
4? ?研究前沿分析
4.1? ? 國內(nèi)研究前沿
突現(xiàn)詞(Burst Terms)能準確反映某個領(lǐng)域的研究前沿,適合探測某個新興領(lǐng)域的趨勢和突然變化,運用Kleinberg突現(xiàn)探測算法可得到該領(lǐng)域的突現(xiàn)詞語。
國內(nèi)人文社科大數(shù)據(jù)研究最早的突現(xiàn)詞是開始于2012年的“云計算”“圖書館服務”“數(shù)據(jù)挖掘”和“數(shù)據(jù)處理”,其中“云計算”和“數(shù)據(jù)挖掘”突現(xiàn)度高達8.0和6.9,是當時核心前沿研究內(nèi)容。數(shù)據(jù)處理能力是制約數(shù)據(jù)驅(qū)動型研究的瓶頸,云計算通過分布式架構(gòu)與并行處理技術(shù)極大地提升了計算能力。計算能力的提升則極大地推動了數(shù)據(jù)挖掘、數(shù)據(jù)處理等技術(shù)的深入研究和廣泛應用,人文社科研究領(lǐng)域逐漸在研究中使用分類、聚類、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘技術(shù)。
2013-2014年,“社交媒體”“競爭情報”“語義網(wǎng)”“信息服務”“知識服務”等成為國內(nèi)研究關(guān)注重點。Web2.0環(huán)境下,國內(nèi)微信、微博、博客以及網(wǎng)絡社區(qū)等自媒體工具及網(wǎng)絡社交平臺不斷涌現(xiàn),吸引大量用戶參與,社交媒體平臺也成為全社會數(shù)據(jù)量存儲的重要載體。受國外研究影響,我國在社交媒體領(lǐng)域研究開始持續(xù)增長。本質(zhì)上而言,語義網(wǎng)(Semantic Web)、鏈接數(shù)據(jù)(Linked Data)及Web3.0含義相同,是用更豐富的方式來表達數(shù)據(jù)背后的含義,是數(shù)據(jù)、信息組織的重要研究內(nèi)容。大數(shù)據(jù)背景下,海量、多源、異構(gòu)數(shù)據(jù)的有效組織是重要研究問題?!案偁幥閳蟆睘閲鴥?nèi)圖書情報學研究內(nèi)容,受大數(shù)據(jù)環(huán)境及數(shù)據(jù)挖掘技術(shù)等的影響,競爭情報工作在數(shù)據(jù)采集等方面面臨新的局面。
2014-2015年,“互聯(lián)網(wǎng)金融”“信息服務”“知識服務”“城市規(guī)劃”,“智慧校園”等成為研究前沿,人文社科大數(shù)據(jù)研究開始逐漸向圖書情報、金融、教育、城市規(guī)劃等各個學科領(lǐng)域擴散。從2015年至今,“個人信息權(quán)”“應急決策”“開放數(shù)據(jù)”“智慧教育”“智慧城市”“媒體融合”“輿論引導”等體現(xiàn)較高突現(xiàn)性。數(shù)據(jù)的海量、多源可獲取是大數(shù)據(jù)研究的基礎(chǔ),數(shù)據(jù)的開放共享是推動人文社科大數(shù)據(jù)研究的重要因素,然而開放數(shù)據(jù)和隱私保護天然相悖,因此在關(guān)注開放數(shù)據(jù)的同時,個人信息權(quán)的研究也將成為未來研究關(guān)注的課題。除此以外,在智慧城市、智慧教育、應急決策、新媒體融合、網(wǎng)絡治理等領(lǐng)域的進一步深入研究將成為未來的前沿研究方向。
4.2? ? 國外研究前沿
運用Kleinberg突現(xiàn)探測算法得到國外人文社科大數(shù)據(jù)研究突現(xiàn)性關(guān)鍵詞,最早的突現(xiàn)詞是始于2012年的“social network”“social media”“web”“twitter”“facebook”等。社交平臺的廣泛使用,UGC數(shù)據(jù)的大量積累,使得社交網(wǎng)絡、社交媒體引起學者廣泛研究興趣,研究的科學問題涉及股市預測、政治選舉、行政區(qū)域劃分等多個方面。
2013-2014年,“public policy”“news”“methodology”“digital humanity”“culture”等成為突現(xiàn)詞。國家政府公共政策,尤其是數(shù)據(jù)開放共享及個人隱私保護政策被研究者所關(guān)注,人文社科大數(shù)據(jù)研究中的方法論、數(shù)字人文成為研究關(guān)注領(lǐng)域。
2014-2015年,“ict”“mobility”“politics”“l(fā)arge data set”“outcome”“online”“gi”“l(fā)aw”“personal information”“sociology”成為突現(xiàn)詞,人文社科大數(shù)據(jù)相關(guān)研究向經(jīng)濟、政治、法律、社會學等各學科領(lǐng)域逐步擴展。
2015年至今,除“web”“online”“personal information”“l(fā)aw”等早期突現(xiàn)詞研究前沿仍將持續(xù)外,還出現(xiàn)了“visualization”“regression”“spatial analysis”“urban planning”“genomics”“care”“self-tracking”“community”“complexity”等新興突現(xiàn)詞,所體現(xiàn)城市規(guī)劃、精準醫(yī)療、公共衛(wèi)生、人文地理、空間分析、可視化領(lǐng)域可能成為未來的研究前沿。
5? ?結(jié)論
本文運用計量分析與內(nèi)容分析相結(jié)合的方法,對于國內(nèi)外人文社科大數(shù)據(jù)研究現(xiàn)狀及趨勢進行了探討,并分析了國內(nèi)外研究的差異,得出以下結(jié)論:
(1)通過國內(nèi)外人文社科大數(shù)據(jù)研究發(fā)文數(shù)量情況對比分析,發(fā)現(xiàn)國內(nèi)外的相關(guān)研究成果增長均十分迅速,該領(lǐng)域具有良好研究前景。國內(nèi)的研究雖起步相對較晚,但近幾年在國際化研究成果中的產(chǎn)出速度逐步增快。國內(nèi)外的研究均呈現(xiàn)多學科交叉融合態(tài)勢,但國外在多學科交叉研究上要優(yōu)于國內(nèi)。
(2)通過國內(nèi)外人文社科大數(shù)據(jù)研究的發(fā)文期刊分布狀態(tài)及對比分析,發(fā)現(xiàn)國內(nèi)研究在學科分布不如國外研究學科分布均衡,國內(nèi)研究有著較為明顯的偏向圖書情報、管理學及教育學傾向,國外研究則是在環(huán)境科學、圖書情報學、經(jīng)濟學、管理學、社會學、地理學、醫(yī)藥信息、健康護理等更多的領(lǐng)域有涉足,雖然國外研究的統(tǒng)計口徑為多個國家,不同國家之間可能各有側(cè)重,但仍能給我國學者以有益啟示。
(3)通過國內(nèi)外人文社科大數(shù)據(jù)研究發(fā)文國家/地區(qū)分布,機構(gòu)分布及合作網(wǎng)絡狀態(tài)揭示和對比分析,發(fā)現(xiàn)研究主要集中于社會信息化水平較高地區(qū),國外研究主要集中于密歇根大學、斯坦福大學、哈佛大學、牛津大學等機構(gòu),國內(nèi)研究機構(gòu)主要集中于中國人民大學、武漢大學、南京大學、清華大學、北京大學等,國家/地區(qū)之間的合作及各機構(gòu)之間的合作相對較少,但國外機構(gòu)之間的合作要多于國內(nèi),國內(nèi)未來需要加強,尤其是加強與國外研究機構(gòu)之間的合作,進而提升學術(shù)國際影響力。
(4)通過國內(nèi)外人文社科大數(shù)據(jù)研究熱點及研究前沿揭示及對比,發(fā)現(xiàn)國內(nèi)外研究熱點主題均呈現(xiàn)出多樣化分布特點,且在社會科學領(lǐng)域的研究均要多于人文領(lǐng)域的研究。國內(nèi)外部分研究熱點相似,但也存在較為明顯的差異。國外研究的主題相對國內(nèi)而言更加分散和均衡,關(guān)注的研究熱點涉及大數(shù)據(jù)分析、社交媒體、健康醫(yī)療、城市規(guī)劃、可持續(xù)發(fā)展、國家治理、人文地理等多個學科領(lǐng)域的多個主題;國內(nèi)的研究熱點主題主要集中于大數(shù)據(jù)應用、信息素養(yǎng)、社會治理、數(shù)據(jù)公開、新媒體、教育大數(shù)據(jù)等領(lǐng)域。未來國內(nèi)研究可向城市規(guī)劃、健康醫(yī)療、法律、可持續(xù)發(fā)展等領(lǐng)域擴展??臻g分析、人文地理、環(huán)境管理、知識服務、社交網(wǎng)絡、媒體融合、健康醫(yī)療、城市規(guī)劃、智慧城市等領(lǐng)域可能成為國內(nèi)外研究前沿,未來人文社科大數(shù)據(jù)研究可予以關(guān)注。
參考文獻:
[1]? Molinari J,Molinari A.A New Methodology for Ranking Scientific Institutions[J].Scientometrics,2008,75(1):163-174.
[2]? 王曰芬,宋爽,盧寧,等.共現(xiàn)分析在文本知識挖掘中的應用研究[J].中國圖書館學報,2007,33(2):59-64.
[3]? 馮芷艷,郭迅華,曾大軍,等.大數(shù)據(jù)背景下商務管理研究若干前沿課題[J].管理科學學報,2013(1):1-9.
[4]? 孟小峰,李勇,祝建華.社會計算:大數(shù)據(jù)時代的機遇與挑戰(zhàn)[J].計算機研究與發(fā)展,2013(12):2483-2491.
[5]? 陳云松.大數(shù)據(jù)中的百年社會學——基于百萬書籍的文化影響力研究[J].社會學研究,2015(1):23-48.
[6]? 黃如花,李白楊.數(shù)據(jù)素養(yǎng)教育:大數(shù)據(jù)時代信息素養(yǎng)教育的拓展[J].圖書情報知識,2016(1):21-29.
[7]? 姜強,趙蔚,王朋嬌,等.基于大數(shù)據(jù)的個性化自適應在線學習分析模型及實現(xiàn)[J].中國電化教育,2015(1):85-92.
[8]? 樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志,2012,31(11):63-68,77.
[9]? 李廣建,江信昱.不同領(lǐng)域的情報分析及其在大數(shù)據(jù)環(huán)境下的發(fā)展[J].圖書與情報,2014(5):7-12.
[10]? 朱建平,張悅涵.大數(shù)據(jù)時代對傳統(tǒng)統(tǒng)計學變革的思考[J].統(tǒng)計研究,2016,33(2):3-9.
[11]? 朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014,31(2):10-17.
[12]? 彭蘭.“大數(shù)據(jù)”時代:新聞業(yè)面臨的新震蕩[J].編輯之友,2013,1(1):6-10.
[13]? 張琳,楊毅.大數(shù)據(jù)視野下國家網(wǎng)絡治理路徑優(yōu)化研究[J].湖北社會科學,2015(5):43-49.
[14]? Bollen J,Mao H,Zeng X.Twitter Mood Predicts the Stock Market[J].Journal of Computational Science,2011,2(1):1-8.
[15]? Ireland M E,Schwartz H A,Chen Q,et al.Future-Oriented Tweets Predict Lower County-Level Hiv Prevalence in the United States[J].Health Psychology,2015,34(Sl):1252-1260.
[16]? Bates D W,Saria S,Ohno-Machado L,et al.Big Data in Health Care:Using Analytics to Identify and Manage High-Risk and High-Cost Patients[J].Health Affairs,2014,33(7):1123-1131.
[17]? Pei T,Sobolevsky S,Ratti C,et al.A New Insight into Land Use Classification Based on Aggregated Mobile Phone Data[J].International Journal of Geographical Information Science,2014,28(9):1988-2007.
[18]? Elwood S,Goodchild M F,Sui D Z.Researching Volunteered Geographic Information:Spatial Data,Geographic Research,and New Social Practice[J].Annals of the Association of American Geographers,2012,102(3):571-590.
[19]? Ratti C,Sobolevsky S,Calabrese F,et al.Redrawing the Map of Great Britain from a Network of Human Interactions[J].PlOS ONE,2010,5(12):e14248.
[20]? Stough R,Mcbride D.Big Data and U.S. Public Policy[J].Review of Policy Research,2014,31(4):339-342.
[21]? Chen X Y,Shao S,Tian Z H,et al.Impacts of Air Pollution and Its Spatial Spillover Effect on Public Health Based on China's Big Data Sample[J].Journal of Cleaner Production,2017,142(Sl):915-925.
[22]? Barocas S,Selbst A D.Big Data's Disparate Impact[J].California Law Review,2016,104(3):671-732.
[23]? Mittelstadt B D,F(xiàn)loridi L.The Ethics of Big Data:Current and Foreseeable Issues in Biomedical Contexts[J].Science and Engineering Ethics,2016,22(2):303-341.
作者簡介:毛平(1983-),男,南京大學信息管理學院博士研究生,研究方向:網(wǎng)絡信息資源管理、大數(shù)據(jù)分析。