周愛霞 嚴(yán)亞蘭 查先進(jìn)
關(guān)鍵詞: 大數(shù)據(jù); 比較研究; 學(xué)術(shù)平臺(tái); 社會(huì)化問答平臺(tái); Word2vec
DOI:10.3969 / j.issn.1008-0821.2024.01.004
〔中圖分類號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2024) 01-0037-11
習(xí)近平總書記在中共中央政治局就實(shí)施國家大數(shù)據(jù)戰(zhàn)略進(jìn)行第二次集體學(xué)習(xí)時(shí)指出: “大數(shù)據(jù)是信息化發(fā)展的新階段”[1] 。數(shù)據(jù)快速成倍增長(zhǎng), 從數(shù)據(jù)到大數(shù)據(jù), 不僅是量的積累, 更是質(zhì)的飛躍[2] 。大數(shù)據(jù)是數(shù)字化轉(zhuǎn)型和數(shù)字經(jīng)濟(jì)的重要基石[3] 。自大數(shù)據(jù)(Big Data)作為一個(gè)概念被提出以來, 它就受到工業(yè)界、學(xué)術(shù)界、政府等的廣泛關(guān)注, 大數(shù)據(jù)已對(duì)社會(huì)和經(jīng)濟(jì)發(fā)展產(chǎn)生了重大影響, 并將持續(xù)產(chǎn)生更大的影響。
我國學(xué)者對(duì)大數(shù)據(jù)開展了廣泛的研究并產(chǎn)出了大量的成果。同時(shí), 知乎已成為優(yōu)秀的社會(huì)化問答平臺(tái), 大數(shù)據(jù)在知乎平臺(tái)上通過問題和回答的方式受到了廣泛關(guān)注。例如, 在問題“如何準(zhǔn)確又通俗易懂地解釋大數(shù)據(jù)及其應(yīng)用價(jià)值?” 下, 答主們圍繞大數(shù)據(jù)的定義、應(yīng)用場(chǎng)景以及價(jià)值等方面, 系統(tǒng)而全面地回答了該問題。又如, 在問題“大數(shù)據(jù)最核心的價(jià)值是什么?” 下, 有一條高贊回答認(rèn)為, 大數(shù)據(jù)的核心價(jià)值是了解和挖掘用戶的行為習(xí)慣和愛好。再如, 在問題“普及一下什么是大數(shù)據(jù)技術(shù)?”下, 有一位答主的回答得到了大家的廣泛認(rèn)同, 該答主認(rèn)為大數(shù)據(jù)技術(shù)是一套完整的“數(shù)據(jù)+業(yè)務(wù)+需求” 的解決方案。
Word2vec 是新興的神經(jīng)網(wǎng)絡(luò)詞嵌入算法, 也是最近幾年人工智能領(lǐng)域自然語言處理技術(shù)得以快速發(fā)展的根基, 它不僅計(jì)算成本低, 而且準(zhǔn)確度高,能夠同時(shí)在語法和語義層面對(duì)詞語的相似度進(jìn)行有效的測(cè)度。結(jié)合不同平臺(tái)的語料庫訓(xùn)練Word2vec模型, 可以結(jié)合語義相似詞對(duì)不同平臺(tái)的關(guān)注熱點(diǎn)進(jìn)行比較, 可以利用降維技術(shù)和數(shù)據(jù)可視化方法對(duì)詞嵌入概貌進(jìn)行比較。本研究利用Word2vec 神經(jīng)網(wǎng)絡(luò)詞嵌入算法, 結(jié)合我國學(xué)術(shù)平臺(tái)和社會(huì)化問答平臺(tái)對(duì)大數(shù)據(jù)關(guān)注熱點(diǎn)和詞嵌入概貌進(jìn)行比較分析, 為大數(shù)據(jù)研究提供新的視角。
1 大數(shù)據(jù)相關(guān)研究和本研究的切入點(diǎn)
大數(shù)據(jù)一直是學(xué)術(shù)界的研究熱點(diǎn)。隨著云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等下一代信息技術(shù)的快速融合和發(fā)展, 數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)增長(zhǎng)[4] 。在我國, 大數(shù)據(jù)研究受到越來越多的關(guān)注。黃家良等[5] 探討了如何應(yīng)用大數(shù)據(jù)促進(jìn)虛擬社區(qū)的知識(shí)共享行為。他們構(gòu)建了基于大數(shù)據(jù)的虛擬社區(qū)知識(shí)共享體系架構(gòu), 研究結(jié)果表明, 該架構(gòu)具有較高的可行性和價(jià)值意義,可以挖掘虛擬社區(qū)的大數(shù)據(jù)價(jià)值從而提高平臺(tái)的知識(shí)共享水平。甄藝凱[6] 針對(duì)互聯(lián)網(wǎng)經(jīng)濟(jì)中存在的價(jià)格歧視問題, 在轉(zhuǎn)移成本視角下, 通過構(gòu)建一個(gè)三階段動(dòng)態(tài)博弈, 探究了企業(yè)在寡頭競(jìng)爭(zhēng)市場(chǎng)中的大數(shù)據(jù)“殺熟” 動(dòng)機(jī), 研究結(jié)果表明, 當(dāng)轉(zhuǎn)移成本較大時(shí), 至少存在一家企業(yè)有“殺熟” 動(dòng)機(jī); 相反, “殺熟” 策略并不會(huì)出現(xiàn)在子博弈精煉納什均衡路徑上。張彬等[7] 基于大數(shù)據(jù)環(huán)境, 構(gòu)建了興趣知識(shí)圖譜, 探討了用戶興趣之間的關(guān)系, 研究結(jié)果表明, 該模型有效融合擴(kuò)展了不同類型的興趣關(guān)聯(lián)知識(shí), 且與單一來源數(shù)據(jù)相比, 該模型在用戶興趣的查準(zhǔn)率和覆蓋率上都有所提升, 用戶興趣描繪的準(zhǔn)確性和全面性也得到了優(yōu)化。王旸等[8] 從社會(huì)化媒體平臺(tái)視角出發(fā), 構(gòu)建了系統(tǒng)化的社會(huì)化媒體大數(shù)據(jù)資源模型, 建立了用戶在線活動(dòng)的“主體—操作—對(duì)象” 過程框架, 探討了社會(huì)化媒體平臺(tái)建立大數(shù)據(jù)資源觀的重要性, 研究結(jié)果表明, 相較于現(xiàn)有研究, 該研究提出的模型在完整性、準(zhǔn)確性、易理解性、可擴(kuò)展性等方面都得到了提升。任曙明等[9] 通過構(gòu)建理論模型, 探討了大數(shù)據(jù)應(yīng)用如何影響企業(yè)的創(chuàng)新資源錯(cuò)配, 研究結(jié)果表明, 大數(shù)據(jù)應(yīng)用主要是通過技術(shù)壁壘效應(yīng)以及知識(shí)流動(dòng)效應(yīng)影響企業(yè)創(chuàng)新資源錯(cuò)配。
可以看出, 我國學(xué)者已經(jīng)針對(duì)大數(shù)據(jù)開展了廣泛的研究。為了推動(dòng)我國大數(shù)據(jù)研究取得更多的成果, 推動(dòng)學(xué)術(shù)界更多結(jié)合我國大數(shù)據(jù)實(shí)踐和社會(huì)需求而展開研究, 有必要回答以下問題: 我國學(xué)術(shù)平臺(tái)和社會(huì)化問答平臺(tái)在大數(shù)據(jù)關(guān)注熱點(diǎn)上存在什么差異? 我國學(xué)術(shù)平臺(tái)和社會(huì)化問答平臺(tái)在大數(shù)據(jù)詞嵌入概貌上存在什么差異? 如何有效地展現(xiàn)和比較關(guān)注熱點(diǎn)上的差異和詞嵌入概貌上的差異? 這些問題構(gòu)成了本研究的切入點(diǎn)。從研究范式上看, 本研究屬于數(shù)據(jù)驅(qū)動(dòng)的研究, 對(duì)于數(shù)據(jù)驅(qū)動(dòng)的研究, 當(dāng)數(shù)據(jù)量足夠大時(shí), 數(shù)據(jù)分析結(jié)果不僅僅展現(xiàn)的是現(xiàn)象, 而是具有一定的穩(wěn)健性和科學(xué)價(jià)值。本研究遵循數(shù)據(jù)驅(qū)動(dòng)的研究范式, 通過知乎平臺(tái)搜集了大數(shù)據(jù)主題下主流問題的回答, 回答內(nèi)容包含92 萬多字; 通過中國知網(wǎng)平臺(tái)搜集了12 770篇文獻(xiàn), 這些文獻(xiàn)代表了北大核心期刊中大數(shù)據(jù)研究重要文獻(xiàn)的全集; 然后創(chuàng)新地利用Word2vec 神經(jīng)網(wǎng)絡(luò)詞嵌入方法, 結(jié)合我國學(xué)術(shù)平臺(tái)和社會(huì)化問答平臺(tái)對(duì)大數(shù)據(jù)關(guān)注熱點(diǎn)和詞嵌入概貌進(jìn)行了比較分析。
2 研究方法: 神經(jīng)網(wǎng)絡(luò)詞嵌入
在自然語言處理領(lǐng)域, 詞嵌入是一項(xiàng)非常重要的技術(shù)。詞嵌入表示中最簡(jiǎn)單和最知名的是獨(dú)熱編碼(One-hot Encoding)。獨(dú)熱編碼的維度由詞庫的大小決定, 獨(dú)熱編碼在表示詞語的時(shí)候存在明顯的維度災(zāi)難, 有多少詞語就需要有多少維, 因此對(duì)于龐大的語料庫來說, 計(jì)算量和存儲(chǔ)量都是很大的問題[10] 。
Word2vec 模型是由Google 團(tuán)隊(duì)于2013 年發(fā)明的基于神經(jīng)網(wǎng)絡(luò)的詞嵌入方法, 在訓(xùn)練向量空間模型的速度上大大優(yōu)于以往的方法[11] 。Word2vec 有一個(gè)很重要的假設(shè): 文本中離得越近的詞語相似度越高?;谶@個(gè)假設(shè), Word2vec 用連續(xù)詞袋模型(Continuous Bag of Words, CBOW)架構(gòu)和Skip-gram架構(gòu)來計(jì)算詞向量矩陣。CBOW 是用上下文詞來預(yù)測(cè)中心詞, 而Skip-gram 是用中心詞來預(yù)測(cè)上下文, 它們有著準(zhǔn)確度高、計(jì)算成本低的特點(diǎn), 能夠在語義層面和語法層面有效測(cè)度詞語的相似度[11] 。Python 中的Gensim 庫提供了API 接口, 可以使用Word2vec 的這兩種框架[12] 。
Word2vec 已被廣泛應(yīng)用于科研和工作中, 可以用來做情感分析[13-14] 、中文分詞[15] 、句法依存分析[16-17] 等。谷瑩等[18] 利用Word2vec 技術(shù)構(gòu)建了產(chǎn)品特征詞集合, 構(gòu)建了基于在線產(chǎn)品評(píng)論的企業(yè)競(jìng)爭(zhēng)情報(bào)框架。該研究以汽車行業(yè)的評(píng)價(jià)為數(shù)據(jù)集進(jìn)行實(shí)驗(yàn), 研究結(jié)果表明, 該方法能夠有效識(shí)別產(chǎn)品的情報(bào)信息, 為企業(yè)制定競(jìng)爭(zhēng)策略和優(yōu)化產(chǎn)品設(shè)計(jì)提供依據(jù), 為大數(shù)據(jù)環(huán)境下的企業(yè)競(jìng)爭(zhēng)情報(bào)挖掘提供方法。Yilmaz S 等[19] 使用Word2vec 方法構(gòu)建了詞嵌入, 在由用戶問題組成的大型語料庫上構(gòu)建了具有不同向量大小的CBOW 和Skip-gram 模型,測(cè)試了使用不同的Word2vec 預(yù)訓(xùn)練詞嵌入的效果。研究結(jié)果表明, 不同Word2vec 模型的使用對(duì)不同深度學(xué)習(xí)模型的準(zhǔn)確率有顯著影響。Ma J 等[20] 通過整合LDA 和Word2vec 生成了從全局視角到局部視角的語料庫主題演化圖, 發(fā)現(xiàn)并揭示了主題的多層次演變, 揭示了主題與主題出現(xiàn)、發(fā)展、成熟和衰落的整個(gè)生命周期之間的相關(guān)關(guān)系。
3 數(shù)據(jù)搜集
3.1 知乎平臺(tái)數(shù)據(jù)搜集
知乎已經(jīng)成為一個(gè)高質(zhì)量的問答社區(qū)。在知乎平臺(tái)上, 提問者的信息是匿名的, 以鼓勵(lì)高質(zhì)量問題的提出, 當(dāng)提問者發(fā)布一個(gè)問題后, 基于平臺(tái)的邀請(qǐng)機(jī)制, 會(huì)優(yōu)先邀請(qǐng)同樣感興趣該話題的用戶來回答問題, 做到有問必有答[21] 。結(jié)合知乎平臺(tái)和大數(shù)據(jù)主題, 本研究在知乎平臺(tái)上選取了15 個(gè)代表性主流問題。表1 是問題和問題描述。
利用Python 程序爬取了表1 中15 個(gè)問題下的回答, 這些回答代表了知乎平臺(tái)中大數(shù)據(jù)主題下主流問題的回答, 反映了實(shí)踐界的聲音, 這些回答內(nèi)容包含92 萬多字, 用于后續(xù)的文本挖掘。
3.2 中國知網(wǎng)平臺(tái)數(shù)據(jù)搜集
中國知網(wǎng)是目前中國最大的學(xué)術(shù)論文數(shù)據(jù)庫,是中國知識(shí)基礎(chǔ)設(shè)施工程(China Knowledge Infra?structure, CNKI)的組成部分, 為各行業(yè)的理論創(chuàng)新和知識(shí)生產(chǎn)提供了工具[22] 。在中國知網(wǎng)平臺(tái)首頁上, 先點(diǎn)擊學(xué)術(shù)期刊, 再點(diǎn)擊高級(jí)檢索, 期刊來源選擇“北大核心”, 檢索字段是“篇名”, 輸入“大數(shù)據(jù)” 進(jìn)行精確檢索。自2012 年以來,“大數(shù)據(jù)” 一詞越來越多地被人們提及, 所以時(shí)間范圍設(shè)置為2012 年至今, 由于中國知網(wǎng)每次最高只可檢索出6 000篇文獻(xiàn), 但是通過分別限定時(shí)間段為“2012—2017 年” “2018—2021 年” “2022—2023 年”即可擴(kuò)展顯示數(shù)量, 分別得到5 662篇、5 920篇、1 188篇, 共計(jì)12 770篇中文文獻(xiàn)。利用中國知網(wǎng)的自定義導(dǎo)出文獻(xiàn)功能, 將檢索結(jié)果以xls 格式導(dǎo)出,每次導(dǎo)出文獻(xiàn)上限為500 篇, 通過多次文獻(xiàn)導(dǎo)出,總共導(dǎo)出文獻(xiàn)12 770篇, 這些學(xué)術(shù)文獻(xiàn)代表了中國知網(wǎng)平臺(tái)北大核心期刊中大數(shù)據(jù)研究的重要中文文獻(xiàn)的全集, 所有文獻(xiàn)的摘要用于后續(xù)的文本挖掘。
4 學(xué)術(shù)平臺(tái)和社會(huì)化問答平臺(tái)大數(shù)據(jù)比較分析
中國知網(wǎng)平臺(tái)中以大數(shù)據(jù)為主題的北大核心期刊的中文文獻(xiàn)代表了我國學(xué)術(shù)界的聲音, 知乎平臺(tái)中大數(shù)據(jù)主題下主流問題的回答代表了社會(huì)化問答平臺(tái)的聲音。本文利用Python 程序?qū)?shù)據(jù)進(jìn)行預(yù)處理, 并借助神經(jīng)網(wǎng)絡(luò)詞嵌入方法分別對(duì)預(yù)處理后的兩個(gè)語料庫進(jìn)行Word2vec 模型訓(xùn)練, 再結(jié)合訓(xùn)練好的Word2vec 模型, 利用最相似詞語分析對(duì)我國學(xué)術(shù)平臺(tái)和社會(huì)化問答平臺(tái)的大數(shù)據(jù)關(guān)注熱點(diǎn)進(jìn)行比較, 利用降維技術(shù)和數(shù)據(jù)可視化方法對(duì)所有詞語的詞嵌入概貌進(jìn)行比較。
4.1 數(shù)據(jù)清洗和數(shù)據(jù)分析過程
利用Python 程序進(jìn)行數(shù)據(jù)清洗。數(shù)據(jù)清洗的具體過程如下: 第一, 對(duì)于中國知網(wǎng)平臺(tái)導(dǎo)出的xls 格式數(shù)據(jù), 對(duì)分次導(dǎo)出的12 770篇學(xué)術(shù)文獻(xiàn)進(jìn)行合并以及摘要的讀取, 得到有效摘要12 765個(gè), 對(duì)于在知乎平臺(tái)15 個(gè)問題下分別爬取的回答進(jìn)行數(shù)據(jù)合并; 第二, 通過正則表達(dá)式的編寫, 清洗摘要和知乎回答中的非詞語符號(hào); 第三, 借助Python 的Jieba庫, 對(duì)摘要和知乎回答進(jìn)行分詞處理, 在分詞時(shí),根據(jù)本研究的研究主題, 在Jieba 的自定義詞組中添加了“大數(shù)據(jù)” “大數(shù)據(jù)時(shí)代” 等詞語; 第四, 將哈工大停用詞表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞表以及百度停用詞表進(jìn)行整合得到新的中文詞表,結(jié)合新的中文詞表, 對(duì)摘要和知乎回答進(jìn)行清洗,在此過程中, 反復(fù)結(jié)合清洗效果, 在停用詞表中增加了更多對(duì)文本特征沒有任何貢獻(xiàn)的字詞, 將最終形成的停用詞表用于清洗摘要和知乎回答。
利用Python 程序進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)分析的具體過程如下: 第一, 通過調(diào)用Gensim 庫下的Models 模塊中的Word2vec 類, 對(duì)清洗后的中國知網(wǎng)摘要所形成的語料庫進(jìn)行訓(xùn)練; 第二, 通過調(diào)用Gensim 庫下的Models 模塊中的Word2vec 類, 對(duì)清洗后的知乎回答所形成的語料庫進(jìn)行訓(xùn)練。
為了使兩個(gè)語料庫下的訓(xùn)練結(jié)果具有可比性,在訓(xùn)練模型的程序設(shè)計(jì)時(shí), 使Word2Vec()的超參設(shè)置保持一致, 例如, sg = 0, 表明算法選擇為CBOW 模型, min_count= 2, 這使得頻率低于2 的詞語在模型訓(xùn)練時(shí)會(huì)被忽略; vector_size= 100, 這表明每個(gè)詞語的輸出詞向量為100 維; window= 5,即窗口大小為5, 這使得當(dāng)前詞與預(yù)測(cè)詞之間的最大距離為5; workers = 1, 這表明訓(xùn)練模型在單一線程下進(jìn)行。
4.2 大數(shù)據(jù)關(guān)注熱點(diǎn)比較分析結(jié)果和討論
通過Word2vec 模型訓(xùn)練而學(xué)習(xí)得到的詞語向量是稠密的向量, 詞語之間的相似性是利用余弦相似度進(jìn)行測(cè)量, 相似性能夠反映詞語在語義上的差異。在學(xué)習(xí)出來的詞語向量空間中, 與某個(gè)詞語聚集在一起的詞語在語義上相似性大, 例如, 與“大數(shù)據(jù)” 最相似的詞語反映了語義上與“大數(shù)據(jù)”最相似的詞語, 也就是說, 每當(dāng)提到大數(shù)據(jù)時(shí), 更可能也提到這些詞語, 從而使得這些詞語具有代表性并成為大數(shù)據(jù)的關(guān)注熱點(diǎn)。在對(duì)中國知網(wǎng)文獻(xiàn)摘要進(jìn)行Word2vec 模型訓(xùn)練后, 共計(jì)得到17 935個(gè)詞語, 每個(gè)詞語的維度為100 維。在對(duì)知乎回答進(jìn)行Word2vec 模型訓(xùn)練后, 共計(jì)得到11 424個(gè)詞語,每個(gè)詞語的維度為100 維。本文將結(jié)合最相似詞語分析對(duì)學(xué)術(shù)平臺(tái)和社會(huì)化問答平臺(tái)的關(guān)注熱點(diǎn)進(jìn)行比較。
4.2.1 與“大數(shù)據(jù)” 最相似的前20 個(gè)詞語的比較
表2 顯示了中國知網(wǎng)文獻(xiàn)摘要與知乎回答中與“大數(shù)據(jù)” 最相似的前20 個(gè)詞語。
從表2 可以看出, 學(xué)術(shù)界和實(shí)踐界在大數(shù)據(jù)關(guān)注熱點(diǎn)上存在差異。從表2 的左半部可以看出, 學(xué)術(shù)界的研究焦點(diǎn)集中在大數(shù)據(jù)的數(shù)據(jù)挖掘、數(shù)據(jù)分析、技術(shù)、剖析、應(yīng)用領(lǐng)域、內(nèi)涵、數(shù)據(jù)管理等,與大數(shù)據(jù)最相似的詞語顯得學(xué)術(shù)化和規(guī)范化。確實(shí),關(guān)于大數(shù)據(jù)的數(shù)據(jù)挖掘、數(shù)據(jù)分析、技術(shù)等, 官思發(fā)等[23] 從大數(shù)據(jù)驅(qū)動(dòng)科學(xué)萌芽、大數(shù)據(jù)分析方法以及分析即服務(wù)3 個(gè)方面入手, 探討了國內(nèi)外大數(shù)據(jù)分析研究的現(xiàn)狀。研究結(jié)果表明, 在大數(shù)據(jù)分析領(lǐng)域存在專業(yè)分析工具匱乏、數(shù)據(jù)建模、數(shù)據(jù)存儲(chǔ)、資源調(diào)度以及弱可用性這五大重要問題, 同時(shí)針對(duì)以上問題, 還提出了研發(fā)大數(shù)據(jù)分析平臺(tái)、優(yōu)化數(shù)據(jù)分析模型、部署云存儲(chǔ)技術(shù)、彈性調(diào)度資源以及提升數(shù)據(jù)可用性這5 個(gè)解決方法。邢云菲等[24] 使用時(shí)空大數(shù)據(jù)挖掘技術(shù), 以“天和核心艙發(fā)射” 話題為例, 基于知識(shí)圖譜理論探究了社交網(wǎng)絡(luò)中的輿情演化模式與規(guī)律。研究結(jié)果表明, 輿情主體的不同屬性反映了多聯(lián)的關(guān)系模式, 時(shí)間序列的不同顯著影響社交網(wǎng)絡(luò)輿情主體在空間上的關(guān)系。關(guān)于大數(shù)據(jù)技術(shù), 孟秀麗等[25] 探討了大數(shù)據(jù)技術(shù)對(duì)眾包物流平臺(tái)及其接包方?jīng)Q策的影響。研究結(jié)果表明, 服務(wù)價(jià)格正向影響服務(wù)平臺(tái)和接包方的質(zhì)量控制水平與大數(shù)據(jù)技術(shù)水平; 采取大數(shù)據(jù)技術(shù)策略的服務(wù)平臺(tái), 平臺(tái)自身的質(zhì)量控制水平會(huì)得到提高, 而對(duì)于接包方而言, 其質(zhì)量控制水平不受大數(shù)據(jù)技術(shù)策略的影響。楊曉剛等[26] 探究了一種基于大數(shù)據(jù)技術(shù)的用戶小數(shù)據(jù)管理模式。研究結(jié)果表明, 大數(shù)據(jù)技術(shù)和傳統(tǒng)數(shù)據(jù)管理技術(shù)的結(jié)合有助于更加高效地管理小數(shù)據(jù), 大大提升了面向用戶個(gè)體的信息服務(wù)質(zhì)量。
從表2 的右半部分可以看出, 實(shí)踐界的大數(shù)據(jù)關(guān)注熱點(diǎn)集中在大數(shù)據(jù)的概念和概述上, 如層面、概念、理解、體現(xiàn)、定性、意義、基石、概述、洞悉, 并試圖探究大數(shù)據(jù)技術(shù)的應(yīng)用, 如實(shí)踐、軟件產(chǎn)品、深入人心, 實(shí)踐界也比較關(guān)注大數(shù)據(jù)的發(fā)展, 如新一輪、大數(shù)據(jù)時(shí)代。
4.2.2 與“數(shù)據(jù)” 最相似的前20 個(gè)詞語的比較分析
對(duì)中國知網(wǎng)文獻(xiàn)摘要和知乎回答進(jìn)行詞頻統(tǒng)計(jì), 前10 個(gè)高頻詞如表3 所示。
詞頻在一定程度上能反映關(guān)注焦點(diǎn), 但是, 詞頻并不能反映文本語義信息?;诒恚常?“數(shù)據(jù)” 是同時(shí)在中國知網(wǎng)文獻(xiàn)摘要和知乎回答中除“大數(shù)據(jù)” 外頻次最高的詞語。作為表2 的補(bǔ)充, 表4 顯示了與“數(shù)據(jù)” 最相似的前20 個(gè)詞語。
從表4 左半部分可以看出, 在中國知網(wǎng)文獻(xiàn)摘要中, 數(shù)據(jù)與數(shù)據(jù)類型密切相關(guān), 如結(jié)構(gòu)化、異構(gòu)、龐雜、格式。數(shù)據(jù)還與數(shù)據(jù)的處理與分析關(guān)聯(lián)密切, 如整理、收集、清洗、采集、儲(chǔ)存、獲取、整合, 反映了學(xué)術(shù)界聚焦數(shù)據(jù)分析研究以推動(dòng)數(shù)據(jù)價(jià)值的實(shí)現(xiàn)。關(guān)于數(shù)據(jù)分析與價(jià)值, 張俊瑞等[27]分析了商業(yè)大數(shù)據(jù), 探究了大數(shù)據(jù)對(duì)數(shù)據(jù)資產(chǎn)合理估值的作用, 進(jìn)一步完善了數(shù)據(jù)交易市場(chǎng)的基礎(chǔ)設(shè)施建設(shè)。張冬等[28] 通過分析主流媒體疫情信息數(shù)據(jù)探究了新冠疫情網(wǎng)絡(luò)輿情數(shù)據(jù)中網(wǎng)民情緒波動(dòng)、關(guān)注度與主流媒體華語引導(dǎo)之間的關(guān)系, 具體方法是通過對(duì)這些數(shù)據(jù)進(jìn)行情感分析及可視化, 分析結(jié)果表明, 主流媒體的報(bào)道對(duì)網(wǎng)民情緒緩解有積極作用。
從表4 右半部分可以看出, 在知乎回答中, 數(shù)據(jù)與數(shù)據(jù)處理有關(guān)聯(lián), 如提取、存儲(chǔ)空間、駕馭、流轉(zhuǎn), 說明在社會(huì)化問答平臺(tái)中, 數(shù)據(jù)處理成為關(guān)注的焦點(diǎn)。數(shù)據(jù)還與數(shù)據(jù)的體量有關(guān)聯(lián), 如體量、速度、龐大、幾何級(jí)數(shù)、大小。此外, 社會(huì)化問答平臺(tái)還試圖探究數(shù)據(jù)的性質(zhì), 如來源、類型、種類、數(shù)據(jù)類型、可變性、多種多樣。
4.3 大數(shù)據(jù)詞嵌入概貌比較分析結(jié)果和討論
4.3.1 詞嵌入概貌的可視化
在進(jìn)行詞轉(zhuǎn)向量建模時(shí), 維度設(shè)置為100, 因此, 基于中國知網(wǎng)文獻(xiàn)摘要訓(xùn)練的17 935個(gè)詞語的向量和基于知乎回答訓(xùn)練的11 424個(gè)詞語的向量都是100 維。例如, 下面是基于中國知網(wǎng)文獻(xiàn)摘要訓(xùn)練的模型中詞語“大數(shù)據(jù)” 100 維的值。
與詞語“大數(shù)據(jù)” 的向量維度類似, 所有詞語的向量維度都是100 維。詞向量可視化可以更直觀地展現(xiàn)出學(xué)術(shù)平臺(tái)和社會(huì)化問答平臺(tái)在大數(shù)據(jù)詞嵌入概貌上的差異。在對(duì)這兩個(gè)平臺(tái)的詞嵌入進(jìn)行可視化之前, 需要分別將基于中國知網(wǎng)文獻(xiàn)摘要訓(xùn)練的17 935個(gè)詞語和基于知乎回答訓(xùn)練的11 424個(gè)詞語進(jìn)行降維處理。具體可以利用t-SNE(t-distrib?uted Stochastic Neighbor Dmbedding)算法。t-SNE 是一種用于降維的機(jī)器學(xué)習(xí)算法, 主要用于將高維數(shù)據(jù)可視化展示。它可以將高維數(shù)據(jù)降為二維或者三維這種低維數(shù)據(jù), 并在低維空間里保留了原始數(shù)據(jù)的局部特征, 使得高維空間數(shù)據(jù)中距離相近的點(diǎn)轉(zhuǎn)換到低維中仍然相近, 從而能在可視化時(shí)直觀地展現(xiàn)出來[29] 。Scikit-learn, 也稱為Sklearn, 是Py?thon 的一個(gè)第三方庫, 集成了許多經(jīng)典的機(jī)器學(xué)習(xí)算法[30] 。Sklearn.manifold 是Scikit-learn 庫下的一個(gè)子模塊, 它提供了多種降維方法, t-SNE 就是其中之一, t-SNE 在對(duì)高維數(shù)據(jù)降維的同時(shí)保留了數(shù)據(jù)的局部結(jié)構(gòu)和特征[31] 。通過調(diào)用t-SNE 的Fit_transform()方法, 將訓(xùn)練模型中的所有詞語從100維降到2 維。例如, 基于中國知網(wǎng)文獻(xiàn)摘要訓(xùn)練的模型中, 詞語“大數(shù)據(jù)” 降維后的向量值如下:
array([-68.00372,-0.3688781],dtype=float32)
再利用Matplotlib.pyplot 模塊編寫Python 程序,將降維后的數(shù)據(jù)進(jìn)行可視化顯示。對(duì)于中國知網(wǎng)文獻(xiàn)摘要訓(xùn)練模型中的17 935個(gè)詞語, 將每個(gè)詞語的二維值的第一個(gè)值設(shè)為x, 將第二個(gè)值設(shè)為y。由于該數(shù)據(jù)集體量較大, 數(shù)據(jù)點(diǎn)比較密集, 所以在設(shè)置詞語的顯示時(shí), 為了保證詞語不重疊以及可視化的美觀性, 只能顯示少量詞語。考慮到前面針對(duì)“大數(shù)據(jù)”“數(shù)據(jù)” 這兩個(gè)詞進(jìn)行了比較, 因此,先設(shè)定顯示這兩個(gè)詞, 然后, 設(shè)定從17 935個(gè)詞語中隨機(jī)選?。玻?個(gè)詞語, 這樣, 一共顯示25 個(gè)詞語, 生成的圖如圖1 所示。對(duì)于知乎回答訓(xùn)練模型中的11 424個(gè)詞語, 進(jìn)行類似的處理, 生成的圖如圖2 所示。
4.3.2可視化比較分析
圖1 和圖2 中的點(diǎn)分布反映了詞語之間的相似度, 每個(gè)點(diǎn)代表1 個(gè)詞語, 數(shù)據(jù)點(diǎn)密集程度越高,表明相似的詞語越多, 反之, 表明相似的詞語較少。從圖的形狀上來看, 圖1 和圖2 有著明顯的差異。在圖1 中, 詞語集中分布在圖形的中間, 圖1 的形狀好似一個(gè)傾斜的矩形。在圖2 中, 中間的空白表明兩邊的詞語存在較大的距離, 相似度小, 圖2 的形狀好似一個(gè)向左傾斜的U 型。
從“大數(shù)據(jù)” “數(shù)據(jù)” 兩個(gè)詞語在圖中所處的位置來看, 圖1 和圖2 有著明顯的差異。在圖1 中,“大數(shù)據(jù)” 和“數(shù)據(jù)” 都分布在圖的左側(cè), “大數(shù)據(jù)” 在圖的上方, “數(shù)據(jù)” 在圖的下方, 且“大數(shù)據(jù)” 與“數(shù)據(jù)” 距離較遠(yuǎn), 說明這兩個(gè)詞語相似度較小, 它們的周圍都遍布著較多的點(diǎn), 表明各自擁有較多相似的詞語。在圖2 中, “大數(shù)據(jù)” 和“數(shù)據(jù)” 都處在U 型左線條的高處, 并且這兩個(gè)詞語的距離較近, 表明這兩個(gè)詞語的相似度較高, 在它們的周圍都遍布著較多的點(diǎn), 表明各自擁有較多相似的詞語。此外, U 型線右線條上聚集著更多的點(diǎn), “大數(shù)據(jù)” “數(shù)據(jù)” 兩個(gè)詞語與U 型線右線條上的點(diǎn)中間存在一個(gè)空白區(qū)域, 這表明沒有詞語在中間發(fā)揮直接連接作用。
圖1 和圖2 是分別基于中國知網(wǎng)文獻(xiàn)摘要和知乎回答兩個(gè)語料庫訓(xùn)練的模型, 在對(duì)詞語的向量降維后進(jìn)行可視化顯示而生成的, 它們的差異直接反映了大數(shù)據(jù)詞嵌入概貌在學(xué)術(shù)平臺(tái)和社會(huì)化問答平臺(tái)上存在的整體差異。為了更好地探究哪些詞語具有相似性和哪些詞語不具有相似性, 可以更改隨機(jī)種子的狀態(tài), 反復(fù)執(zhí)行Python 代碼, 則會(huì)隨機(jī)抽樣得到不同的數(shù)據(jù)以展現(xiàn)不同的詞語, 從而進(jìn)一步顯示在我國學(xué)術(shù)平臺(tái)和社會(huì)化問答平臺(tái)上大數(shù)據(jù)相關(guān)詞語分布上的差異。
5結(jié)語
有理由認(rèn)為, 中國知網(wǎng)平臺(tái)中大數(shù)據(jù)的中文文獻(xiàn)能夠反映我國學(xué)術(shù)界的聲音, 知乎平臺(tái)中大數(shù)據(jù)主題下主流問題的回答能夠反映社會(huì)化問答平臺(tái)的聲音。本研究創(chuàng)新地利用Word2vec 神經(jīng)網(wǎng)絡(luò)詞嵌入方法, 結(jié)合最相似詞語分析對(duì)學(xué)術(shù)平臺(tái)和社會(huì)化問答平臺(tái)的大數(shù)據(jù)關(guān)注熱點(diǎn)進(jìn)行了比較, 利用降維和可視化方法, 對(duì)兩個(gè)平臺(tái)詞語的詞嵌入概貌進(jìn)行了比較, 研究結(jié)果展現(xiàn)了學(xué)術(shù)平臺(tái)和社會(huì)化問答平臺(tái)在大數(shù)據(jù)方面的差異。未來可以從以下方面開展更多的研究: 第一, 本研究結(jié)合學(xué)術(shù)平臺(tái)和社會(huì)化問答平臺(tái)對(duì)大數(shù)據(jù)進(jìn)行了比較分析, 未來可以結(jié)合更多平臺(tái)對(duì)大數(shù)據(jù)進(jìn)行比較分析。第二, 大數(shù)據(jù)研究起源于國外, 未來可利用Word2vec 對(duì)國內(nèi)外學(xué)者所做的大數(shù)據(jù)研究進(jìn)行比較分析。第三, 大數(shù)據(jù)推動(dòng)了數(shù)據(jù)驅(qū)動(dòng)的人工智能的快速發(fā)展, 數(shù)據(jù)驅(qū)動(dòng)的人工智能研究和實(shí)踐正在經(jīng)歷從以模型為中心向以數(shù)據(jù)為中心的轉(zhuǎn)移, 未來可結(jié)合這個(gè)轉(zhuǎn)移更多探討大數(shù)據(jù)的資源特征。