亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)字人文知識生產(chǎn)特征

        2022-04-12 08:28:00林世華譚富強
        出版科學 2022年2期
        關(guān)鍵詞:數(shù)字人文

        林世華 譚富強

        [摘 要] 研究提出一種基于word2vec和變分自編碼器(VAE)相結(jié)合的wordVAE數(shù)字人文知識生產(chǎn)特征挖掘方法。以數(shù)字人文研究成果(CSSCI期刊論文)和相關(guān)書籍著作為研究對象,對其知識生產(chǎn)特征進行實證研究。研究顯示:從期刊文獻的研究結(jié)果看,數(shù)字人文知識生產(chǎn)特征主要有知識生產(chǎn)結(jié)構(gòu)化與邊界模糊化并存、跨學科合作化;以書籍的研究結(jié)果看,數(shù)字人文知識生產(chǎn)特征主要有主題凝聚性、視野廣闊性。

        [關(guān)鍵詞] 數(shù)字人文 知識生產(chǎn)特征 wordVAE 范式轉(zhuǎn)變

        [中圖分類號] G237 [文獻標識碼] A [文章編號] 1009-5853 (2022) 02-0057-10

        Research on the Characteristics of Digital Humanistic Knowledge Based on Natural Language Processing

        Lin Shihua Tan Fuqiang

        (School of Media and Communication, Shenzhen University, Shenzhen, 518060)(Institute for Cultural Industries Shenzhen University, Shenzhen, 518060)

        [Abstract] The paper proposes a wordVAE digital humanities knowledge production feature mining method based on the combination of word2vec and Variational Auto-Encoder (VAE). The study conducts an empirical research on the characteristics of knowledge production taking digital humanities research results (CSSCI Journal Papers) and related books as research objects. The research shows that:in terms of the research results of Journal Papers, the main characteristics of digital humanities knowledge production are the coexistence of knowledge production structure and boundary blurring, and interdisciplinary collaboration. In terms of the research results of books, the main characteristics are thematic cohesiveness and broad horizons.

        [Key words] Digital humanities Knowledge production characteristics WordVAE Paradigm shift

        1 問題緣起

        當下,人類已然進入數(shù)字人文時代,知識和信息的邊界越發(fā)模糊,二者本身已經(jīng)不再成為制約人類知識增長的關(guān)鍵因素。多渠道獲取海量知識的途徑將成為推動知識發(fā)展的重要手段,然而如何在便捷的知識獲取渠道下完成對信息與知識的再加工成為數(shù)字人文時代人類所面臨的重大問題之一。自施賴布曼(Schreibman)等人正式提出“數(shù)字人文”這一概念后,其本身所具備的計算機科學與人文學科的交叉屬性使得數(shù)字人文作為新興研究領(lǐng)域越發(fā)受到學界重視[1]。目前,學界關(guān)于數(shù)字人文知識生產(chǎn)的研究主要集中于以下幾個方面:一是基于知識網(wǎng)絡的數(shù)字人文領(lǐng)域的知識網(wǎng)絡演化研究。知識網(wǎng)絡概念源自心理學[2],于20世紀80年代末被引入中國[3],美國科學基金會認為知識網(wǎng)絡是由專家、信息和知識三者構(gòu)成的凝聚體[4]。中國學者趙蓉英將知識網(wǎng)絡看作由“節(jié)點”和“邊”關(guān)聯(lián)所構(gòu)成的網(wǎng)絡化知識體系[5]。依據(jù)上述對知識網(wǎng)絡的定義,不少學者假定期刊、著作、學者以及文獻關(guān)鍵詞為知識網(wǎng)絡演進中的關(guān)鍵節(jié)點,將引用關(guān)系、共現(xiàn)關(guān)系假定為邊,進而力圖將現(xiàn)有數(shù)字人文的研究成果進行網(wǎng)絡化梳理,在對相關(guān)文獻進行取舍后,通過計算完成數(shù)字人文知識網(wǎng)絡演變機制以及相關(guān)路徑[6][7],在一定程度上回答了數(shù)字人文本位視角下的知識生產(chǎn)。二是基于圖書館知識服務模式的相關(guān)研究。因當今時代“互聯(lián)網(wǎng)+”的逐步興起,人們對信息的需求度及其需求方式都已發(fā)生轉(zhuǎn)變,在此背景下,傳統(tǒng)圖書館服務模式無法滿足人們尤其是數(shù)字人文學者的需求,圖書館數(shù)字技術(shù)普遍得到重視[8]。一些人文學者開始將目光聚焦于圖書館服務模式的研究[9],在專注圖書數(shù)字化保存的同時也開始關(guān)注到相應平臺的數(shù)字人文文本分析[10]。因此,圖書館在數(shù)字人文發(fā)展過程中扮演著重要角色,數(shù)字人文因圖書館獲得了新的發(fā)展機遇,兩者互嵌的模式引發(fā)了相應的知識生產(chǎn),推進了相關(guān)學術(shù)研究[11]。有學者對數(shù)字人文與圖書館的知識生產(chǎn)關(guān)系進行了辯證看待:一方面,館藏文本的數(shù)字化豐富圖書館的知識服務;另一方面,大量數(shù)字化文本的生產(chǎn)將促使人們對其進行知識挖掘、知識組織與開發(fā)[12]。一言以蔽之,數(shù)字人文以其新技術(shù)提升了圖書館的知識服務內(nèi)涵與層次,而其所側(cè)重的文獻資源數(shù)字化儲藏方式則為用戶提供起一套有價值的研究內(nèi)容以及據(jù)此而研發(fā)出的科學數(shù)據(jù)挖掘方式[13]。此外,周建新和譚富強以曼海姆的知識社會學作為理論視角分析了數(shù)字人文的知識生產(chǎn)屬性特征,指出數(shù)字人文的知識生產(chǎn)屬性具有多重聯(lián)動特征[14],從而在一定程度上探索了數(shù)字人文的知識生產(chǎn)特性問題。

        綜上所述,學界對數(shù)字人文知識生產(chǎn)的相關(guān)研究取得了相應成果,但也存在以下不足之處:第一,既往研究側(cè)重于對數(shù)字人文知識網(wǎng)絡演化的研究,對數(shù)字人文的知識生產(chǎn)缺乏研究;第二,既往研究主要討論了數(shù)字人文知識生產(chǎn)的相關(guān)節(jié)點與邊界,但對數(shù)字人文知識生產(chǎn)的影響因素及其排列機制缺乏相應的解釋力;第三,既往研究主要立足于圖書館與數(shù)字人文關(guān)系,在一定程度上忽視了數(shù)字人文本體研究;第四,既往研究缺乏足夠的科學性與嚴謹性,這主要表現(xiàn)在數(shù)字人文的相關(guān)研究缺乏足夠的科學衡量標準,并對數(shù)字人文現(xiàn)象缺乏深刻理解;第五,既往研究缺乏對數(shù)字人文知識生產(chǎn)屬性的分析,這將導致對數(shù)字人文知識生產(chǎn)缺乏理論認識。

        鑒于此,本研究將以既往數(shù)字人文研究論文和圖書著作為研究數(shù)據(jù),通過搭建word2vec與變分自編碼器(VAE)相組合的wordVAE數(shù)字人文知識生產(chǎn)挖掘方法來分析近年來數(shù)字人文研究成果的知識生產(chǎn)特征,以深化對數(shù)字人文知識生產(chǎn)及其屬性的相關(guān)認識。

        2 基于wordVAE的數(shù)字人文知識生產(chǎn)實證研究

        2.1 研究數(shù)據(jù)

        本文是基于既往數(shù)字人文研究成果與數(shù)字人文圖書著作而進行的自然語言處理研究,旨在揭示數(shù)字人文知識生產(chǎn)及其屬性特征。因而依據(jù)研究需要,首先,收集了題目、關(guān)鍵詞以及研究主題等層面包含數(shù)字人文知識生產(chǎn)的相關(guān)研究論文共計600篇;其次,收集了國內(nèi)翻譯的數(shù)字人文著作,具體為《數(shù)字人文:改變知識創(chuàng)新與分享的游戲規(guī)則》以及《數(shù)字人文:數(shù)字時代的知識與批判》。

        2.2 研究工具

        由于研究需要,本次研究采用自然語言處理中的詞向量word2vec(Word to Vector)為研究工具。首先,詞向量最早由辛頓(Hinton)[15]提出,而本吉奧(Bengio)等人[16]則建立了最早的詞向量原模型,該方法主要可分為獨熱表示(One-hot Representation)[17]與分布式表示(Distributed Representation)[18]兩種,前者表示方法簡單,但語義表達能力有限,后者是基于前者的推進模型,在一定程度上彌補了前者語義表達能力有限以及矩陣存在稀疏冗長等問題[19]。其次,word2vec工具是由谷歌(Google)于2013年推出的自然語言處理工具,內(nèi)部算法則借鑒了神經(jīng)網(wǎng)絡語言模型(Neural Network Language Model, NNLM)的基本理念。其優(yōu)點在于通過給定的語料庫可將文本中的詞映射至實數(shù)向量空間,而該實數(shù)向量空間由多個維度組成,每一維度都能夠代表相應的淺層語義特征[20]。最后,成熟的word2vec工具主要分為連續(xù)的詞袋模型(Continuous Bag-of-Words)以及連續(xù)的跳字模型(Continious skip-gram)兩種模型,因本次研究的訓練集數(shù)量較大,因而采用通過輸入一個詞便有望測量出上下相關(guān)詞的跳字模型,該模型具有語義精確且在大型訓練集中表現(xiàn)優(yōu)異的特色[21][22]。

        變分自編碼器(Variational Auto-Encoder,VAE)。變分自編碼器是自動編碼器的升級版本,其結(jié)構(gòu)跟自動編碼器較為類似,也由編碼器和解碼器構(gòu)成。相比于自編碼器,VAE更傾向于數(shù)據(jù)生成。正因如此,研究將word2vec的詞向量結(jié)果輸入VAE,從而獲得更好的分類結(jié)果。VAE的最大特點是模仿自動編碼機的學習預測機制,在可測函數(shù)之間進行編碼、解碼[23]。變分自編碼器是基于無監(jiān)督學習的深度生成網(wǎng)絡模型,由金馬(Kingma)和威林(Welling)在2014年提出,該模型的思想源自傳統(tǒng)的自編碼器網(wǎng)絡模型(auto encoder,AE),與傳統(tǒng)的自編碼器不同的是,VAE考慮了隱變量的分布誤差,并用相對熵(也稱為KL散度,Kullback-Leibler divergence)來表示。KL 散度觀察聯(lián)合分布差距公式為[24]:

        公式1

        該模型還引入了貝葉斯公式從而構(gòu)建起變分自編碼器的核心公式:

        公式2

        需要說明的是,本研究使用的VAE模型使用了隨機梯度下降法來訓練網(wǎng)絡參數(shù),該方法的公式如下所示:

        公式3

        2.3 研究流程

        本次研究具體分為四個流程:首先是原始語料庫預處理,其次是實詞抽取,再次是模型運行,最后為研究結(jié)果呈現(xiàn)。詳細研究流程如圖1所示:

        針對期刊雜志與圖書著作的特性,本研究以自然語言處理技術(shù)針對二者的關(guān)鍵詞進行分析,具體流程如下。

        首先,原始語料庫預處理。理論而言,本研究所使用的研究技術(shù)適用于多個語種的文本,但由于本次研究所用的是中文文本,因而在研究開始之前需要進行原始語料庫的處理,并去除與本次研究無關(guān)的停用詞以避免相應的噪聲干擾,從而提升話題的精密度。此外,為提升后期抽取實詞,進而對相應的詞性標注,本次研究所使用的詞性標注工具為自然語言處理與信息檢索共享平臺(NLPIR)漢語分詞系統(tǒng)[25]。

        其次,實詞抽取。期刊雜志文獻的關(guān)鍵詞通常是由相關(guān)作者給出,具備準確率高、貼合文章主題、全文精簡指引等特征,因而以往研究通常采用關(guān)鍵詞抽取的辦法進行研究。但本次研究需要對所有資料進行全文檢驗,意在抽取文本中的名詞、動詞、形容詞以及副詞,因此需要采用較為經(jīng)典的關(guān)鍵詞權(quán)重計算公式(Term Frequency–Inverse DocumentFrequency, TF-IDF),通過計算所抽取詞匯的TF-IDF數(shù)值來過濾TF-IDF數(shù)值小于制定標準的詞匯,最終形成相應的實詞集合。TF-IDF計算公式為:

        公式4

        再次,模型運行。一是基于word2vec技術(shù)的實詞詞向量獲取。期刊雜志論文與數(shù)字人文圖書著作在一定程度上因主題聚焦而具備了共同屬性的同時也存在明顯聯(lián)系,這也是本研究的基礎(chǔ)。然而,事實上在通過初步研究后發(fā)現(xiàn)二者依然具有相當差異,這主要體現(xiàn)在期刊雜志論文專業(yè)詞匯較多,而數(shù)字人文圖書著作口語化更為顯著。本研究認為盡管二者之間有一定的差異,存在關(guān)鍵詞不對應的情況,且同一術(shù)語在期刊雜志論文與圖書著作中的表達方式不同,但由于本次研究具備主題凝練性特征,術(shù)語的使用環(huán)境也較為相似,因此以詞匯的上下文信息判斷可以較好地解決該問題。二是通過關(guān)鍵詞詞向量聚類的計算獲取主題及主題向量表示。本次研究采取基于X―means的關(guān)鍵詞詞向量聚類,該算法是基于K―means算法的改進版本,其優(yōu)勢在于運算之初無需制定聚類數(shù)量K,只需制定聚類數(shù)量K的取值范圍即可,如此一來,算法將通過計算在制定范圍內(nèi)尋找最后聚類數(shù)量K,以實現(xiàn)優(yōu)化下的關(guān)鍵詞詞向量聚類劃分。三是基于詞向量計算主題詞的語義相似度。語義相似度是由兩個實詞合集之間的余弦距離所決定。本次研究采用改良后的夾角余弦公式來計算主題詞C1與C2的語義相似度,假設(shè)C1主題下具有以下合集{W11,W12,… , W1m},而C2主題詞下的實詞合集為{W21,W22,…, W2n},且m>n。夾角余弦計算公式為:

        公式5

        最后,變分自編碼器運行。借鑒聶錦燃等人的研究,編碼器和生成器是變分自編碼器的主要組成部分,均采用循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks)結(jié)構(gòu)。將門控循環(huán)單元(Gated recurrent unit,GRU)作為RNN的基本單元[26]。內(nèi)容編碼器作為提取源端輸入文本的內(nèi)容。內(nèi)容的表征z,且將標簽向量L,作為線性變換的基礎(chǔ),隨后使用RNN-GRU作為生成器,從而輸出數(shù)字人文研究的知識特征分類結(jié)果。

        通過以上流程(見圖2),本研究得到了相關(guān)的研究結(jié)果。

        3 研究結(jié)果

        3.1 基于數(shù)字人文圖書著作的“數(shù)字人文知識生產(chǎn)”特征結(jié)果

        將數(shù)字人文的圖書著作為文本,在使用python中的詞向量技術(shù)后,得出詞云圖(見圖3),可更加直觀地展示出圖書著作的主題強度。

        在主題強度分析基礎(chǔ)上,研究結(jié)果展現(xiàn)出了相關(guān)主題詞及其詞頻。為使得結(jié)果更加清晰化,本研究摘取排名前十的主題詞及其詞頻以供展示(見表1)。

        在本次研究中,以“數(shù)字人文知識生產(chǎn)”為主題的圖書著作中,“數(shù)字”一詞占據(jù)該表榜首,詞頻高達6288;緊隨其次的便是“人文”一詞,詞頻高達5714。由此可見,在圖書著作中大多數(shù)使用者對數(shù)字人文知識生產(chǎn)的重點感受為“數(shù)字”,而該詞的相關(guān)詞匯則是數(shù)字化、數(shù)字平臺等,這在一定程度上說明數(shù)字人文的屬性重在數(shù)字化。

        3.2 基于期刊雜志論文的“數(shù)字人文”特征結(jié)果

        本次以“數(shù)字人文”的相關(guān)期刊雜志文獻共計600篇,其詞云圖為圖4。

        同樣,本研究依據(jù)主題強度分析,研究結(jié)果也展現(xiàn)了基于期刊雜志論文的數(shù)字人文知識生產(chǎn)主題詞及其詞頻。研究摘錄排名前十的主題詞及其詞頻以供展示(見表2)。

        在本次研究中,期刊雜志論文中的“數(shù)字人文知識生產(chǎn)”主題詞及其詞頻與基于數(shù)字人文圖書著作的“數(shù)字人文知識生產(chǎn)”主題詞及其詞頻表在主題詞遴選上差異不大,僅為排名第八的主題詞有所差異,而前者有“分析”主題,后者有“進行”主題詞。這在一定程度上表現(xiàn)了期刊雜志論文的術(shù)語用詞與圖書著作的用詞存在一定差異,但其他主題詞變化不大,這在一定程度上反映了學者們的用詞慣習以及用語環(huán)境具有高度的凝聚性傾向。而在詞頻方面,單純從數(shù)字看二者差異不大,但細探之下二者具有相當差異:首先,從文本字數(shù)看,基于數(shù)字人文圖書著作的文本約29萬余字,而基于期刊論文的相關(guān)文本則約有4萬余字,兩者的主題詞及其詞頻在各自文本中所占據(jù)的比例具有相當差異。然而,盡管各自文本的字數(shù)差異如此之大,但在主題詞聚斂方面表現(xiàn)出了相當一致性,這在一定程度上說明數(shù)字人文知識生產(chǎn)的主題具有高度凝聚性以及強烈的趨同性特征。

        3.3 基于word2vec技術(shù)的主題詞及其下屬實詞的關(guān)聯(lián)距離

        本研究基于word2vec技術(shù)的文本挖掘,重點在于測算主題詞及其下屬實詞的關(guān)聯(lián)距離,該距離的測量能夠在一定程度上反映出主題詞對文本的概括性以及實詞集合挖掘的優(yōu)良特征。

        基于word2vec技術(shù)可以測算出主題詞及其下屬實詞的關(guān)聯(lián)距離,摘取排名前五關(guān)鍵詞及其合集內(nèi)排名前三的實詞,見表3。

        3.4 基于wordVAE的數(shù)字人文知識生產(chǎn)特征結(jié)果

        研究根據(jù)wordVAE的模型結(jié)構(gòu)框架,運算wordVAE方法,從而得到了近年來數(shù)字人文研究的知識生產(chǎn)矩陣,并使用譜聚類的方式對相關(guān)數(shù)據(jù)進行繪圖,在選取前排名前50的運算結(jié)果后,繪制圖5。

        根據(jù)wordVAE的譜聚類結(jié)果圖可知,當前的數(shù)字人文研究主要形成了四個結(jié)構(gòu)中心,分別是“數(shù)字人文研究”節(jié)點中心、“圖書館”節(jié)點中心、“人文研究”節(jié)點中心以及“數(shù)字化”節(jié)點研究中心。其中“數(shù)字人文研究”節(jié)點突顯出了人文思想挖掘、數(shù)字技術(shù)、人文建設(shè)、圖書館基礎(chǔ)、文本分析等知識生產(chǎn)特性;“圖書館”節(jié)點中心則含有人文反思、信息管理、具體知識、人文思想等知識生產(chǎn)特性;“人文研究”節(jié)點突顯出了古文分析、事件關(guān)系(抽取)、文本共現(xiàn)等知識生產(chǎn)特性。

        由此可見,數(shù)字人文相關(guān)研究所呈現(xiàn)出“人文”與“數(shù)字化”并存的局面,且相應的研究成果具有一定的交叉特性,這樣顯示出數(shù)字人文研究的知識生產(chǎn)特征具有典型的跨學科合作特點。相關(guān)分析見下節(jié)。

        3.5 研究結(jié)論

        基于自然語言處理的詞向量文本挖掘研究結(jié)束,通過主題詞挖掘及其頻次以及主題詞及其下屬實詞關(guān)聯(lián)距離等內(nèi)容的研判,研究認為基于期刊論文的研究結(jié)果突顯出以下特征。

        (1)數(shù)字人文知識生產(chǎn)結(jié)構(gòu)化與邊界模糊化并存。以中文核心期刊為文本的結(jié)果突顯出相當?shù)臄?shù)字人文知識生產(chǎn)結(jié)構(gòu)化與邊界模糊化,體現(xiàn)為重視數(shù)字人文知識生產(chǎn)的宏觀層面和微觀層面知識生產(chǎn)結(jié)構(gòu)問題。就“數(shù)字人文知識生產(chǎn)”的宏觀層面而言,基于word2vec技術(shù)的主題詞挖掘表明:首先,數(shù)字人文知識生產(chǎn)結(jié)構(gòu)化主要體現(xiàn)在“人文”“數(shù)字”“學科”“協(xié)作”“跨學科”等維度。這些具有強烈結(jié)構(gòu)化的主題詞一方面顯示了數(shù)字人文知識生產(chǎn)具有相對的獨立結(jié)構(gòu)化,另一方面又明確出數(shù)字人文的知識生產(chǎn)具有相對的關(guān)聯(lián)程度,這在一定程度上使得其具備知識生產(chǎn)結(jié)構(gòu)化特征的同時又具有知識生產(chǎn)邊界模糊化。其次,數(shù)字人文知識生產(chǎn)邊界模糊化主要表征為在結(jié)構(gòu)化基礎(chǔ)之上而呈現(xiàn)出的結(jié)構(gòu)邊界模糊化?!翱鐚W科”“協(xié)作”等主題詞的出現(xiàn),表明數(shù)字人文知識生產(chǎn)在一定程度上突破了傳統(tǒng)的知識生產(chǎn)模式,達到既基于學科優(yōu)勢,又融合了信息化技術(shù)的多體表征。最后,以數(shù)字人文的跨界知識生產(chǎn)而言,其與圖書館的知識生產(chǎn)模式在一定程度上具有一致性,圖書館一方面可支持數(shù)字人文的核心需要,另一方面也能從技術(shù)與數(shù)據(jù)庫方面給予數(shù)字人文發(fā)展支持。總而言之,數(shù)字人文與圖書館的合作關(guān)系模型表明二者之間存在諸多共同點[27]。

        (2)數(shù)字人文知識生產(chǎn)跨學科合作化。上段中論述了數(shù)字人文的跨學科屬性會導致一定程度上的數(shù)字人文知識生產(chǎn)邊界模糊化,在本段中講論了數(shù)字人文知識生產(chǎn)跨學科的合作化問題。首先,數(shù)字人文知識生產(chǎn)跨學科合作源于解決實際問題。隨著科技進步,當下的知識生產(chǎn)模式已然發(fā)生著深刻變革,數(shù)字人文作為新興崛起的知識生產(chǎn)中心,其顯著特征是“知識生產(chǎn)更多地源于實際問題,因而具有天然的跨學科屬性”[28]。源于現(xiàn)實需要進而引發(fā)的跨學科合作化現(xiàn)象在當下已是屢見不鮮,數(shù)字人文領(lǐng)域的跨學科合作研究已有眾包項目實戰(zhàn)案例,將其他學術(shù)群體引入數(shù)字人文研究中,不僅在知識生產(chǎn)上提供了學科協(xié)作化生產(chǎn),也為數(shù)字人文領(lǐng)域研究與其他學科、公眾群體建立了緊密聯(lián)系[29]。這種融合大眾為學術(shù)研究工作的方式,用戶與數(shù)字人文機構(gòu)的跨學科甚至是跨領(lǐng)域合作化知識生產(chǎn)機制將能夠營造出雙贏局面[30]。

        (3)數(shù)字人文知識生產(chǎn)的凝聚性?;凇皵?shù)字人文知識生產(chǎn)”為主題的數(shù)字人文圖書著作突顯出了明確的主題凝聚性。首先,數(shù)字人文知識生產(chǎn)的凝聚性體現(xiàn)在檢索方式的變化。數(shù)字人文的出現(xiàn)打破了以往學習時間、地點以及資源利用等固有方式,使得原本較為散亂的學習資料變得更為凝聚,通過相關(guān)的關(guān)鍵詞掃描以及數(shù)字化搜索便能夠提供所需要的關(guān)鍵信息,這無疑給予研究者們相當?shù)姆奖阈?,提高了知識搜尋的精準度,從而為使用數(shù)字人文方法進行知識生產(chǎn)提供了保障。其次,數(shù)字人文知識生產(chǎn)的凝聚性還體現(xiàn)在數(shù)字人文方法改變了知識生產(chǎn)者的思維方式。信息搜集方式的轉(zhuǎn)變在無形之中影響了平臺使用的思考方式與路徑,從文本挖掘中的“技術(shù)”“信息”“分析”等主題詞可以明確出數(shù)字人文的出現(xiàn)改變了數(shù)據(jù)文本的加工方式,文本信息加工過程的革新使得原本基于人腦的加工思維變?yōu)橐约夹g(shù)為中心的加工,這種改變能夠有效影響到知識生產(chǎn)者的思維[31],處理方式的變化在一定程度上更利于知識生產(chǎn)者專注某一知識點的鉆研。

        (4)數(shù)字人文知識生產(chǎn)的視野廣闊性。數(shù)字人文的圖書著作突顯出了一定的視野廣闊性,可從其文本挖掘的主題詞“知識”“資源”“數(shù)據(jù)”“圖書館”等信息中推斷,數(shù)字人文能夠引發(fā)使用者對其評價為“知識”一類的宏觀詞匯,其下屬相近詞為“知識創(chuàng)造”“知識視野”“知識生產(chǎn)”等。下屬詞匯表明,數(shù)字人文的圖書著作在努力闡述出數(shù)字人文知識生產(chǎn)的廣闊性,它模糊了學科知識生產(chǎn)的相關(guān)邊界,進而將目光投向于更為宏大的維度,亦即說數(shù)字人文在引導相關(guān)使用者將目光投射得更遠、更為廣闊。數(shù)字人文知識生產(chǎn)的視野廣闊性是基于其數(shù)據(jù)資源足夠宏大的基礎(chǔ)以及推薦算法的優(yōu)越性而得以完成。因而也可以說,數(shù)字人文知識生產(chǎn)的視野廣闊性是基于宏大數(shù)據(jù)資源上的優(yōu)秀推薦算法而得以實現(xiàn),數(shù)據(jù)資源的宏大以及推薦算法的優(yōu)良將在一定程度上影響到數(shù)字人文知識生產(chǎn)的相關(guān)屬性。

        4 結(jié) 語

        本研究以“數(shù)字人文知識生產(chǎn)”為主題,通過建構(gòu)起wordVAE數(shù)字人文知識生產(chǎn)特征研究方法,以既往關(guān)于數(shù)字人文期刊論文和著作為文本資料,回答了數(shù)字人文知識生產(chǎn)屬性的特征的問題,結(jié)果表明:首先,數(shù)字人文的知識生產(chǎn)屬性主要有知識生產(chǎn)結(jié)構(gòu)化與邊界模糊化并存、跨學科合作化;其次,數(shù)字人文知識生產(chǎn)屬性主要有主題凝聚性、視野廣闊性。數(shù)字人文知識生產(chǎn)作為一種具有恒久活力的話題,尚需更多的實證研究去發(fā)掘它的優(yōu)劣勢,從而為人類知識進步做出貢獻。

        盡管本研究使用wordVAE方法作為數(shù)字人文知識生產(chǎn)特征研究方法,但其依舊存在一定的局限性:首先,對文本語料庫的預先分析尤其是個別停用詞匯的處理上,仍存在進一步提升的可能;其次,word2vec詞向量具備兩個文本處理模型,研究僅采用了連續(xù)的跳字模型,進而相關(guān)主題詞的挖掘與呈現(xiàn)可能與連續(xù)的詞袋模型所產(chǎn)生的主題詞存在一定差異;最后,數(shù)字人文知識生產(chǎn)屬性的結(jié)果是基于一定的思維推導而得以呈現(xiàn),因此理論上存在因?qū)W者思維差異而概括出不同屬性特征的局限。

        注 釋

        [1]許鑫,陳路遙,楊佳穎.數(shù)字人文研究領(lǐng)域的知識網(wǎng)絡演化:基于題錄信息和引文上下文的關(guān)鍵詞共詞分析[J].情報學報,2019,38(3):322-334

        [2]趙蓉英. 知識網(wǎng)絡及其應用[M]. 北京: 北京圖書館出版社,2007: 8-58

        [3]舒剛.企業(yè)知識管理新熱點:知識網(wǎng)絡[J]:科技創(chuàng)業(yè)月刊,2008, 21(9): 14-15

        [4]Sharda R, Frankwick G L, Turetken O. Group knowledge networks:A framework and an implementation[J]. Information SystemsFrontiers, 1999, 1(3): 221-239

        [5]趙蓉英. 知識網(wǎng)絡研究(Ⅱ)——知識網(wǎng)絡的概念、內(nèi)涵和特征[J]. 情報學報, 2007, 26(3): 470-476

        [6]柯平, 宮平. 數(shù)字人文研究演化路徑與熱點領(lǐng)域分析[J]. 中國圖書館學報, 2016, 42(6): 13-30

        [7]高瑾. 數(shù)字人文學科結(jié)構(gòu)研究的回顧與探索[J]. 圖書館論壇, 2017, 37(1): 1-9

        [8]朱娜. 數(shù)字人文的興起及圖書館的角色[J]. 圖書館, 2016(12): 17-22+48

        [9]Fay E, Nyhan J. Webbs on the Web: libraries, digital humanities and collaboration[J]. Library review, 2015,64(1/2):118-134

        [10]黃鈺新, 王遠智. 嵌入數(shù)字人文過程的圖書館科研數(shù)據(jù)服務研究[J]. 情報資料工作, 2017, 38(6): 84-89

        [11]王新雨. 面向數(shù)字人文的圖書館知識服務模式研究[J]. 圖書館工作與研究, 2019, 1(8): 71-76

        [12]張詩博. “數(shù)字人文” 背景下的圖書館知識服務[J]. 晉圖學刊, 2013 (5): 40-42+53

        [13]周晨. 國際數(shù)字人文研究特征與知識結(jié)構(gòu)[J]. 圖書館論壇, 2017, 37(4): 1-8

        [14]周建新,譚富強.數(shù)字人文知識生產(chǎn)的屬性和分析框架:基于曼海姆知識社會學的考察[J].江海學刊,2020(5):130-135+255

        [15]Hinton G E . Learning distributed representations of concepts.[C]// Eighth Conference of the CognitiveScience Society,1986:12

        [16]BengioY,SchwenkH,Senecal J S,et al. Neural probabilistic language models[M]//Innovations in Machine Learning.Springer Berlin Heidelberg,2006:137-186

        [17]Mathew J, RadhakrishnanD.An FIR digital filter using one-hot coded residue representation[C]// SignalProcessing Conference, 2000, European.IEEE, 2008:1-4

        [18]MikolovT,ChenK,CorradoG,et al.Efficient Estimation of Word Representations in Vector Space[J].arXivpreprint arXiv:1301.3781,2013

        [19]龔麗娟,王昊,張紫玄,等. Word2Vec對海關(guān)報關(guān)商品文本特征降維效果分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020(4)(Z1):89-100

        [20]Zheng XQ, Chen HY, Xu TY. Deep learning for Chinese word segmentation and POS tagging[C]// Proceedings of 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, WA, USA. 2013: 647-657

        [21]范并思. 推動社科情報的學科建設(shè)[J]. 情報資料工作, 2006(5): 12-14

        [22]張聿忠. 走進新世紀的社科信息理論與實踐研究: 歷史的回眸與展望[J]. 情報資料工作, 2000(1):2-6

        [23]劉佳琦,李陽.基于信息最大化變分自編碼器的孿生神經(jīng)主題模型[J].計算機應用與軟件,2020,37(9):118-125

        [24]郭奉琦,孟凡榮,王志曉.基于變分自編碼器的謠言立場分類算法[J].計算機工程,2022,48(2):99-105

        [25]徐紅姣,曾文,張運良.基于Word2Vec的論文和專利主題關(guān)聯(lián)演化分析方法研究[J].情報雜志, 2018, 37(12): 36-42

        [26]聶錦燃,魏蛟龍,唐祖平.基于變分自編碼器的無監(jiān)督文本風格轉(zhuǎn)換[J].中文信息學報,2020,34(07):79-88

        [27]Sula C A. Digital humanities and libraries: A conceptual model[J]. Journal of Library Administration, 2013, 53(1): 10-26

        [28]陳洪捷.知識生產(chǎn)模式的轉(zhuǎn)變與博士質(zhì)量的危機[J].高等教育研究,2010,31(1):57-63

        [29]Terras M. Crowdsourcing in the Digital Humanities[M]// A New Companion to Digital Humanities.John Wiley & Sons, Ltd, 2015:420-438

        [30]賀晨芝,張磊.圖書館數(shù)字人文眾包項目實踐[J].圖書館論壇,2020,40(5):3-9

        [31]戎思淼.量子思維對大數(shù)據(jù)背景下信息決策新思路的啟示[J].科技進步與對策,2016,33(8):6-10

        (收稿日期:2022-01-13)

        [作者簡介] 林世華,深圳大學傳播學院2019級博士生;譚富強,深圳大學文化產(chǎn)業(yè)研究院2020級博士生。

        猜你喜歡
        數(shù)字人文
        數(shù)字人文項目合作平臺分析
        圖書館未來的技術(shù)應用與發(fā)展
        圖書與情報(2017年6期)2018-03-12 19:13:41
        數(shù)據(jù)驅(qū)動下的高校圖書館數(shù)字人文服務研究
        圖書與情報(2017年5期)2018-01-02 11:24:34
        漢傳佛教文化遺產(chǎn)數(shù)字化建設(shè)現(xiàn)狀調(diào)查與特征分析
        數(shù)字人文2011—2016年研究綜述
        數(shù)字人文時代公共圖書館經(jīng)典閱讀推廣研究
        數(shù)字人文時代公共圖書館經(jīng)典閱讀推廣研究
        數(shù)字人文目標下圖書館信息服務模式研究
        數(shù)字學術(shù)與公眾科學:數(shù)字圖書館新生態(tài)
        跨界與融合:全球視野下的數(shù)字人文
        精品一区二区三区牛牛| 亚洲 欧美 激情 小说 另类| 久久天天躁狠狠躁夜夜av浪潮| 日本亚洲精品一区二区三| 日本一区二区三区视频国产| 国产成人精品无码免费看| 人人妻人人澡人人爽欧美一区| 在线观看人成视频免费| 无码人妻一区二区三区在线| 中文无码伦av中文字幕| 亚洲av无码成人网站在线观看| 伊人久久大香线蕉综合影院首页 | 最近中文字幕免费完整版| 久久久国产精品免费a片3d| 97久久人人超碰超碰窝窝| 亚洲综合色自拍一区| 97一区二区国产好的精华液| 国产国拍亚洲精品永久不卡| 亚洲精品自拍视频在线观看 | 亚洲V在线激情| 精品视频在线观看一区二区三区| 国产精品国产三级国产在线观| 有码中文字幕一区二区| 亚洲综合中文一区二区| 高清国产国产精品三级国产av| 日本一区二区三区视频免费在线| 中文字幕国产精品一二三四五区 | 精品淑女少妇av久久免费| 被群cao的合不拢腿h纯肉视频| 亚洲av成人一区二区三区在线观看| 中文字幕午夜AV福利片| 亚洲区一区二区三区四| 女主播啪啪大秀免费观看| 亚州终合人妖一区二区三区| 久久不见久久见www日本网| 国产精品vⅰdeoxxxx国产| 国产山东熟女48嗷嗷叫| 日韩精品中文字幕 一区| 亚洲综合有码中文字幕| 亚洲视频一区二区三区视频| 国内免费高清在线观看|