亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人文社科專題數(shù)據庫建設的主題選擇研究

        2019-02-25 03:14:45劉雨農吳柯燁權昭瑄
        現(xiàn)代情報 2019年12期

        劉雨農 吳柯燁 權昭瑄

        摘要:[目的/意義]探索一種融入數(shù)據驅動思維的人文社科專題數(shù)據庫建設主題選擇方法,為相關主體在建庫主題的遴選、比較和確定等工作提供決策參考。[方法/過程]從政策、用戶兩個維度出發(fā),提出基于政策文本與檢索數(shù)據的人文社科專題數(shù)據庫主題篩選框架。以Fulink平臺為例,基于政策文本LDA主題分類建模和檢索數(shù)據的詞頻統(tǒng)計歸類,確定專題數(shù)據庫建設備選主題,最后通過比對篩選將主題進行分類。[結果/結論]本文構建的主題選擇框架,能夠有效提升相關主題選擇工作的全面性、準確性、科學性,為人文社科專題數(shù)據庫建設的項目規(guī)劃等提供了良好的思路。

        關鍵詞:人文社科;專題數(shù)據庫;主題選擇;LDA

        DOl: 10.3969/j .issn .1008 -0821 .2019 .12 .002

        [中圖分類號] G250. 74 [文獻標識碼]A [文童編號]1008-0821 ( 2019) 12-0011-08

        專題數(shù)據庫是針對用戶信息需求,對某一專題的信息進行收集、分析、處理、存儲并按一定的標準和規(guī)范將其數(shù)字化的信息資源庫。在人文社科領域,專題數(shù)據庫已成為各學科數(shù)字化轉型的基礎性工作,在數(shù)據資源開發(fā)、科研內容創(chuàng)新、科研方法支持等方面提供了有力支持。近年來,在國家政策支持和現(xiàn)實需求的雙重作用下,我國建成了一系列人文社科專題數(shù)據庫,涉及哲學、歷史、藝術、文化等眾多科學領域,有力地促進了人文遺產和社會記錄的保存與傳播,也有效支持了相關學科的研究工作。

        主題的選擇與論證是專題數(shù)據庫建設的起點和開始,決定了專題數(shù)據庫的建設方向和建設效果。然而,過去人文社科專題數(shù)據庫的主題選擇方式主要依靠建庫主體的資源優(yōu)勢和決策者的經驗判斷,難以全面回應多方面的需求,進而限制了專題數(shù)據庫的功能實現(xiàn)以及進一步的服務延伸。為此,本文提出了一種新的主題選擇框架,通過對客觀文本和行為數(shù)據的科學分析支持人文社科專題數(shù)據庫建設,以期避免主觀性、單一化決策帶來的弊端,提高專題數(shù)據庫主題選擇的全面性、準確性與科學性。

        1 文獻綜述

        隨著數(shù)字人文和社會計算的推進,人文社科領域對信息資源保障提出了更高的要求,專題數(shù)據庫建設的理論和方法成為信息管理及相關人文社科學科的重要研究話題。目前,雖然針對主題選擇的專門性研究仍不多見,但在數(shù)據庫建設的綜合性研究中已被大量提及,主要涉及以下3個方面:

        1.1 專題數(shù)據庫主題分布描述

        經過多年發(fā)展,國內外建立起大量人文社科專題數(shù)據庫,主題涵蓋了歷史、經濟、文化等眾多學科。部分學者對現(xiàn)有數(shù)據庫主體分布進行了調查研究,如劉青等以州為單位,調查了美國特色數(shù)據庫建設狀況,并將其主題歸納為政治與政策、軍事和戰(zhàn)爭、法律和法規(guī)、經濟與就業(yè)等9個方面,同時指出,文化娛樂類專題數(shù)據庫在全美州立圖書館中占比最大[1]。何小月等將專題數(shù)據庫主題內容劃分為學科專業(yè)、地域特色、名人特藏等7個方面,同時選擇了中美20所高校的自建數(shù)據庫進行橫向對比,指出國內高校在學科專業(yè)和地域特色類數(shù)據庫建設存在短板[2]。鄂麗君將調查樣本擴展至我國所有“211工程”高校后得出了相反結論,認為學科特色和學校特色資源項目占總數(shù)比超過60%[3]。此外,陳欽明等同樣針對不同性質的專題數(shù)據庫主題分布進行了歸納[4-5]。這些研究盡管在專題數(shù)據庫主題劃分視角和劃分粒度上存在差別,但是有助于明確人文社科專題數(shù)據庫的建設現(xiàn)狀和定位,能夠為其他專題數(shù)據庫建設主題選擇提供參考。

        1.2 專題數(shù)據庫主題選擇基本原則

        對于人文社科專題數(shù)據庫在實際建庫過程中產生的各類問題,部分學者從建庫流程的角度進行探討,認為主題選擇的不科學、不合理是這些問題產生的重要原因之一,并以此提出了一系列主題選擇原則。王昶認為,專題數(shù)據庫建設是一項長期工作,主題選擇應注重長期規(guī)劃性和可持續(xù)性,以長遠眼光和思路,根據現(xiàn)有條件選擇符合實際狀況的、成體系的特色主題[6]。劉青等提出主題內容廣博化原則,認為專題數(shù)據庫主題劃分和內容深度上盡管存在差異,但應通過統(tǒng)一平臺的整合,為用戶提供全方位多系統(tǒng)的資源和信息服務[1]。徐大平等認為地方特色專題數(shù)據庫的主題選擇重點在于突出地方文化特色、體現(xiàn)地方文獻特色,并提出了成系列小主題選擇、科學性和實用性3個原則[7]。總體來說,這些原則可歸納為3點:第一,以需求為導向,能夠切實滿足用戶長時期的信息資源需求;第二,突出特色性,力求避免在內容上同其他數(shù)據庫的交叉和重復;第三,具有可操作性,根據信息資源體量和人力、資金等實際情況確定主題選擇粒度,保證數(shù)據庫質量。

        1.3 專題數(shù)據庫主題選擇方法與過程

        相對于專題數(shù)據庫主題選擇原則,已有研究很少涉及具體的主題選擇方法。王昶[6]提出了專題數(shù)據庫主題選擇策劃工作的3步流程:第一,開展廣泛的調查研究,初定主題選擇方向;第二,開展專家評議和讀者調研,確定主題選擇的可行性;第三,考察建庫資源與技術水平,明確主題選擇內容。任航等[8]對長春市若干高等院校的在校藝術生進行了問卷調查,通過需求情況確定數(shù)據庫主題選擇??梢钥吹剑斍皩n}數(shù)據庫的主題選擇方法依然以專家論證和問卷調查等方式為主,最終決策仍然依賴于決策者的經驗判斷。

        綜上所述,已有研究充分重視了主題選擇對專題數(shù)據庫建設的重要作用,為專題數(shù)據庫主題選擇明確了原則和方向,提供了良好的思路和方法。然而,現(xiàn)有研究成果依然存在一定不足:第一,研究大多集中于宏觀層面的原則性方針,在數(shù)據庫建設的實際過程中很難轉化為直接的、具體的行動方案,可操作性存在一定限制;第二,方法上依然以用戶調查和專家咨詢?yōu)橹鳎瑤в休^強的主觀性,難以保證決策的科學性;第三,并未考慮不同性質的主體在數(shù)據庫建設中的動機差異。在大數(shù)據、智慧數(shù)據的背景下,面對高速增長的數(shù)據存量和復雜化的信息需求,應在原則性、經驗性探索的基礎上,充分發(fā)揮數(shù)據分析等技術和方法的重要作用,為數(shù)據庫建設主體的建庫決策提供支持和參考。

        2 人文社科專題數(shù)據庫建設主題選擇模型構建

        本文通過前期多地、多主體訪談調研,確定了專題數(shù)據庫國家需求和用戶需求的主方向,并以客觀數(shù)據為基礎,構建人文社科專題數(shù)據庫主題選擇框架,以期為相關決策提供支持。模型建構路線如圖1所示:第一,從政務公開平臺中,獲取國家相關部門政策文本全文,并進行文本預處理。同時從信息服務商檢索系統(tǒng)后臺獲取特定時間段的用戶檢索數(shù)據,篩選有效檢索語句;第二,提取政策文本中的實意性名詞,并進行LDA主題建模,形成若干備選主題;第三,將采集到的檢索語句分別提取關鍵詞,利用BM25算法同機構已有文獻資源進行匹配,通過排序和歸納篩選出備選主題詞;第四,綜合比對結果,對結果進行分類。

        2.1 需求調研與分析

        滿足不同層面、不同對象的信息需求是數(shù)據庫長期建設運營和持續(xù)發(fā)展的核心動力。對于對象群體復雜、數(shù)據形式多樣的人文社科領域,專題數(shù)據庫的主題選擇更應以需求為導向。不同性質的建庫主體由于機構職能、服務對象等方面存在差異.專題數(shù)據庫產品的需求內容和重心也存在顯著區(qū)分。如公共機構建設的專題數(shù)據庫普遍重視公共需求,為國家發(fā)展戰(zhàn)略和公益事業(yè)提供支持;而商業(yè)性專題數(shù)據庫則更加側重于通過滿足用戶使用需求來擴大市場,實現(xiàn)自身盈利和發(fā)展。對此,本文將人文社科專題數(shù)據庫需求歸納為兩個層面:

        第一,宏觀層面的國家社會需求。人文社科專題數(shù)據庫通常需要承擔部分國家、社會層面的宏觀需求,如為國家重大戰(zhàn)略部署提供數(shù)據支撐、對非物質文化遺產進行保護與搶救、弘揚優(yōu)秀歷史文化傳統(tǒng)、紀念特殊事件等。尤其是對于公共性質的建庫主體,更應在宏觀戰(zhàn)略需求的背景下,有針對性地規(guī)劃專題數(shù)據庫建設,為相關政策提供有效支持。

        政策文本是政府相關部門為了實現(xiàn)特定要求,以權威形式頒布的文件,是國家、社會需求最直觀的表達和體現(xiàn)。在政府政務全面公開、自然語言處理技術快速發(fā)展的背景下,大批量政策文本的開放獲取和深度挖掘已具備可行性。對此,本文通過挖掘政策文本內容,實現(xiàn)宏觀需求的分析。

        第二,微觀層面的用戶使用需求。作為人文社科專題數(shù)據庫的直接使用者,用戶的需求相對具體和明確。如科研人員對特定專題領域資料的集中需求,公眾對某一主題知識的學習興趣等。但由于不同用戶使用動機、需求粒度、表達方式等存在差異,此類需求較為多元,調查和識別的難度較高。

        對于用戶使用需求,過去一般采取問卷、訪談等方式,在調查對象規(guī)模和代表性上存在一定限制。當前,由于人文社科領域的信息爆炸式增長和碎片化分布加深了信息的獲取難度,搜索引擎逐步成為用戶對于信息搜尋的主要工具。對此,本文以搜索引擎中的檢索記錄衡量用戶的實際需求。

        2.2 基于LDA的政策主題生成

        LDA(Latent Dirichlet Allocation,隱含狄利克雷函數(shù))模型是一種文檔生成模型,即包含詞、主題、文檔三層結構的貝葉斯模型。該模型通過將文檔一詞匯矩陣轉化為文檔一主題矩陣和主題一詞匯矩陣來實現(xiàn)主題的識別與生成[11]。作為一種非監(jiān)督的機器學習方法,LDA在大規(guī)模文檔中能夠有效實現(xiàn)主題識別任務。簡要來說,LDA主題生成過程可分為3個步驟,首先對語料庫中的每一篇文檔,從主題分布中抽取一個主題,其次對所抽取主題中所對應的詞分布中抽取一個詞語,最后充分闡述過程直至實現(xiàn)所有文檔和所有單詞的遍歷。如圖2表示。

        2.3 基于BM25算法的資源匹配

        特定主題的人文社科專題數(shù)據庫建設必須以充足的信息資源作為基礎保障。尤其是對于檢索關鍵詞,必須同資源儲備進行匹配,判斷其是否具備專題開發(fā)條件。本文基于BM25算法,通過計算、排序每個檢索詞的BM25得分,實現(xiàn)主題關鍵詞進行二次篩選。

        BM25是二元獨立模型的拓展形式之一。作為一種相關性排序函數(shù),BM25模型根據計算給定檢索詞與文檔的相關性得分并累加,進而對匹配文檔進行排序。該模型由于算法設計較為靈活,被廣泛應用于搜索引擎當中。范晨熙等通過將BM25模型與開源搜索框架Lucene結合,建立了BM25相關度搜索模型[9],何喜軍等利用該模型,構建了專利轉讓索引庫[10]。本文基于理論框架,對該模型進行了拓展與應用。

        首先,對提取到的關鍵詞進行語素解析,產生語素qi。對于所有館藏資源的摘要文檔D,計算每個語素Qi與D的相關性評分。最后,將Qi相對于D的相關性得分加權并求和,最終得到Q與D的相關性得分。評分公式為[10]:

        3 實證研究

        3.1 數(shù)據來源與實驗環(huán)境

        本文從可測量角度出發(fā),以福建省為例,通過政策文本衡量國家需求,通過檢索數(shù)據反應用戶需求。由于國家各級政策發(fā)布機關單位數(shù)量龐大,內容寬泛,本文僅選取國家文化與旅游部、福建省文化與旅游廳近5年發(fā)布的各類政策文本作為實證樣本,通過爬蟲工具獲取原始文本后,手工剔除人事變動、財務審計等管理類文件,得到有效政策文本1 756條。檢索數(shù)據從FuLink(福建省高校數(shù)字圖書館)平臺后臺獲取,按照檢索排行降序順序,選擇人文社科相關的檢索條目,共計10 000條,部分記錄如表1。FULink平臺包含福建省53所成員館,擁有完善的在線系統(tǒng)和穩(wěn)定的訪問流量,檢索數(shù)據能夠反映出省域內用戶的一般需求。

        本文實驗環(huán)境為Inter Core i7 - 7700HQ、2. 8GHz、8線程CPU,8GB內容容量的PC機,家用標準版64位Windowsl0操作系統(tǒng)。集成開發(fā)環(huán)境為JetBrains PyChrm,部分功能基于Python語言編程,所用工具包包括Jieba、Numpy、Pandas、Nltk、Sklearn、Matplotlib等。

        3.2 政策文本數(shù)據處理

        LDA模型需要對分類數(shù)量進行預先設定。該數(shù)值一般采用困惑度確定,計算公式如下:

        其中z、d分別指訓練過的主題和測試集的各篇文檔。分母Ⅳ是測試集中出現(xiàn)的所有詞。一般來說,困惑度隨主題數(shù)K增加而下降。如圖3所示,通過計算,當K值取4時,困惑度曲線下降趨勢趨近于穩(wěn)定,此時K的取值為最佳數(shù)量。

        構建LDA模型以分析每一篇文章的話題分布,利用訓練完的模型將政策文本轉化為話題分布函數(shù),并將文本一主題向量與原文本合并,部分結果如圖4所示。

        最后,根據以上結果,輸出每個主題的前若干關鍵詞,并以窗口形式展示。最終結果如圖5-8所示。

        3.3 檢索記錄數(shù)據處理

        通過Fulink后臺,選擇2019年檢索記錄,將輸出結果按照詞頻排序,選擇檢索次數(shù)大于1 000的關鍵詞,并將非人文社科范疇的詞語剔除。最后,將檢索詞與資源庫各類文本文檔進行匹配,篩選出命中詞匯。部分結果如表2所示。

        不同于文本語料,檢索記錄多以單個檢索詞的形式表示,缺乏上下文語境,難以利用NLP技術進行主題識別。由于數(shù)據總量相對較少,因此本文選擇人工方式判斷檢索詞語義,并進行主題歸納。

        3.4 備選主題分類

        比對上述兩類主題分類結果,進行匯總、比對和分類,最終形成3類備選主題。

        1)理想型主題選擇:教育、互聯(lián)網與大數(shù)據

        通過比對,此類主題選擇內容同時出現(xiàn)在政策主題和檢索主題分類中。意味著在現(xiàn)有資源的基礎上,能夠同時響應國家和用戶需求,建議優(yōu)先作為專題數(shù)據庫建設主題。

        教育學與教育事業(yè)是人文社科領域的重要話題,大量職能部門均對教育事業(yè)發(fā)展進行了專門性部署,尤其是紅色教育、傳統(tǒng)文化教育、人文素養(yǎng)教育等方面近年來獲得了極大關注。在用戶層面,由于以高校圖書館聯(lián)盟為實證對象,用戶以高校學生為主,因此,數(shù)據庫建設主要回應以備考或個人發(fā)展為目的的需求。顯然,各類人文社科教育需要大量專門性文獻資料為支撐,因此專門性數(shù)據庫建設勢在必行。

        近年來,互聯(lián)網與大數(shù)據為人文社科領域帶來了巨大的變革,尤其是網絡安全、電子政務、數(shù)據資產等議題正在引起相關部門的高度重視。此外,大數(shù)據更是為人文社科領域的研究提供了新的契機和方法,從檢索數(shù)據來看,人文社科對于數(shù)據科學、編程語言、計算工具等方面的資料存在大量需求。

        2)政策導向型:非物質文化遺產、旅游

        此類主題選擇通常側重于公共性建庫主體,能夠有效回應國家政策要求,有助于發(fā)揮其公共文化服務等方面的職能。

        非物質文化遺產和旅游是人文社科專題數(shù)據庫的傳統(tǒng)主題選擇,從研究結果來看,非遺資源保護和旅游產業(yè)發(fā)展依然是當前文化及相關部門的工作重心,從中央到地方均有大量政策部署。在數(shù)據庫建設過程中,建庫主體可圍繞本地資源,進行針對性的數(shù)據采集與加工整理,著力打造出具有地方特色的文化品牌。同時,不斷拓展數(shù)據庫的開放程度,并開展宣傳推廣工作,進而服務于地方旅游產業(yè)。

        3)用戶導向型:文學、經濟學、語言

        此類主題選擇能夠反映用戶的現(xiàn)實需求,具有良好的市場前景,一般來說更加符合商業(yè)性的建庫主體性質,而對于高校、科研院所等實際科研需求也能做到有效回應。與政策導向不同,用戶需求更為多元,其影響因素也更加復雜。在本文的實證研究中,用戶需求更多地集中于在文學、經濟學和語言3類。其中文學作品相對于其他人文社科學術性資源來說,學科門檻較低,受眾面更廣。而經濟學原理和方法對包括社會學、管理學、國際關系在內的多種學科同樣實用,因此存在大量記錄。而語言方面的需求則以英語學習材料和工具書為主,這是由高校用戶對于等級考試、外文學術資源等硬性需求決定的。

        4 結語

        本文構建了一種人文社科專題數(shù)據庫建設的主題選擇模型,為專題數(shù)據庫的主題選擇提供了一種全新的思路和方法。相較于以經驗性判斷為主的常見模式,本文通過對政策文本和用戶訪問記錄進行深入挖掘和匹配,有助于進一步提高專題數(shù)據庫建設決策的科學性、實時性和前瞻性。

        需要注意的是,本模型面向人文社科專題數(shù)據庫建設的決策支持,希望通過多渠道大樣本的數(shù)據分析為專題數(shù)據庫的主題選擇工作提供科學有效的備選方案,這意味著該方法無法完全替代決策工作。專題數(shù)據庫建設是一項復雜、持久的工作,不同地區(qū)和不同性質的建庫主體均存在較大差別,也受到資金、技術、人員等因素的制約,建庫人員的經驗和價值判斷依然具有不可替代的作用。在專題數(shù)據庫的規(guī)劃和論證過程中必須緊密結合自身實際情況,因地制宜地開展數(shù)據庫建設工作,才能形成質量上成、功能完備、影響廣泛的數(shù)據庫產品。除主題選擇外,建庫方式、服務模式、推廣方法的選擇對專題數(shù)據庫的發(fā)展同樣具有重要影響。

        此外,本文實證研究部分初步驗證了模型的可行性,但在政策文本數(shù)量、館藏資源類型、用戶需求類型等方面仍存在進一步拓展和精細化的空間。在未來的研究中,可通過擴充數(shù)據源的廣度和粒度,進一步提高模型的適用性和有效性。

        參考文獻

        [1]劉青,高波.美國州立圖書館特色數(shù)據庫建設研究[J].圖書館,2017,(3):72-80.

        [2]何小月,雷錦怡,江翩翩,中美高校圖書館自建數(shù)據庫比較研究[J].圖書館學研究,2019,(6):40-48.

        [3]鄂麗君.高校圖書館特色館藏建設的現(xiàn)狀分析[J].圖書館建設,2009,( 12):19-23.

        [4]陳欽明.福建省高校圖書館自建閩臺特色數(shù)據庫現(xiàn)狀調查與分析[J].圖書館學研究,2018,(3):48-52.

        [5]孫瑾,軍隊檔案專題數(shù)據庫建設現(xiàn)狀及存在問題——兼論數(shù)據組織階段質量控制[J].檔案學研究,2013,(3):41-45.

        [6]王昶,自建數(shù)據庫選題策劃機制研究[J].圖書館學研究,2012,(6):41-43,27.

        [7]徐大平,郎菁,梁芬玲.地方特色專題數(shù)據庫選題若干問題研究——以陜西地區(qū)為例[J].情報雜志,2012,31 (2):174 -177.

        [8]任航,潘逸塵高校圖書館藝術教育主題服務內容、途徑與策略研究[J].情報科學,2018,36 (12):83-89

        [9]范晨熙,黃理燦,李雪利.基于Lucene的BM25模型的評分機制的研究[J].工業(yè)控制計算機,2013,26(3):78-79.

        [10]何喜軍,張婷婷,武玉英,等供需匹配視角下基于語義相似聚類的技術需求識別模型[J].系統(tǒng)工程理論與實踐,2019,39 (2):476-485.

        [11]張子振,儲煜桂,吳小蘭,基于LDA的多源文獻主題及其差異研究——以“機器學習”為例[J].情報科學,2019,37(6):108-112,150

        (責任編輯:郭沫含)

        收稿日期:2019-10-14

        基金項目:國家社會科學基金重大項目“人文社科專題數(shù)據庫建設規(guī)范化管理研究”(項目編號:18ZDA326)。

        作者簡介:劉雨農(1991-),男,博士研究生,研究方向:智慧城市、社會網絡。吳柯燁(1996-),男,碩士研究生,研究方向:自然語言處理。權昭瑄(1996-),男,碩士研究生,研究方向:金融大數(shù)據。

        一区二区三区日本视频| 福利一区视频| 亚洲无线码一区在线观看| 国产亚洲日本精品二区| 亚洲最大成人网站| 日本爽快片18禁免费看| 免费国产一级特黄aa大片在线| 日本一道高清在线一区二区 | 亚洲成av人片不卡无码| 中文字幕av无码一区二区三区| 国产精品国产三级在线高清观看| 日韩一区中文字幕在线| 国产无套中出学生姝| 国产精品久久国产三级国不卡顿| 国产主播在线 | 中文| 亚洲国产中文字幕九色| 亚洲精品无码精品mv在线观看| 国产成人av性色在线影院色戒 | 久草视频华人在线观看| 亚洲国产精品国自产拍性色| 亚洲av永久无码精品网址| 国产精品亚洲综合久久婷婷| 亚洲高清在线视频网站| 色视频网站一区二区三区| 中文字幕一区二区三区人妻少妇| 免费国产黄线在线播放| 日韩女优一区二区在线观看| 国模冰莲自慰肥美胞极品人体图 | 秋霞午夜无码鲁丝片午夜精品| 少妇高潮紧爽免费观看| 亚洲蜜臀av一区二区三区| 免费观看激色视频网站| 精品欧美久久99久久久另类专区| 国产在线视频一区二区三| 伊人久久大香线蕉av色婷婷色| 3344永久在线观看视频| 91精品人妻一区二区三区蜜臀| 中文字幕一区二区三区的| 国产熟女露脸大叫高潮| 久久久国产不卡一区二区| 久久99国产综合精品女同|