亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自動標引在研究院知識資源自建數(shù)據(jù)庫中的研究與應用

        2022-10-18 01:53:04向彩霞毛瑞琪趙曉媛北京航天長征科技信息研究所
        航天工業(yè)管理 2022年9期
        關(guān)鍵詞:數(shù)據(jù)庫資源

        向彩霞、毛瑞琪、趙曉媛 /北京航天長征科技信息研究所

        黃正軒 /正大夫國際管理顧問(北京)有限公司

        王愛武 /中國運載火箭技術(shù)研究院

        “十四五”期間,世界格局更趨復雜,航天發(fā)展作為戰(zhàn)略博弈的關(guān)鍵砝碼和經(jīng)濟增長的重要引擎,得到了世界各國的廣泛重視。隨著未來對航天產(chǎn)業(yè)持續(xù)加大投入,相應的知識資源也隨之增加,如何充分發(fā)揮知識資源的最大效能服務科研,是中國運載火箭技術(shù)研究院

        圖書館工作人員一直潛心研究和實踐的重大課題,將有效的知識資源加以記錄、整理、傳承下來,建成研究院特色數(shù)據(jù)庫。其中,最為關(guān)鍵的技術(shù)之一就是知識資源標引。筆者從知識資源的標引技術(shù)入手,結(jié)合知識資源管理工作,研究該項技術(shù)在研究院內(nèi)部知識資源自建數(shù)據(jù)庫中的研究與運用。以豐富航天一院知識資源管理,搭建內(nèi)部知識資源管理的信息平臺,促進科研生產(chǎn)模式轉(zhuǎn)型和高質(zhì)量發(fā)展。

        一、知識資源標引定義及發(fā)展優(yōu)勢

        1.定義

        知識資源標引是對文獻所涉及的主要內(nèi)容進行分析、選擇和描述,轉(zhuǎn)換成文獻特征標識的過程,文獻特征標識是對文獻進行再次組織排列的重要標記。其目的是將標引結(jié)果用于檢索,通過檢索將大量有用的信息提供給用戶使用,服務于項目和科研。標引的質(zhì)量和效率直接影響知識資源處理的質(zhì)量和進度、數(shù)據(jù)庫建設的規(guī)模,直接關(guān)系到檢索時的查準率和查全率。隨著全球化、信息化進程的加速,知識標引已廣泛應用于所有文獻、文檔、網(wǎng)頁信息等各類型信息,標引技術(shù)的發(fā)展已經(jīng)成為知識資源建設的重要標志。

        2.知識資源標引技術(shù)發(fā)展優(yōu)勢

        知識資源標引技術(shù)經(jīng)歷了從完全人工標引向自動標引的轉(zhuǎn)變。人工標引又稱手工標引,是將文獻主題分析和分析結(jié)果轉(zhuǎn)換成檢索標識的工作全部由標引人員完成的文獻標引模式。自動標引是利用計算機自動給能表達文本信息內(nèi)容的主題詞或關(guān)鍵詞的過程。自動標引技術(shù)按標引詞的出處,可劃為自動抽詞標引與自動賦詞標引兩大類。自動抽詞標引,由計算機系統(tǒng)自動抽取標引詞,保證是文本中的詞和短語,可以代表文本信息的主題內(nèi)容。自動賦詞標引是指從知識資源中查找受控詞表中的控制詞,選取能表示知識資源主題內(nèi)容的特定詞語的過程。目前,自動標引的研究主要集中于自動抽詞標引,而關(guān)鍵詞自動提取是自動抽詞中的一種識別片段或詞匯的自動化技術(shù)。

        相比于人工標引,自動標引技術(shù)的優(yōu)勢主要體現(xiàn)在處理速度高速、處理能力強大、穩(wěn)定性卓越、成本低廉。目前,自動標引發(fā)展成為知識資源主要的標引技術(shù)手段。中文自動標引的方法有很多種,各種標引方法各有優(yōu)勢又存在一定的局限性。筆者根據(jù)實現(xiàn)手段,主要從選詞標引、全文標引和關(guān)鍵詞標引3 種標引方式進行論述。

        二、 工作與實踐

        研究院圖書館至今已經(jīng)歷60 余年的建設與發(fā)展,是一座擁有導彈航天專業(yè)特色的科技圖書館,多年以來,通過開展資源服務、科技查新、專題檢索和文獻研究,積累了豐富的工作經(jīng)驗,為型號研制、科研生產(chǎn)、重大事項決策等工作提供了有效的服務與保障。其形成了大量的具有專業(yè)特色的內(nèi)部紙質(zhì)文件、內(nèi)部業(yè)務知識、圖紙、檔案、科技成果、標準、知識產(chǎn)權(quán)、多媒體資料、情報等內(nèi)部資源信息以及外購的知網(wǎng)、萬方、外文數(shù)據(jù)庫等外部資源信息。但是資源信息管理分散、開發(fā)利用不足、共享渠道不暢,形成了資源的信息孤島,需要建立一套完整的數(shù)據(jù)管理系統(tǒng)平臺進行資源的統(tǒng)一管理和利用,實現(xiàn)信息統(tǒng)一的查詢、獲取,助力研究院管理決策、科技創(chuàng)新和成果轉(zhuǎn)化管理,保障現(xiàn)有資源高水平、大規(guī)模創(chuàng)造與有效轉(zhuǎn)化運用,促進自主研發(fā)和創(chuàng)新驅(qū)動高質(zhì)量發(fā)展。

        研究院知識資源自建庫項目從2019 年開始策劃、調(diào)研準備,歷時3 年,通過知識資源標引數(shù)據(jù)平臺,完成27 個特色專題數(shù)據(jù)庫搭建,部署完成試應用,順利通過項目驗收進入推廣應用階段。該平臺的實施落地是研究院知識資源自動標引技術(shù)的實踐應用和技術(shù)創(chuàng)新,也是研究院內(nèi)部知識資源庫建設和推廣的重要里程碑,標志著研究院圖書館在知識資源建設方面的能力提升和技術(shù)進步。

        1.知識標引數(shù)據(jù)平臺

        圖書館于2000 年開始建設數(shù)字圖書館,2002年在內(nèi)網(wǎng)向全院用戶開放,其數(shù)據(jù)庫資源主要依賴于外部數(shù)據(jù)庫采集。經(jīng)過20 年的建設與發(fā)展,設有圖書館借閱、中國知網(wǎng)期刊、萬方博碩論文、外文數(shù)據(jù)庫、外文電子書、超星電子書、國家科技圖書、外文博碩論文、航天科技信息系統(tǒng)等九大數(shù)據(jù)庫。

        目前,本地數(shù)字文獻資源總量近87T,非本地資源60T,分別占比59%和41%,年用戶點擊量近千萬次。隨著自媒體技術(shù)的發(fā)展,為進一步提升研究院數(shù)字圖書館文獻服務能力,2019 年底,圖書館完成了掌上數(shù)字圖書館APP 的設計開發(fā)。2020年初上線,為全院讀者提供文獻資源服務,內(nèi)容包括館藏資源、中國知網(wǎng)、萬方數(shù)據(jù)、外文題錄、軍事書目、精品文化、特色資源等模塊。讀者可以利用碎片時間,充分發(fā)揮智能手機的互聯(lián)網(wǎng)優(yōu)勢提高工作和學習效率。

        基于用戶平臺的知識資源建設與發(fā)展,以及海量的沒有實現(xiàn)集中收集、標引和提供檢索利用的內(nèi)部有效知識資源現(xiàn)狀,研究院圖書館需要利用自動標引技術(shù)將以上資源進行整合建庫,開發(fā)并提供檢索應用。為此,經(jīng)過多方調(diào)研對比,圖書館與中國知網(wǎng)合作引入“STM 中文智能信息處理平臺”,搭建研究院知識資源底層數(shù)據(jù)基礎(chǔ)。

        2.用戶知識資源檢索行為分析

        基于中國知網(wǎng)知識資源總庫的用戶管理系統(tǒng)進行后臺統(tǒng)計分析,隨機抽取研究院院屬各單位2021 年間用戶檢索數(shù)據(jù)進行用戶檢索行為分析,通過用戶的檢索項確定知識資源的標引項,具體數(shù)據(jù)如圖1 所示。

        圖1 各類檢索方式占比

        用戶采取的檢索方式包括題名檢索、作者檢索、關(guān)鍵詞檢索、機構(gòu)檢索、摘要檢索、全文檢索及主題檢索7 種,檢索內(nèi)容基本包含了基礎(chǔ)的標引字段,大部分字段只需從知識資源內(nèi)直接提取。通過對比檢索方式,用戶采取主題檢索與全文檢索的方式,分別占比50%以及26%,用戶往往采取直觀的檢索方式進行知識資源的搜索,以快速獲取所需的知識資源,為自動標引的項目實施提供了支持。

        3.知識資源自動化標引方法研究

        為了實現(xiàn)知識資源自動化高效標引,最大程度減少人為操作,使知識資源及時發(fā)布并得到有效利用,需配合相關(guān)計算機輔助系統(tǒng)進行操作。自動標引一般針對關(guān)鍵詞或主題進行標引,通過從知識資源中提取出一組能最大程度上概括其內(nèi)容特征、可作為用戶檢索入口的關(guān)鍵性信息,用該組信息對知識資源進行標引,使用戶通過輸入關(guān)鍵信息檢索到該文檔的簡要信息。清華同方有限公司開發(fā)的“STM 中文智能信息處理平臺”可實現(xiàn)以上目標,配合“KBase 全文數(shù)據(jù)庫管理系統(tǒng)”“TPI信息資源建設與管理系統(tǒng)”,實現(xiàn)數(shù)據(jù)庫建設、資源上傳及發(fā)布、資源標引及使用一系列知識管理功能。

        通過建立數(shù)據(jù)庫的方式,確定標引字段并上傳數(shù)字知識資源,通過“STM 中文智能信息處理平臺”中的字符識別技術(shù),利用各種模式識別算法分析文字形態(tài)特征,判斷文字的標準編碼;按通用格式存儲為計算機的文本文件,實現(xiàn)讓計算機認字、文字自動輸入的過程。該技術(shù)已達到中文識別實用化成熟程度,準確性高。

        基于用戶行為分析、知網(wǎng)平臺功能情況,從選詞標引、全文標引和關(guān)鍵詞標引3 種標引方式對該平臺對知識資源自建庫自動標引工作需求的全覆蓋進行探索。

        一是選詞標引方式?;凇癝TM 中文智能信息處理平臺”,對可以直接引用知識資源的內(nèi)容作為標引內(nèi)容的題名字段、作者字段、機構(gòu)字段、時間字段、摘要字段。通過平臺的“選擇取詞”“畫框取詞”等方式,利用字符識別技術(shù)(OCR)對適量文字及段落文字進行識別認字并完成標引內(nèi)容的自動化填充,相較于人工輸入標引內(nèi)容,選詞標引更加高效。

        二是全文標引方式。全文標引若采用人工標引的方式,其難度難以想象,尤其是對于長篇的知識資源或文字信息不可采集的情況。全文標引唯一作用于全文檢索,該檢索方式始于20 世紀90 年代,最顯著的特點是提供對海量數(shù)據(jù)的管理與快速查詢,“文海撈針”是對全文檢索的形象描述。全文檢索的內(nèi)含主要體現(xiàn)為待檢索的源數(shù)據(jù)、檢索對象是全文,使用的檢索方式為針對全文匹配,檢索結(jié)果是全文信息,需要將知識資源內(nèi)所有文字內(nèi)容設置為標引字段。通過ORC 字符識別技術(shù),全文標引的難題迎刃而解。

        三是關(guān)鍵詞類標引方式。一般而言,知識資源中的關(guān)鍵詞是文獻核心內(nèi)容的濃縮與提煉,關(guān)鍵詞的標引對檢索質(zhì)量有至關(guān)重要的作用。從用戶的檢索習慣看,通過關(guān)鍵詞檢索的用戶僅有1%。導致這一現(xiàn)象的問題在于關(guān)鍵詞檢索必須確保檢索詞與關(guān)鍵詞之間的準確性,知識資源自帶關(guān)鍵詞由資源作者提供,數(shù)量較少,出現(xiàn)偏差會導致檢索反饋。為此,如何豐富關(guān)鍵詞一直是標引工作急需解決的問題,如通過人工標引的方式再次提取知識資源關(guān)鍵詞將大幅增加標引的難度,實現(xiàn)關(guān)鍵詞自動化標引。

        關(guān)鍵詞作為整篇知識資源的核心,一般在整篇文獻中的出現(xiàn)頻率占有很大比重,重復次數(shù)越高則越可能是知識資源的關(guān)鍵詞。為此,詞頻分析方法也成為了最常用的關(guān)鍵詞提取方式之一。如采取有效的技術(shù)手段將知識資源進行詞頻統(tǒng)計的話,則可以有效地將知識資源中出現(xiàn)頻率最多的詞語進行提取并篩選成為新關(guān)鍵詞?!癝TM 中文智能信息處理平臺”可有效解決這一問題。通過“STM 中文智能信息處理平臺”的自然語言處理引擎與智能文本挖掘引擎,充分利用中國知網(wǎng)海量語料資源以及全學科概念關(guān)系詞典,有效實現(xiàn)歧義切分和詞語辨識,實現(xiàn)“關(guān)鍵詞自動標引”功能。該功能可規(guī)定關(guān)鍵詞提取的數(shù)量、標引源、關(guān)鍵詞輸出字段,最終實現(xiàn)基于詞頻的關(guān)鍵詞自動標引。

        4.知識資源自動化標引流程

        一是知識資源數(shù)據(jù)庫的建立。利用“TPI 信息資源建設與管理系統(tǒng)”,根據(jù)知識資源類型建立相應數(shù)據(jù)庫,用于對知識資源進行整體分類。數(shù)據(jù)庫建立可依據(jù)知識資源類型或知識資源專業(yè)或?qū)n}進行個性化建設。

        二是標引字段的選取。數(shù)據(jù)庫建立過程中,需選取通用于該數(shù)據(jù)庫的標引字段,標引字段的選取可依據(jù)知識資源類型列舉的字段,也可自行編制標引字段的名稱、規(guī)定字段長度、設置是否必填。

        三是標引文本的導入。數(shù)據(jù)庫建立完畢后,向數(shù)據(jù)庫內(nèi)導入待標引文獻文本,文獻文本格式為PDF。

        四是基本標引字段的標引。數(shù)據(jù)庫建立完畢導入待標引知識資源后,通過“STM 中文智能信息處理平臺”對知識資源進行標引,待標引字段為建立數(shù)據(jù)庫過程中所選取的標引字段。選擇待標引字段后,利用系統(tǒng)自帶的取詞功能,在知識資源文本內(nèi)進行選取,通過ORC 識別后轉(zhuǎn)化為文字編碼并自動完成字段值填充。

        五是關(guān)鍵詞類字段的標引。關(guān)鍵詞自動提取需要利用“QBE 數(shù)據(jù)查詢工具”,此工具可實現(xiàn)對同一數(shù)據(jù)庫下的所有知識資源同時進行關(guān)鍵詞自動提取。提取前可配置關(guān)鍵詞的提取數(shù)量、多個標引源以及輸出結(jié)果的標引字段,系統(tǒng)將根據(jù)系統(tǒng)詞表對選取的標引源進行處理,提取關(guān)鍵詞并反饋填充至相應的標引字段。

        六是人工校驗。完成所有標引字段的標引工作后,工作人員通過“STM 中文智能信息處理平臺”查看關(guān)鍵詞自動提取后的結(jié)果,對標引結(jié)果進行審核與修訂,確保所有標引字段完成無誤后保存,完成標引工作。

        二、 實踐效果及后續(xù)思路

        經(jīng)過該項目實施,基本實現(xiàn)了研究院自有特色數(shù)據(jù)庫建設從無到有的里程碑變化,開啟了圖書館知識資源自建庫時代。基于圖書館自主開發(fā)和收集的知識資源和同方、知網(wǎng)的“TPI 信息資源建設與管理系統(tǒng)”進行知識資源導入、標引及發(fā)布。

        1.實現(xiàn)了知識資源數(shù)據(jù)庫集中管理

        基于研究院航天運輸總體技術(shù)論文集、研究院新型動力技術(shù)及應用論文集、研究院仿真與虛擬實驗技術(shù)論文集、高空風修正資訊、新智能技術(shù)發(fā)展資訊、國內(nèi)外航天政策資訊、伺服資訊等,進行數(shù)據(jù)庫建設、數(shù)據(jù)標引以及歸類發(fā)布。通過“KBase全文數(shù)據(jù)庫管理系統(tǒng)”建立“航天運輸總體技術(shù)”“新型動力技術(shù)及應用”“仿真與虛擬實驗技術(shù)”、高空風修正資訊、新智能技術(shù)發(fā)展資訊、國內(nèi)外航天政策資訊等數(shù)據(jù)庫。建庫完畢后,依據(jù)標引字段選取內(nèi)容,結(jié)合知識資源實際設置數(shù)據(jù)庫標引字段。該項目一期共建設27 個數(shù)據(jù)庫,所選取的標引字段取自于已有知識資源類型模板內(nèi)的字段,選取過程中可對字段屬性進行編輯,更改字段名稱、字段長度以及是否空項或必備。

        標引字段選取完畢后,即可向數(shù)據(jù)庫內(nèi)添加知識資源,開展標引工作。除此之外,數(shù)據(jù)庫管理支持分類導航功能,可對單一數(shù)據(jù)庫進行知識資源分類,如依據(jù)研究院航天運輸總體技術(shù)專業(yè)組會議集自有分類,新建“發(fā)展戰(zhàn)略”及“關(guān)鍵技術(shù)”兩類導航。

        2.完成知識資源標引,將技術(shù)研究轉(zhuǎn)化為項目實踐

        完成數(shù)據(jù)庫建設及知識資源導入后即可通過“STM 中文智能信息處理平臺”逐一對知識資源進行標引。文本區(qū)顯示所需標引的知識資源文本,編目區(qū)展示知識資源所在的數(shù)據(jù)庫設置的所有標引字段,選擇相應標引字段后可于文本區(qū)內(nèi)選詞或框詞進行填充,填充內(nèi)容在標引數(shù)據(jù)區(qū)展示并可進行二次編輯。

        相較于傳統(tǒng)的手工標引,使用“STM 中文智能信息處理平臺”能夠有效實現(xiàn)標引過程與標引結(jié)果輸出的一體化。標引過程中,提取知識資源原文的標引數(shù)據(jù)標引操作簡單,無需進行二次核對,在標引速度和文字處理效率上有顯著提升。

        除提取來源于知識資源內(nèi)的標引內(nèi)容外,為實現(xiàn)知識資源檢索的全面性,還需對特定的標引字段進行補充,其中關(guān)鍵詞標引字段可采取自動化標引操作。關(guān)鍵詞擴充是利用“QBE 數(shù)據(jù)查詢工具”執(zhí)行,可對單個數(shù)據(jù)庫內(nèi)的所有知識資源進行批量操作,通過設置關(guān)鍵詞提取個數(shù),選取需操作的數(shù)據(jù)庫表,選擇關(guān)鍵詞的提取位置,提取關(guān)鍵詞輸出字段位置,最終獲取由系統(tǒng)根據(jù)詞表所獲取的關(guān)鍵詞,將反饋至對應的標引字段下。一般而言選擇提取的關(guān)鍵詞數(shù)量越多,提取的準確性越差,且與知識資源自帶關(guān)鍵有重疊的情況時,需再次通過“STM 中文智能信息處理平臺”進行二次篩選。

        主題檢索通過設置主題標引字段可實現(xiàn)用戶的前端檢索操作,為達到標引的快速簡便化,主題標引暫采用“題名+摘要+關(guān)鍵詞”的標引方式,即主題標引的內(nèi)容涵蓋題名、摘要、關(guān)鍵詞的標引內(nèi)容。

        該項目實施可以將組織內(nèi)部大量長期存儲的有效的知識資源進行標引,發(fā)布提供使用,大大提高了內(nèi)部知識資源的利用效率,也有利于知識資源的延續(xù)和傳承,特別是專題數(shù)據(jù)庫的建成,可有效服務于組織內(nèi)部各項目建設。

        3.實現(xiàn)知識資源發(fā)布,為科技工作者提供自有資源統(tǒng)一檢索的平臺

        實現(xiàn)對所發(fā)布的數(shù)據(jù)庫的集中展示;對一個或多個數(shù)據(jù)庫內(nèi)知識資源進行檢索;合并多個數(shù)據(jù)庫形成專題展示。這些功能可基于后臺管理進行個性化配置,配置內(nèi)容包括數(shù)據(jù)庫發(fā)布,使“TPI信息資源建設與管理系統(tǒng)”關(guān)聯(lián)數(shù)據(jù)庫;發(fā)布設置,配置單個數(shù)據(jù)庫的檢索字段、概覽字段、細覽字段等;跨庫檢索設置,使多個數(shù)據(jù)庫進行統(tǒng)一檢索。

        目前該項目建設僅涉及數(shù)據(jù)庫的建設,由于經(jīng)費及建設周期等原因,內(nèi)外部知識資源跨庫檢索功能的建設將依托其它項目逐步實現(xiàn)。

        4.后續(xù)思路

        研究院圖書館利用TPI 建庫向?qū)?chuàng)建數(shù)據(jù)庫,開展知識資源標引,明確標引字段項目,著重研究關(guān)鍵詞標引方法,嚴格關(guān)鍵詞選詞規(guī)范與校驗,以便用戶能高效檢索所需的知識資源,該項目實施在各專業(yè)領(lǐng)域具有很好的應用場景。但是,知識資源標引工作是一個長期繁瑣的工程,目前該系統(tǒng)自帶的概念詞典還無法完全滿足關(guān)鍵詞提取的準確性,只有通過不斷對知識資源進行數(shù)據(jù)分析及機器學習,逐漸形成研究院自建庫專業(yè)詞表,才能持續(xù)不斷推進此項工作長遠發(fā)展?;诖?,該項目第一階段實施之后,不斷提升用戶對自動標引和機器學習的認識,并不斷積累和完善豐富研究院自有專業(yè)數(shù)據(jù)庫,依然是圖書館未來為之不懈努力的目標。

        猜你喜歡
        數(shù)據(jù)庫資源
        讓有限的“資源”更有效
        基礎(chǔ)教育資源展示
        一樣的資源,不一樣的收獲
        資源回收
        數(shù)據(jù)庫
        財經(jīng)(2017年15期)2017-07-03 22:40:49
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        日本韩国亚洲三级在线| 国产成人国产在线观看| 国产亚洲成年网址在线观看| 日韩av在线手机免费观看| 美女张开腿黄网站免费| 51久久国产露脸精品国产| 2022国内精品免费福利视频| 丝袜美腿亚洲综合久久| 亚洲av无码国产精品色午夜软件| 精品深夜av无码一区二区老年| 日韩AV有码无码一区二区三区| 国产内射视频免费观看| 91久久精品国产综合另类专区| 国产精品一区二区在线观看| 亚洲综合色一区二区三区另类| 日韩精品av在线一区二区| 日本视频一区二区三区一| 欧洲熟妇色 欧美| 亚洲综合色区无码专区| 日韩精品自拍一区二区| 国产大屁股视频免费区| 国产精品免费久久久久软件| 午夜免费福利一区二区无码AV | 国产成人精品午夜二三区波多野| 84pao强力打造免费视频34| 亚洲一区二区观看网站| 国产三级视频不卡在线观看| 4399理论片午午伦夜理片| 中文字幕在线观看国产双飞高清| 日韩av一区二区无卡| 欧美嫩交一区二区三区| 精品久久久久久中文字幕大豆网| 中文无码免费在线| 国产日产桃色精品久久久| 亚洲七久久之综合七久久| 国产精品自产拍在线18禁| 日本免费一区二区精品| 看久久久久久a级毛片| 亚洲精品无码久久毛片| 97中文字幕一区二区| 国产精品激情自拍视频|