亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)字圖書館數(shù)字資源中事實知識元識別與標引

        2020-06-23 02:59:16
        科技創(chuàng)業(yè)月刊 2020年5期
        關鍵詞:定義圖書館文本

        黃 程

        (華中師范大學 信息管理學院,湖北 武漢 430079)

        0 引言

        20世紀70年代,謝拉(J.H.Shera)曾說過“圖書館已經(jīng)從書籍世界走進了信息世界”,反映了當時社會信息化給圖書館資源管理內(nèi)容與模式帶來的巨大變化:從傳統(tǒng)紙質(zhì)文獻管理走向以多元化信息媒介及自動化為特征的信息管理。20世紀90年代,隨著信息技術(shù)與知識經(jīng)濟快速發(fā)展,圖書館從信息世界走進了知識世界,知識管理成為圖書館資源管理的新模式,數(shù)字圖書館作為一種全新的圖書館形態(tài)出現(xiàn)在人們的視野中,其本質(zhì)上是基于網(wǎng)絡環(huán)境下共建共享的可擴展知識網(wǎng)絡系統(tǒng)。數(shù)字教育全球化趨勢,使得企業(yè)、國家開始重視知識管理。非洲和印度等欠發(fā)達國家增長緩慢,而數(shù)字圖書館的知識共享、傳播功能能為教育帶來顯著效益,因而數(shù)字圖書館的知識管理受到越來越多的關注[1]。為了進一步滿足人們精細化知識獲取與利用要求,數(shù)字圖書館中的知識載體被碎化為更小的單位,即知識元,以突破現(xiàn)有文獻層面的知識服務的局限性。知識元作為目前知識管理的最小單位,可以通過排列組合形式形成各種各樣的知識元,不同知識單元可以根據(jù)不同的邏輯關系形成多種知識元鏈接,從而實現(xiàn)知識價值不斷提升。目前,人們對知識的控制還停留在文獻層次,使得文獻內(nèi)包含的知識元沒有得到應有的揭示,也就得不到應有的利用。面對浩如煙海的互聯(lián)網(wǎng)信息,傳統(tǒng)信息檢索所存在的弊端日漸顯露,其查準率與查全率已經(jīng)無法滿足人們精細化信息需求?;谖墨I單元的知識組織,所揭示的知識信息是粗糙的、表面的、不精確的,很難揭示知識內(nèi)在聯(lián)系,形成新的知識。而基于知識單元的知識組織,仍然沒有細化到知識最小單位——知識元?;谥黝}圖的知識組織,提供給用戶的實際是一個完整的知識結(jié)構(gòu),相當于一個主題索引。知識元概念的出現(xiàn)徹底改變了人們以往停留在文獻層面的信息組織的觀念與做法,將傳統(tǒng)文獻擁有的信息資源進行碎化,通過建立知識元庫的形式將同一主題或領域問題集成起來,使得研究者無需瀏覽檢索全篇文獻,能將更多時間和精力投入到研究中。同時,在同一知識庫中所存儲的知識形式的多樣性,也豐富學習過程改善學習體驗,提高人們的學習興趣和學習能力。在不同知識主題、領域之間,大量的知識元鏈接形成知識鏈,相互交織的知識鏈進一步形成知識網(wǎng)絡,有助于人們系統(tǒng)、全面、高效地了解某一領域的知識,激發(fā)人們的創(chuàng)新能力。相較于理論方法型知識元和數(shù)值知識元,事實型知識元研究文獻更加匱乏,且中國知網(wǎng)已建立起理論方法型知識元庫和數(shù)值型知識元庫。故本文以知識元類別中的事實型知識元為研究對象,明確其特點并列舉相關流程,梳理其識別與標引的相關文獻。

        1 相關研究

        根據(jù)中國知網(wǎng)文獻收錄情況,近年來,國內(nèi)知識元研究領域發(fā)文量逐年穩(wěn)步上升,研究“知識元”相關問題的主要學者有溫有奎、汪玲、郭德俊、徐國華、周瑩、徐端頤等,研究內(nèi)容主要分為知識元理論研究、知識元技術(shù)研究和知識元應用研究3個方面:一是知識元理論研究包括知識元的概念、分類、特征和模型研究;二是知識元技術(shù)研究包括知識元的抽取、標引和鏈接;三是知識元應用領域包括數(shù)字圖書館領域、突發(fā)事件應急管理領域、教育領域等。此外,知識元還在知識科學與知識工程、知識挖掘與知識發(fā)現(xiàn)和知識管理等領域得到了一定的應用。

        姜永常[2]認為,應以知識元為基本單元,以知識鏈接為樞紐,進行數(shù)字圖書館的知識構(gòu)建,通過對數(shù)字圖書館中文獻信息進行知識元抽取、標引、建立知識元庫和知識倉庫,從而達到提供知識服務的最終目的;王泰森等[3]根據(jù)高校、科研機構(gòu)的師生、科研人員及其他以學習、文獻調(diào)研為目的的讀者的知識資源全面系統(tǒng)整合要求,運用數(shù)據(jù)庫與知識元鏈接理論與技術(shù),提出一種知識元層次的學習型知識元數(shù)據(jù)庫系統(tǒng),從而實現(xiàn)按照學科、專業(yè)隊高校圖書館數(shù)字資源與實體資源中的知識資源整合;黃曉斌等[4]認為,知識元的自動抽取在數(shù)字圖書館知識網(wǎng)絡發(fā)展中具有重要作用,并對數(shù)字圖書館VISION模式、CNKI模式、Wiki模式3種典型的知識網(wǎng)絡模式進行了梳理,對數(shù)字資源中知識元、和知識鏈接等要素進行了深入分析;劉薇等[5]將知識標引應用于數(shù)字圖書館中的知識管理,利用學科的相對獨立性,對中書名、大標題、小標題、內(nèi)容提取的知識元進行分類標引,并用從中文 Wikipedia 概念庫中獲取的語義信息進行語義鏈接,建立起一個數(shù)字圖書館學科標引系統(tǒng)。

        國內(nèi)其它關于知識元研究的代表性文獻有:馬費成在《情報學的進展與深化》中表示,知識信息的表達和組織必須從物理層次的文獻單元開始;陸汝鈐[6]在《從基于知識的軟件工程到基于知件的軟件工程》中指出,知識元是采用本體形式表示知識的基本單位,大量的知識元集合成為知識工程的素材;陳雪龍等[7]聯(lián)合發(fā)表的《非常規(guī)突發(fā)事件應急管理的知識元模型》,給出了知識元屬性間關系的隱性描述方法,為非常規(guī)突發(fā)事件的應急管理提供綜合知識支持;溫有奎撰寫的《知識元挖掘》和《基于知識元的知識發(fā)現(xiàn)》,為知識元研究打下了堅實的基礎;溫有奎和溫浩[8]在《一種創(chuàng)新點挖掘的知識單元標引系統(tǒng)》提出了一種創(chuàng)新點挖掘的知識單元標引模型,并用軟件流程圖描述了標引創(chuàng)新點的過程;原小玲[9]在《基于知識元的知識標引》中深入討論了知識元標引的各環(huán)節(jié),并用系統(tǒng)流程圖表示了知識元標引的過程;付蕾[10]在《知識元標引系統(tǒng)的設計與實現(xiàn)》中描述了知識元標引系統(tǒng)結(jié)構(gòu)以及系統(tǒng)實現(xiàn)流程,最后給出了實現(xiàn)方案和具體步驟。

        知識元的應用前景廣闊,相關研究也日漸增多和深入,但無論是在理論領域還是技術(shù)領域,知識元都存在著若干空白。例如,關于知識元類型的劃分問題,仍然缺少統(tǒng)一劃分標準,而知識元本身具有的連續(xù)性和不可分性,更加大了其類型劃分難度,因而在知識元邊界確定上仍然存在著主觀性;在知識元應用上,目前在數(shù)字圖書館、應急管理等方面研究相對較多,但距離真正建立完備的知識元庫還存在一定的距離;知識元庫建立面臨的主要問題是知識獲取和存儲的問題。如知識元提取中,還缺乏有效方法將主觀知識與客觀知識區(qū)分開來,導致獲取的知識元中含有主觀知識比率較高,降低了整體知識元庫的準確性。這意味著對搜索引擎的智能化程度要求越來越高,需要提高整體效率[11]。總的來說,目前國內(nèi)關于知識元的研究還處于成長階段,涉及知識元抽取、標引等技術(shù)理論依據(jù)還不夠完善[12]。此外,值得注意的是,在涉及知識元抽取和標引的研究過程中,計算機網(wǎng)絡起著巨大的輔助與推動作用。因此,著力科學技術(shù)創(chuàng)新、建立更加先進的計算機平臺也是推動知識元抽取與識別的有效力量。

        2 事實知識元的概念及特點

        2.1 事實知識元的概念

        事實知識元的定義是建立知識元定義的基礎上的,要想了解事實知識元的定義首先要先了解知識元的定義。隨著知識管理和知識經(jīng)濟研究的興起,知識元逐漸進入研究者視野。國際上,知識元概念定義出現(xiàn)在20世紀70年代后期,由弗拉基米爾·斯拉麥卡提出,知識控制單位將從文獻深入到其中的數(shù)據(jù)、公式、事實、結(jié)論等最小的獨立“知識元”(又稱數(shù)據(jù)元)。國內(nèi)最早提出知識單元(Knowledge Element)概念的是我國科學計量學開創(chuàng)者趙紅州[14],他在1984 年將其界定為能夠用數(shù)學公式表示的科學概念。自此,知識元研究在知識管理領域拉開序幕。關于知識元的定義,朱曉蕓等[15]提出原子知識元的概念,可視為國內(nèi)知識元研究的開端;孫成江等[16]認為,知識元是人的知識結(jié)構(gòu)中的基本元素,由信息元、經(jīng)驗、智慧和問題解決4個方面共同復合而成;溫有奎[17]提出了知識元鏈接理論,認為知識元是構(gòu)造知識機構(gòu)的基元,是可獨立使用的最小單位;文庭孝[18]認為,知識元應該是可以自由切分、表達、存取、組織、檢索和利用知識的最小的獨立的知識單位;李銳、王泰森[19]認為,知識元既是一個獨立的學科知識單元,也是一個事物的過程或者結(jié)果;廖開際等把組成文檔的一個個相對獨立的知識元素稱為知識元;溫有奎[20]認為,知識元定義由名稱、屬性、操作、導航等七要素組成。

        關于事實知識元的定義,張靜[21]認為,事實類知識元反映一個事實,如歷史事件、地理現(xiàn)象、社會現(xiàn)象等;廖開際[22]根據(jù)文獻段落的主題類型,將知識元分為事實型、主體型和任務型,并將事實型知識元定義為對名詞性短語起解釋和說明作用的、解決“about what”問題的知識單位;于秀慧[23]按照內(nèi)容特征不同對知識元進行細致分類,并將事實(信息報道)型知識元的特征定義為描述時間的發(fā)生或反映一個事實,具有真實性、準確性或及時性等特點,時間、地點、人物等特征性很強;原小玲[9]將事實型知識元定義為有關自然、社會存在和演變的事實信息;史忠植[24]所定義的陳述性知識與部分學者對事實知識元的理解相似,認為陳述性知識是使人們了解掌握是什么的知識,包含概念和事實的知識;蔣玲認為,事實知識是指某種術(shù)語或是問題解決的基本要素,既含有術(shù)語中的知識和本質(zhì)特征,又含有元素的知識。

        綜上所述,本文以原小玲對知識元的分類為基礎,結(jié)合現(xiàn)有事實知識元的定義,將事實知識元進行描述為通常包含時間、地點、人物等要素的有關自然和社會存在及現(xiàn)象的信息。

        2.2 事實知識元的特點

        針對事實知識元的研究鮮見,但對知識元劃分中含有事實型這一類別研究很多,本文通過分析不同學者對事實知識元的分類,給出中事實知識元的特點。含有事實型知識元這一類別的常見分類有:張靜[21]根據(jù)中小學各學科課程教材中的知識特點,將課本中所涉及的知識元分為概念類、原理類、方法類、事實類和陳述類五大類;廖開際[22]根據(jù)文獻段落的主題類型將知識元分為事實型、主體型和任務型;于秀慧[23]按照內(nèi)容特征不同對知識元進行細致分類,并將事實(信息報道)型知識元的特征定義為描述時間的發(fā)生或反映一個事實,具有真實性、準確性或及時性等特點,時間、地點、人物等特征性很強;原小玲[9]將知識元按照表達內(nèi)容的不同分為理論與方法型知識元、事實型知識元及數(shù)值型知識元;史忠植[24]將知識分為3種類型:陳述性知識、過程性知識和控制性知識。根據(jù)以上分類及研究,本文對事實知識元的特點進行總結(jié):

        (1)事實知識元具有獨立性。事實在不同領域的涵義是不同的。在新聞領域,事實是指存在現(xiàn)實生活中的事物或發(fā)生在現(xiàn)實世界中的事件,如社會政治事件,自然界現(xiàn)象等。在認識論范疇,事實是指客觀事物、事件或現(xiàn)象本身,也是指對以上3種的反映和描述。但無論如何,事實知識元屬于知識元的一種,能夠獨立表達一個完整的事實。

        (2)事實知識元具有拓撲性。每個事實知識元都具有完整的結(jié)構(gòu),由知識元名稱、描述及關系組成。

        (3)事實知識元具有鏈接性。由于知識元在表達上具有獨立性和完整性,事實知識元之間可通過不同組合方式產(chǎn)生新的知識,推動知識創(chuàng)新,有效提升現(xiàn)有信息資源價值。

        (4)事實知識元具有外顯型。人們可以通過口頭、書籍、媒體等方式進行事實知識元獲取與傳播。

        (5)事實知識元的易存儲性。一個完整的事實知識元所包含的基本要素相同,因此很容易建立起數(shù)據(jù)存儲結(jié)構(gòu),實現(xiàn)其快速存取。

        3 事實知識元識別與提取

        近年來,關于知識元抽取的研究慢慢興起,現(xiàn)有關于知識提取的研究有:周寧等[25]就知識元表示與抽取正確與否的問題,提出了一種以XML平臺為基礎的知識元表示與抽取模型,對文檔進行分段讀取后,從中搜尋具有知識特征的基本知識元,以結(jié)構(gòu)、長度和內(nèi)容為3個維度為標準,通過約束這3個維度表示知識元,并通過解析這3個維度抽取知識元;毛永吉等[26]對科技文獻的句子類型進行劃分,設計了SELD語言和基于SELD 語言的知識獲取系統(tǒng)的SELKAS,用SELD語言改寫科技文獻后,可用SELKAS系統(tǒng)實現(xiàn)自動編譯、知識抽取和整理,從而形成領域知識庫;朱麗萍[27]以句子級別為基礎,將文本按照背景知識、問題分析、工作描述進行劃分。統(tǒng)計總結(jié)出引導詞、線索詞、等特征,建立起規(guī)則庫,利用規(guī)則進行結(jié)構(gòu)化抽取信息;蘇牧等[28]依據(jù)自然語言的群集現(xiàn)象,結(jié)合知識體系信息更新的動態(tài)要求,提出了一種基于語句聚類識別的知識動態(tài)提取方法,并以機械 CAD為基本背景,利用實例進行了該方法的有效性證明。關于知識元的抽取,溫有奎等[8]針對提高論文創(chuàng)新知識的掘與利用程度問題,以對科技論文為實體對象,提出以創(chuàng)新點為基礎構(gòu)建知識元,通過探討文獻所涉及的知識創(chuàng)新生產(chǎn)、知識增值管理、知識集成利用,梳理文本創(chuàng)新點的表現(xiàn)形式,證明了這種基于創(chuàng)新點的知識元挖掘方法的有效性。

        3.1 事實知識元的描述規(guī)則

        依據(jù)CSSCI核心期刊排名情況,選取若干情報學核心期刊,并從萬方、維普、中國知網(wǎng)等數(shù)據(jù)庫下載題錄信息,對題錄信息進行整合去重等處理后,整理出一份關鍵詞表,然后從該表中獲取事實描述術(shù)語,構(gòu)建其術(shù)語表。根據(jù)該描述術(shù)語表對情報學某核心雜志某年的全文進行識別,得出所有關于事實描述的句子,對識別出的句子進行規(guī)則提取和構(gòu)建,以流程圖的形式對事實知識元描述規(guī)則構(gòu)建過程進行描述(見圖1)。

        圖1 事實知識元描述規(guī)則構(gòu)建流程

        描述規(guī)則構(gòu)建,首先對選取的文章進行文本讀取,運用構(gòu)建術(shù)語表進行識別,獲取其中含有事實的句子,利用分詞技術(shù)將這些句子進行分詞,最后用關鍵詞表去掉不含領域主題詞的句子,得到關于事實知識元的句子結(jié)構(gòu)。將得到的句式結(jié)構(gòu)進行人工審核和校對,篩選出關于事實知識元的句式結(jié)構(gòu),將這些結(jié)構(gòu)進行分類匯總,得出事實知識元描述規(guī)則。依據(jù)上述提取流程進行事實知識元的描述規(guī)則提取,得到常見的事實知識元描述規(guī)則有:“……年,……在……,……創(chuàng)立/建立/創(chuàng)建……”、“……世紀……年代,……在……提出/證明/證實……”、“在/當……時(時間),……于……,……發(fā)明/發(fā)現(xiàn)/出現(xiàn)/產(chǎn)生/進行……”、“……也就是……”等。其中,關于事件類事實知識元描述規(guī)則中,經(jīng)常出現(xiàn)的元素有事件發(fā)生的時間、地點、發(fā)生主體等信息。

        3.2 事實知識元的抽取

        實現(xiàn)知識元識別與標引的首要步驟是從中提取知識元。值得注意的是,本文研究范圍是數(shù)字圖書館中的數(shù)字資源,因此,除傳統(tǒng)文獻數(shù)據(jù)庫中的知識資源外,還需關注專利數(shù)據(jù)、行業(yè)標準、科技報告等特色資源庫中的知識資源。明確研究所涉及的知識資源范圍和性質(zhì)是實現(xiàn)知識元準確識別與標引的基礎。將實體資源的知識本文統(tǒng)一為文本形式的知識資源中知識元識別與標引,不涉及非文本形式實體資源的知識資源向文本轉(zhuǎn)化過程研究(見圖2)。

        知識元提取第一步,對實體資源進行預處理,即刪減資源中與主題無關的信息,減少數(shù)據(jù)量,減輕后續(xù)數(shù)據(jù)組織處理的工作量,提高整體效率。在此過程中,應考慮實體資源存在形式,若為非文本形式,如圖像、音頻、視頻等,應轉(zhuǎn)化為文本形式再進行文本信息讀取及后續(xù)處理;若實體資源本身為文本形式,即可直接進行文本信息進行分段讀取,搜尋文本段落中存在的知識特征。依據(jù)前文中不同知識元的描述規(guī)則,依據(jù)相應類型的知識元結(jié)構(gòu),對符合知識特征的文本段落抽取知識元。最后,將抽取的知識元按不同類型存儲在數(shù)據(jù)庫中,一次知識元抽取工作完成。重復以上步驟,直至實體資源中所有文本段落均完成抽取工作。

        圖2 知識元抽取流程

        4 結(jié)語

        以知識元為信息組織單位的研究日漸增多和深入,但在理論、技術(shù)領域,知識元研究還有很大的上升空間。目前,關于知識元的研究很多,但真正涉及其抽取及標引的研究鮮見。本文以事實知識元為研究對象,給出了事實知識元的定義,基于事件類知識元的特征對事實知識元描述規(guī)則和結(jié)構(gòu)進行歸納總結(jié),并進行了檢索測試實驗??傮w而言,本文主要成果可分為以下幾個方面:

        (1) 提出事實知識元的概念。本文通過對知識元相關理論的梳理,對知識元概念及其特點和分類有了深入了解。在此基礎上,本文綜合各領域?qū)κ聦嵉亩x,結(jié)合自身的理解,認為事實知識元描述的是某個實體的演化過程、最終狀態(tài)、涉及領域以及與其他實體之間的關系,并據(jù)此給出事實知識元的概念。

        (2)建立事實知識元描述模型。知識元模型是知識標引的基礎,參考現(xiàn)有關研究,指出現(xiàn)有研究的不足,從標識、描述及關系3個方面對事實知識元的實體結(jié)構(gòu)進行描述,并將改模型應用于后續(xù)檢索系統(tǒng)的數(shù)據(jù)庫設計中。

        (3)提出基于規(guī)則的知識元標引方法。知識元抽取模塊是知識元標引系統(tǒng)的重要組成部分,本文采用流程圖的形式介紹了知識元描述規(guī)則形成及知識元抽取的整體流程。

        在事實知識元描述架構(gòu)方面,其描述組及關系組還可進行進一步細分,如關系組可增加該事實知識元與其它類似知識元之間的聯(lián)系。關于事實知識元的提取規(guī)則還需進一步改進。本文主要借鑒溫有奎對知識元結(jié)構(gòu)的定義,根據(jù)事實知識元通常包含事件時間、地點、主體等要素的特點,對事實知識元結(jié)構(gòu)進行定義。但在實際提取過程中,由于中文語義豐富的特點,許多詞語如“科技研究所”,既可以作為時間發(fā)起的主體,又可以作為事件發(fā)生的場所,這就為知識元屬性特征識別帶來了一定的難度。隨著不斷學習和探索,關于事實知識元還存在許多值得深入研究的問題。

        猜你喜歡
        定義圖書館文本
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        圖書館
        小太陽畫報(2018年1期)2018-05-14 17:19:25
        飛躍圖書館
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        去圖書館
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        修辭學的重大定義
        當代修辭學(2014年3期)2014-01-21 02:30:44
        山的定義
        公務員文萃(2013年5期)2013-03-11 16:08:37
        青青草免费在线手机视频| 少妇粉嫩小泬喷水视频| 亚洲av无码国产精品色午夜字幕| 久久精品亚洲一区二区三区浴池| 欧美另类高清zo欧美| 亚洲 欧美 激情 小说 另类 | 国产亚洲一区二区在线观看| 亚洲精品乱码久久久久久不卡| 欧美色欧美亚洲另类二区| 国产精品亚韩精品无码a在线| 国内精品久久久久久久久齐齐| 91最新免费观看在线| 亚洲国产av剧一区二区三区| 青青草好吊色在线视频| 久久精品国产亚洲av久按摩| 亚洲精品久久国产精品| 亚洲精品国偷拍自产在线观看| 国产乱子伦在线观看| 欧美深夜福利网站在线观看| 无码超乳爆乳中文字幕| 国产真实二区一区在线亚洲| 日本女优禁断视频中文字幕| 偷拍韩国美女洗澡一区二区三区| 老熟女的中文字幕欲望| 无人区一码二码三码四码区| 秋霞鲁丝片av无码| 91精品国产91久久综合桃花| 国产在线视频一区二区三| 黄色av亚洲在线观看| 亚洲精品www久久久久久| 亚洲精品久久国产高清情趣图文| 在线观看视频亚洲| 中文字幕久久国产精品| 国产自拍精品视频免费| 国产乱子伦| 思思99热精品免费观看| 亚洲图片第二页| 青青草在线免费播放视频| 亚洲精品天天影视综合网| 越猛烈欧美xx00动态图| 亚洲性啪啪无码AV天堂|