張娟 王向輝 付然 孫曉琳
〔摘要〕[目的]為了實現(xiàn)海量數(shù)據(jù)中信息的知識組織,促進單元信息和文獻信息內(nèi)容的知識關(guān)聯(lián)和知識發(fā)現(xiàn),構(gòu)建單元信息知識組織體系;[方法]以養(yǎng)生領(lǐng)域內(nèi)的領(lǐng)域本體、文獻信息等知識資源為基礎(chǔ),構(gòu)建養(yǎng)生單元信息知識服務(wù)系統(tǒng);[結(jié)果結(jié)論]“養(yǎng)生單元信息知識服務(wù)系統(tǒng)”(以下簡稱“養(yǎng)生知識服務(wù)平臺”)是單元信息知識組織體系建設(shè)的重要應(yīng)用示范,提供語義檢索、知識瀏覽、知識推理和知識發(fā)現(xiàn)等服務(wù),實現(xiàn)大數(shù)據(jù)環(huán)境下“單元信息知識組織體系”的有效利用;[局限]文獻資源的單元信息抽取及分析涉及人工智能、計算機處理等相關(guān)技術(shù),技術(shù)實現(xiàn)有較大難度。
〔關(guān)鍵詞〕大數(shù)據(jù);單元信息;養(yǎng)生知識;知識關(guān)聯(lián);知識發(fā)現(xiàn)
DOI:10.3969j.issn.1008-0821.2017.10.008
〔中圖分類號〕G252〔文獻標識碼〕A〔文章編號〕1008-0821(2017)10-0049-04
〔Abstract〕[Objective]In order to realize the knowledge organization of the mass data,and to promote the knowledge and knowledge discovery of the unit information and the content of the document information,it is necessary to construct the knowledge organization system;[method]Using the domain ontology and documents and other library knowledge resources in the field of health as the foundation,constructed the Health unit information knowledge service system;[Conclusion results]“Health unit information knowledge service system” (hereinafter referred to as the“health knowledge service platform”)was an important application of unit information Knowledge organization system,to provide semantic retrieval,knowledge browsing,knowledge inference and knowledge discovery service,and promote the effective use of the“unit information knowledge organization system”in the big data environment.[limited]The unit information extraction and analysis of the literature resources involved artificial intelligence,computer processing and other related technologies,to achieve greater difficulty.
〔Key words〕big data;unit information;health knowledge;knowledge association;knowledge discovery
大數(shù)據(jù)環(huán)境下,隨著文獻信息資源的快速增長,圖書館傳統(tǒng)的文獻組織方式已經(jīng)不能滿足用戶的知識性需求,面對大量信息資源應(yīng)該進行組織加工方法的變革與創(chuàng)新,從對文獻為單元的組織加工轉(zhuǎn)變?yōu)閷卧畔⒌慕M織加工[1],借助計算機自動技術(shù)進行單元信息進行挖掘與組織。針對大數(shù)據(jù)背景下用戶對知識信息的深層分析與潛在知識提取需求,信息服務(wù)工作必須進行數(shù)字資源的智能化收集組織、分析挖掘、整合處理。精準化的知識信息服務(wù)工作,需要通過對用戶的信息需求分析,對專業(yè)領(lǐng)域的知識數(shù)據(jù)進行有效挖掘和分析,建立專題庫,并充分利用大數(shù)據(jù)的分析和匯總,開發(fā)針對性的服務(wù)內(nèi)容,提供精細化、個性化內(nèi)容增值服務(wù)。本文選取了“養(yǎng)生知識”作為主題的資源庫建設(shè),討論如何整合關(guān)聯(lián)數(shù)據(jù)和資源,通過挖掘和組織、評價,將傳統(tǒng)數(shù)據(jù)資源整合成一個全面、開放式的關(guān)聯(lián)知識網(wǎng)絡(luò),以滿足用戶和社會各界的需求。
1單元信息知識服務(wù)系統(tǒng)建設(shè)總體思路
單元信息知識服務(wù)系統(tǒng)是基于 “面向大數(shù)據(jù)的單元信息組織體系研究”的理論應(yīng)用而研發(fā)的系統(tǒng)平臺,主要目的是實現(xiàn)圖書館館藏文獻單元信息的知識服務(wù)?!梆B(yǎng)生知識服務(wù)平臺”以養(yǎng)生知識領(lǐng)域的文獻單元信息為知識組織基元,以單元信息鏈接為樞紐來構(gòu)建知識組織的系統(tǒng),其組織過程一般經(jīng)歷文獻信息的單元信息抽取與標注 、養(yǎng)生文獻庫、單元信息庫、養(yǎng)生知識庫的構(gòu)建。平臺不僅針對領(lǐng)域內(nèi)圖書館的后臺構(gòu)建和前臺呈現(xiàn),同時也在前臺向用戶開放,與用戶一起實現(xiàn)知識組織、構(gòu)建,系統(tǒng)整體構(gòu)架如圖1所示。
文獻庫由養(yǎng)生領(lǐng)域內(nèi)的圖書、報紙、期刊等文獻構(gòu)成,對這些文獻進行單元信息的標注,通過面向機構(gòu)的后臺及面向用戶的前臺提供單元信息的組織、加工功能,進行單元信息的知識組織與管理。這是對圖書館以文獻整體為單元的組織加工體系進行創(chuàng)新,在揭示文獻外形特征和整體內(nèi)容的基礎(chǔ)上,探索文獻信息資源的深度加工和利用方法,深入到文獻內(nèi)部,揭示文獻中所含的知識信息單元,并實現(xiàn)知識之間、文獻之間的關(guān)聯(lián)。實現(xiàn)圖書館信息加工實踐創(chuàng)新,選擇主題進行單元信息知識組織,形成單元信息知識庫,使隱性信息顯性化,使知識得到有效利用。endprint
單元信息知識庫的建設(shè)主要包括:①主題資源分析:結(jié)合資源特色及用戶需求,確定特定資源為主題進行單元信息知識庫建設(shè)。②單元信息抽?。航Y(jié)合資源類型設(shè)計出各種文獻類型的單元信息抽取方法。資源類型包括圖書、期刊、報紙3種資源形式。③建立單元信息知識庫,針對各類文獻的單元信息選擇合適的資源組織方法,如基于主題圖和元數(shù)據(jù)的資源組織。
2系統(tǒng)關(guān)鍵技術(shù)
信息組織和知識組織涉及到一些最新的理論和技術(shù),如本體、語義網(wǎng)、主題圖等技術(shù)方法,其應(yīng)用實踐主要依靠人工智能、計算機處理等技術(shù)的實現(xiàn),從實踐上來說具有一定的挑戰(zhàn)。文獻資源的單元信息分析及抽取有較大難度,如某一專題的文獻資源包含多種類型,針對該領(lǐng)域的資源收集和單元信息的定義需要領(lǐng)域?qū)<业膮⑴c,各類文獻單元的抽取需要靠相關(guān)技術(shù)實現(xiàn)。
21本體知識庫構(gòu)建
本體知識庫是建立單元信息知識服務(wù)系統(tǒng)的基礎(chǔ)。所謂本體是共享概念模型的明確的形式化規(guī)范說明 [2]。養(yǎng)生本體知識庫是存儲并管理與養(yǎng)生領(lǐng)域的相關(guān)概念,以及概念之間的相互關(guān)系,其目的是為養(yǎng)生知識的組織標引提供支持。將本體引入知識表示,不僅可以用術(shù)語或概念對知識進行表示,同時揭示這些知識之間存在的內(nèi)在關(guān)系。利用本體表示的知識通過類屬和語義進行組織和關(guān)聯(lián),再利用這些知識進行推理,從而能很好地滿足讀者學習的需要。本系統(tǒng)平臺的本體來源于用Protégé軟件已經(jīng)建立的數(shù)據(jù)導入到本知識庫中,并提供本體的概念和關(guān)系添加、修改操作。Protégé軟件是斯坦福大學醫(yī)學院生物信息研究中心基于Java語言開發(fā)的本體編輯和知識獲取軟件,或者說是本體開發(fā)工具,也是基于知識的編輯器,屬于開放源代碼軟件。這個軟件主要用于語義網(wǎng)中本體的構(gòu)建,是語義網(wǎng)中本體構(gòu)建的核心開發(fā)工具。Protégé提供了本體概念類、關(guān)系、屬性和實例的構(gòu)建,并且屏蔽了具體的本體描述語言,用戶只需在概念層次上進行領(lǐng)域本體模型的構(gòu)建。
22單元信息標注
單元信息的標注是單元信息知識庫建設(shè)的關(guān)鍵。智能自動標注在本領(lǐng)域己經(jīng)成為一項應(yīng)用較多的計算機語言技術(shù),自動標注包括詞語標注、短語標注、句法標注[3]。由于語言本身包含信息的復雜性,使得標注的內(nèi)容、對象可以在語法、語義、語用等各個層次上進行,標注的內(nèi)容和程度,從根本上決定了從文本中可以提取出的信息內(nèi)容和信息粒度,也決定了進行文本內(nèi)容計算的對象、方法。比如對于文本快速準確的標出單元信息,并且將這些信息單元及其屬性等標出,信息單元之間的多種關(guān)系也需要標注,標注后的文本以一定格式保存為便于計算識別的語料。這些復雜的標注是一個費時費力的工作,所以開發(fā)一個界面友好的輔助標注工具是非常必要的,并且是建設(shè)的需要。標注工具可以提高標注者的效率和標注質(zhì)量,同時結(jié)構(gòu)化的輸出是面向內(nèi)容計算的需要。標注系統(tǒng)的研究和開發(fā)還可以為內(nèi)容計算提供方法和服務(wù),可以為自動標注系統(tǒng)的研究提供方法和規(guī)律。所以,研究標注系統(tǒng)具有非常重要的意義和作用。本平臺語詞標注以自動標注與人工標注相結(jié)合,以確保標注的準確性和科學性。
23索引設(shè)計
數(shù)據(jù)庫設(shè)計好壞的重要標準之一是具有快速的響應(yīng)速度,在本項目大數(shù)據(jù)處理的前提下,提升查詢響應(yīng)速度也是本項目數(shù)據(jù)庫的關(guān)鍵技術(shù)之一。索引是數(shù)據(jù)庫提升查詢性能最便捷、簡單、有效的方法之一。本項目使用 SQL Server2008數(shù)據(jù)庫進行索引的設(shè)計和優(yōu)化數(shù)據(jù)的查詢性能。索引允許程序迅速地找到表中的數(shù)據(jù),而不必掃描整個數(shù)據(jù)庫 。索引可以大大加快數(shù)據(jù)檢索速度,加速表與表之間的連接;使用 ORDER BY 和 GROUPBY 子句檢索數(shù)據(jù),可以顯著減少查詢中分組和排序的時間;可以在檢索數(shù)據(jù)的過程中使用優(yōu)化隱藏器,提高系統(tǒng)性能;通過創(chuàng)建唯一的索引,也可以保證數(shù)據(jù)記錄的惟一性。同時也要注意創(chuàng)建索引和維護索引需要耗費時間與占用物理空間,這種時間隨著數(shù)據(jù)量的增加而增加,當對數(shù)據(jù)進行更新的時候,索引也要動態(tài)地維護[4]。
24可視化顯示
數(shù)據(jù)可視化是利用計算機圖形學和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術(shù)。數(shù)據(jù)可視化是通過關(guān)系數(shù)據(jù)表來觀察和分析數(shù)據(jù)信息的方式,使人們能夠以更直觀的方式看到數(shù)據(jù)及其結(jié)構(gòu)關(guān)系,發(fā)現(xiàn)數(shù)據(jù)中隱含的信息。數(shù)據(jù)可視化的基本思想是將數(shù)據(jù)庫中的每個數(shù)據(jù)項作為一個圖形元素表示,例如,點、矩形條、扇形片等,大量的數(shù)據(jù)構(gòu)成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進行更深入的觀察和分析[5]。本項目采用網(wǎng)絡(luò)圖的可視化展現(xiàn)方式展示數(shù)據(jù)點之間的錯綜復雜的相互關(guān)系,也是一種常見的大數(shù)據(jù)展示方法。以網(wǎng)絡(luò)圖展示語義關(guān)系中的相關(guān)詞、上位詞、屬性、下位詞、應(yīng)用于、實例、屬性值、對象屬性、應(yīng)用方法等數(shù)據(jù),可以幫助讀者了解養(yǎng)生知識數(shù)據(jù)的結(jié)構(gòu)、關(guān)系以及動態(tài)性。
3養(yǎng)生知識服務(wù)平臺功能實現(xiàn)
系統(tǒng)分別面向機構(gòu)用戶和讀者用戶開發(fā)了后臺管理系統(tǒng)和前臺檢索與上傳系統(tǒng)。后臺管理系統(tǒng)其主要包括對文獻庫的上傳、單元信息庫的標注、知識庫的組織管理及對前臺用戶上傳標注內(nèi)容的審核。用戶前臺則實讀者對單元信息的檢索顯示以及文獻上傳。由于用戶的專業(yè)水平不可見且水平不一,所以需要“機構(gòu)”管理員對其內(nèi)容進行審核后才能進行入庫和顯示。
31文獻庫上傳
文獻庫的構(gòu)成是由圖書館內(nèi)的圖書、期刊、報紙數(shù)字資源庫中挑選的與養(yǎng)生內(nèi)容相關(guān)的文獻。上傳獲取的信息包括文獻類型、題名、作者、主題、出版信息,支持PDF和txt文件?!爸黝}”為前臺主題瀏覽和知識檢索的類別所屬。其在養(yǎng)生原理、養(yǎng)生方法和養(yǎng)生應(yīng)用下設(shè)二級主題分類和最底層的主題詞。如養(yǎng)生應(yīng)用下設(shè)時節(jié)、人群、部位與疾病,時節(jié)分春夏秋冬,再分別冠以主題詞,為標注和片段信息的組織建立最基本的關(guān)系。本平臺實現(xiàn)數(shù)字文獻的自動信息獲取和整體文本上傳,這大大減少了圖書館在對信息組織再利用的過程中所要消耗的時間和精力。endprint
32單元信息標注
單元信息標注是養(yǎng)生單元信息知識庫建設(shè)中的關(guān)鍵環(huán)節(jié)。在文獻庫中進行片段的選擇,在此部分進行分頁展示所有片段的列表,可對片段進行編輯,重新劃分片段,標注主題詞,主題詞來自于本體知識庫。通過本體庫中主題詞之間的關(guān)系實現(xiàn)單元信息的語義關(guān)聯(lián)。平臺的標注分為自動標注、自動推薦備選標注與手動標注。單元信息自動標注和推薦備選標注是計算機自動化的智能分析體現(xiàn),是基于信息單元之間的語義分析的結(jié)果。單元信息標注過程可以充分應(yīng)用標注者專業(yè)知識結(jié)構(gòu)背景,也是平臺的知識關(guān)聯(lián)網(wǎng)絡(luò)的構(gòu)建過程,其本身就是對知識的再組織再創(chuàng)造、是增值管理和有效利用的最佳方式[6]。單元信息標注本身就是在各單元信息之間及每個單元信息內(nèi)部建立語義關(guān)系,體現(xiàn)了知識之間的語義關(guān)聯(lián),也為用戶知識利用、發(fā)現(xiàn)和再組織提供了最直接幫助[7]。
33本體知識庫管理
本體知識庫作為單元信息的標注工具,其目的是建立領(lǐng)域本體。本體知識庫的管理分為主題分類組織、主題標簽建立、語義關(guān)系生成三部分。其中主題分類為主題概念的類目體系等級關(guān)系的建立,隨時根據(jù)系統(tǒng)的需要進行主題概念的增加、修改、刪除。主題標簽是在類目體系的基礎(chǔ)上進行主題詞的添加、修改和刪除操作。最后主題概念之間可以進行語義關(guān)系的生成。語義關(guān)聯(lián)包括相關(guān)詞、上位詞、屬性、下位詞、應(yīng)用于、實例、屬性值、對象屬性、應(yīng)用……方法的語義關(guān)聯(lián)。語義關(guān)聯(lián)展示了所有主題詞的列表,可對主題詞進行編輯、添加、刪除操作;對主題詞編輯語義關(guān)系;根據(jù)主題詞的類別篩選出主題詞和當前主題詞進行關(guān)聯(lián),主題詞的關(guān)系在前臺的瀏覽的可視化分析圖表中展示。
34用戶管理
包括前臺用戶注冊和后臺用戶上傳審核。對于圖書館這樣的公眾服務(wù)機構(gòu),有數(shù)十萬的讀者用戶群,而其中不乏大量愿意貢獻自己智慧參與到“養(yǎng)生知識服務(wù)平臺”的知識庫的構(gòu)建的用戶,為了更大范圍的建設(shè)本平臺將知識庫建設(shè)對用戶進行開放。用戶注冊采用互聯(lián)網(wǎng)用戶常規(guī)做法,用郵箱作為唯一ID,通過驗證碼進行驗證激活。同時將手機號也作為注冊的必要信息進行填寫,也可采用手機驗證碼的方式,郵件與手機號在原理上是相同的。登陸時用用戶名和密碼進行登錄。用戶上傳的流程與“機構(gòu)”后臺的流程相同,但是構(gòu)建完成后需要在“機構(gòu)”后臺進行審核,審核后才能夠成為平臺知識的一部分。用戶在前臺上傳文獻、截取片段信息并對片段信息進行標注后提交到后臺,后臺可進行文獻內(nèi)容的整體查看,確認是否通過審核。同時還可以查看片段信息的標注內(nèi)容。
35知識檢索與可視化顯示
用戶對單元信息組織系統(tǒng)的知識檢索,實際就是利用知識關(guān)聯(lián)原理,在知識庫中獲取知識單元,或同時在知識庫直接獲取所需的單元信息,并通過單元信息的關(guān)聯(lián)關(guān)系實現(xiàn)新知識的衍生。通過單元信息檢索,用戶不但能跨各類別的單元信息。而且能從單元信息庫中直接獲得自己所需要的單元信息,還能基于關(guān)系網(wǎng)絡(luò)發(fā)現(xiàn)更多密切相關(guān)的單元信息知識,進而使用戶的知識需求得到全面滿足。檢索分為知識庫瀏覽檢索和主題詞檢索兩種方式。通過對知識庫主題概念分類體系的瀏覽,可以查看主題詞的詳細信息和主題詞的可視化分析圖表以及相對應(yīng)地單元信息。可視化以折線、 曲線、曲面、柱型和三維圖形的方式展示數(shù)據(jù),可以幫助了解數(shù)據(jù)的結(jié)構(gòu)、關(guān)系以及動態(tài)性。對在語義關(guān)系中的相關(guān)詞、上位詞、屬性、下位詞、應(yīng)用于、實例、屬性值、對象屬性、應(yīng)用方法進行可視化圖譜顯示。如高血壓的可視化分析如圖2所示:
點擊任意主題詞則可顯示相關(guān)單元信息,同時在系統(tǒng)中可對任一主題詞進行切換查看,依據(jù)主題詞之間的關(guān)聯(lián)關(guān)系實現(xiàn)單元信息之間的語義關(guān)聯(lián)。
主題詞檢索方式是對單元信息的直接檢索,不僅僅可以可按照關(guān)鍵字進行檢索,還可以通過關(guān)鍵字和類別進行高級檢索,檢索出文獻片段和相關(guān)的主題詞信息。類別的限定為季節(jié)、年齡、性別、部分與疾病,同時還可以進行二級類別限定如對季節(jié)里的具體節(jié)氣可進行限定,能夠讓用戶十分精準的檢索到所需要的內(nèi)容。檢索結(jié)果按單元信息內(nèi)容、主題詞和來源進行展示,同時可以進行主題詞內(nèi)容切換,查看對應(yīng)單元信息內(nèi)容。
4結(jié)語
圖書館單元信息知識服務(wù)系統(tǒng)將知識組織的單位從文獻單元深入到文獻中的單元信息,海量文獻中所包含的單元信息及信息間的相關(guān)關(guān)系,這將產(chǎn)生極大的信息增值,從而大大推進圖書館對知識的獲取和利用,促進知識創(chuàng)新,推動知識應(yīng)用的重大發(fā)展。 基于單元信息的養(yǎng)生知識服務(wù)平臺,不僅實現(xiàn)了對文獻的單元信息提取和標注,而且實現(xiàn)了單元信息間的主題鏈接和語義關(guān)聯(lián),進而形成知識網(wǎng)絡(luò)和語義網(wǎng)。這必將對基于大數(shù)據(jù)的圖書館的知識發(fā)現(xiàn)、 挖掘和創(chuàng)新提供實踐應(yīng)用支持[8]?!梆B(yǎng)生知識服務(wù)系統(tǒng)”是對“面向大數(shù)據(jù)的單元信息組織研究體系”理論應(yīng)用的實踐,整體還不夠全面,技術(shù)上也還受到很多制約。今后將繼續(xù)研究和實踐,爭取將該項目落地實踐并向用戶提供知識服務(wù)。
參考文獻
[1]王薇.基于關(guān)聯(lián)數(shù)據(jù)的圖書館數(shù)字資源語義融合研究[D].南京:南京大學,2013.
[2]杜文華.本體的構(gòu)建及其在數(shù)字圖書館中的應(yīng)用研究[D].武漢:武漢大學,2008.
[3]徐赳赳,Jonathan J.Webster,復句研究與修辭結(jié)構(gòu)理論[J].外語教學與研究,1999,(4):16-22.
[4]鄧小善,數(shù)據(jù)庫索引設(shè)計的研究[J].中國科技信息,2006,(2:2):148-152.
[5]韓衛(wèi)國,王勁峰,王海起,等.基于數(shù)據(jù)可視化的交通流量分析[J].武漢理工大學學報,2004,28(5): 668-670.
[6]姜永常,楊宏巖,張麗波.基于知識元的知識組織及其系統(tǒng)服務(wù)功能研究[J].情報理論與實踐,2007,(1):38-40.
[7]文庭孝.知識單元研究述評[J].中國圖書館學報,2011,(9):75-85.
[8]于良芝,攀振佳,程樂天.信息單元再認識[J].圖書館雜志,2016,(7):4-11.
(本文責任編輯:孫國雷)endprint