曹 霞 劉亞麗
(1.黑龍江中醫(yī)藥大學圖書館,黑龍江 哈爾濱 150040;2.東北林業(yè)大學圖書館,黑龍江 哈爾濱 150040)
隨著大數(shù)據(jù)以及云計算等技術的深入發(fā)展,如何更好地運用新技術為機構知識庫的發(fā)展提供良好的生態(tài)環(huán)境,是當前機構知識庫的研究方向之一?,F(xiàn)階段,將機構知識庫的內(nèi)部同多種知識庫資源實行連接,是新一代知識庫發(fā)展的關鍵手段,有利于促進其個性化以及知識化發(fā)展。在這一背景下,對關聯(lián)數(shù)據(jù)的運用,使其深入發(fā)掘知識庫中的潛在價值,分析資源整合以及知識服務的新業(yè)態(tài),這是新一代知識庫構建以及發(fā)展的關鍵。
對于新一代知識庫來說,它主要是借助集成云計算以及大數(shù)據(jù)等技術,促進機構知識庫的研發(fā),從而使其可以為用戶提供較多的服務支持。在機構知識庫中,其底層數(shù)據(jù)來源的范圍非常廣,其中有WOS、EI、機構文庫等。而且其數(shù)據(jù)類型也比較多,其中有期刊論文資源、學位論文資源以及專利等。從內(nèi)部功能來看,主要是借助數(shù)據(jù)處理流程,針對學術成果來說,可以自動進行更新,有效解決學者姓名以及機構名稱等拼寫錯誤,實現(xiàn)對機構以及學者的甄別。與此同時,能夠?qū)W者以及機構的學術產(chǎn)出,實現(xiàn)準確地追蹤,還可以完成學術評價以及同行評審工作,深化科研合作,加快知識的傳播,實現(xiàn)資源共享。從外部功能來看,主要是借助標準數(shù)據(jù)接口,對各種服務進行整合,能夠?qū)崿F(xiàn)人事、教學以及科研管理系統(tǒng)的有機融合,有利于更好地服務于機構教學、管理和科研活動。從其服務功能上來看,其中包括對數(shù)據(jù)目標的管理,對機構影響力的評估以及實現(xiàn)內(nèi)容自動更新等服務。
1)數(shù)據(jù)與復合目標管理服務。伴隨學術的深入研究,學術產(chǎn)出以及形式逐漸豐富起來,這也致使多種形式的學術產(chǎn)出,逐漸從科研轉(zhuǎn)到前臺。其中就有科學數(shù)據(jù)、軟件以及圖像等。針對單一內(nèi)容目標類型而言,其組織變得非常容易,針對復合型的目標,就要借助關聯(lián)組織模式,所以該功能就融入了新一代知識庫,讓其服務于發(fā)現(xiàn)系統(tǒng)以及數(shù)據(jù)登記。
2)影響力管理服務。對于機構知識庫來說,構建的核心目標以及作用,是為了強化科研人員和機構的作用,提升他們的影響力,讓科研以及學術交流朝向更加多元化的方向發(fā)展,實現(xiàn)科研以及學術的綜合性目標。針對傳統(tǒng)學術影響的評價,大部分都是通過同行間的評價,以及對學術的引用來進行評價的。當前比較盛行的綜合影響力評價要素,不但有學術引用,還有對學術文獻的下載運用和來自社會各界的評價等。在新一代知識庫中,其集成主要有引用的計量,引用的頻次,科研者的H指數(shù)以及社會影響力等要素。
1)規(guī)范化描述實體。想要讓用戶準確以及迅速地找到他們想要的資源,在新一代知識庫中,就結合了語義化訪問服務。對此,應該規(guī)范化描述實體,避免HTML格式的描述。機構知識庫主要是根據(jù)研究的主題,以及學科領域來劃分知識結構的,在每一個研究主題以及學術領域中,還對其劃分成多個專題。針對專題而言,能夠按照文獻的類型,以及別的索引方式加以組織。在各個專題內(nèi)容中,有很多類型的數(shù)據(jù)集,其中包括期刊論文、學位論文以及專利等。
2)語義化資源實體?;陉P聯(lián)數(shù)據(jù)的運用,在機構知識庫中,能夠?qū)崿F(xiàn)語義化資源實體,為其提供相應的前提。主要是結合實體目標間的聯(lián)系,來分析機構知識庫中有關實體目標資源的概念,并對其進行明確,深層次地展開分析以及描述。在這些資源概念中涉及很多內(nèi)容,有相關概念以及交叉概念等。對此,應先建立知識庫的資源本體,然后再分析概念之間的聯(lián)系,增加類的屬性,進而構建本體與語義之間的聯(lián)系。與此同時,關聯(lián)數(shù)據(jù)還能夠促使機構知識庫建立更多信息資源,也不完全限制在資源實體信息中。在這之中,能夠?qū)崿F(xiàn)科研人員、科研成果和所屬機構等信息的增加,還能找到任意信息描述下的數(shù)據(jù)源,給予它們更多分布式數(shù)據(jù)源,在此基礎上加以整合,形成關聯(lián)訪問,以便更好地為用戶服務,提供給他們資源發(fā)現(xiàn)服務。
1)識別實體目標、抽取實體關系。在機構知識庫中,關于實體目標就非常多,且它們之間的關系也十分復雜。針對相同的實體目標以及關系,想要實現(xiàn)識別以及抽取,是非常關鍵的問題。根據(jù)多種關聯(lián)數(shù)據(jù)源來說,將其放在同一個實體,比如地名等,通過多種URI進行標識,將會導致其標識的目標以及實體達不到一致。想要有效優(yōu)化這一問題,在設計時可以構建一個將作者和知識資產(chǎn)作者進行排序的程序,主要是利用人工分辨的方式,來達到作者及其成果的一致關系。這個程序能夠?qū)⒆髡呱蟼鞯綑C構知識庫中的內(nèi)容進行儲存,然后對其分配URI標識符,可以實現(xiàn)自動發(fā)送認領郵件的目的,接著再讓作者進行確認,來判斷這個是否為其作品,并自行選擇排序。雖然這個方式的效率相對較低,而且認領時間也比較長,但是從現(xiàn)階段研究層次方面來看,該方式的效果是非常明顯的,還大幅度地增加了實體目標識別的準確度。同時在機構知識庫中,還能夠設計別名管理程序,針對相同的人名實體,在知識庫中還設立了各種形式的別名,可以有效處理人名實體的識別問題。做好前期的處理工作,在機構知識庫中,抽取實體目標以及關系,結合知識庫中的元數(shù)據(jù)來描述字段和關系,以此為前提加以分析。
2)選取關聯(lián)數(shù)據(jù)源、映射各種詞表間。對于機構知識庫來說,其中的數(shù)據(jù)包括期刊論文資源、教材資源以及會議論文等資源,想要把其中的元數(shù)據(jù)和外面的關聯(lián)數(shù)據(jù)連接起來,應該科學選取關聯(lián)數(shù)據(jù)源,這是非常關鍵的內(nèi)容。現(xiàn)階段在互聯(lián)網(wǎng)中關聯(lián)數(shù)據(jù)是非常多的,但是大部分都為綜合性的公共數(shù)據(jù)集。對于不同的關聯(lián)數(shù)據(jù)而言,其來源也會通過各種關聯(lián)詞表來實現(xiàn),想要最大程度地語義化元數(shù)據(jù),為用戶展現(xiàn)更加清晰的數(shù)據(jù)視圖,應該對各種術語進行轉(zhuǎn)換,使其達到相同的目標模式。在進行轉(zhuǎn)換時,應該按照詞表來把數(shù)據(jù)進行映射,使其成為本地的數(shù)據(jù)模式,除此之外,也應該按照人工產(chǎn)生以及數(shù)據(jù)挖掘等方式獲取的映射規(guī)則,在此基礎上實行轉(zhuǎn)換。
綜上所述,基于機構知識庫內(nèi)部,將其與不同知識庫資源進行有效的融合,有助于更好發(fā)展新一代知識庫,達到個性化服務的目的。基于此,應當積極引入關聯(lián)數(shù)據(jù)技術,進一步挖掘知識庫所隱藏的價值,就新一代知識庫的進步來說,這有著很大的現(xiàn)實意義。