亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于領(lǐng)域知識(shí)的學(xué)術(shù)創(chuàng)新力測(cè)度本體構(gòu)建研究

        2019-05-07 07:50:40錢玲飛張吉玉汪榮
        現(xiàn)代情報(bào) 2019年5期
        關(guān)鍵詞:構(gòu)建方法知識(shí)庫(kù)本體

        錢玲飛 張吉玉 汪榮

        摘 要:[目的/意義]大數(shù)據(jù)環(huán)境下學(xué)術(shù)創(chuàng)新力自動(dòng)測(cè)度需要建立在相關(guān)學(xué)術(shù)評(píng)價(jià)指標(biāo)和學(xué)科知識(shí)體系基礎(chǔ)上,基于領(lǐng)域知識(shí)的本體構(gòu)建將為學(xué)術(shù)創(chuàng)新力的自動(dòng)測(cè)度提供基礎(chǔ)支持。[方法/過(guò)程]用手工方式構(gòu)建學(xué)術(shù)創(chuàng)新力概念本體,復(fù)用《中國(guó)分類主題詞表》半自動(dòng)化構(gòu)建學(xué)術(shù)創(chuàng)新力評(píng)價(jià)知識(shí)資源的初始本體,加入CNKI 期刊題錄數(shù)據(jù)的高頻關(guān)鍵詞以豐富本體的知識(shí)。然后進(jìn)行學(xué)術(shù)創(chuàng)新力概念本體和學(xué)術(shù)創(chuàng)新力評(píng)價(jià)知識(shí)資源本體的實(shí)例化。[結(jié)果/結(jié)論]以G3類題錄數(shù)據(jù)為例,共建立了30 097個(gè)概念、41 484個(gè)實(shí)例以及320 609條關(guān)系,基本完成任務(wù)目標(biāo)。

        關(guān)鍵詞:本體;知識(shí)庫(kù);構(gòu)建方法;學(xué)術(shù)創(chuàng)新力;評(píng)價(jià)

        DOI:10.3969/j.issn.1008-0821.2019.05.004

        〔中圖分類號(hào)〕G316 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2019)05-0030-08

        Abstract:[Purpose/Meaning]The automatic measurement of academic innovation in the big data environment needs to be based on relevant academic evaluation indicators and subject knowledge systems.The ontology construction based on domain knowledge will provide basic support for the automatic measurement of academic innovation.[Method/Process]The ontology of academic innovation was constructed by hand,and the Chinese Ontology Thesaurus was used to semi-automatically construct the initial ontology of academic innovation to evaluate knowledge resources.The high-frequency keywords of CNKI journals were added to enrich the ontology knowledge.Then academic innovation power concept and academic innovation measurement knowledge resource were used to the instantiation of ontology.[Result/Conclusion]Taking the G3 bibliographic data as an example,a total of 30097 concepts,41484 instances and 320609 relationships were established to accomplish the mission objectives.

        Key words:ontology;knowledge base;construction method;academic innovation;evaluation

        學(xué)術(shù)創(chuàng)新力是創(chuàng)新主體在對(duì)學(xué)術(shù)知識(shí)的采納、吸收、創(chuàng)新過(guò)程中所體現(xiàn)出的素質(zhì)和能力,即軟技術(shù)力[1]。如何客觀地評(píng)價(jià)學(xué)術(shù)創(chuàng)新力,對(duì)學(xué)術(shù)創(chuàng)新力進(jìn)行量化是一個(gè)難題,在大數(shù)據(jù)時(shí)代背景下,這一難題的解決得到了有力的支撐。重視信息和數(shù)據(jù)之間的聯(lián)系,運(yùn)用數(shù)據(jù)挖掘和分析技術(shù),整合和利用多種數(shù)據(jù),用數(shù)據(jù)說(shuō)話,將有助于我們建立更加客觀公正、科學(xué)合理的學(xué)術(shù)創(chuàng)新力測(cè)度體系。

        知識(shí)庫(kù)是能夠組織和表示知識(shí),提供知識(shí)服務(wù)的系統(tǒng)。在進(jìn)行特定領(lǐng)域的學(xué)術(shù)創(chuàng)新力的數(shù)據(jù)分析和挖掘之前,先要實(shí)現(xiàn)領(lǐng)域知識(shí)的獲取,構(gòu)建特定領(lǐng)域的本體或知識(shí)庫(kù)。本體作為一種概念模型,可以實(shí)現(xiàn)知識(shí)的獲取、聯(lián)系、呈現(xiàn)和重用,對(duì)本體的研究已成為知識(shí)庫(kù)構(gòu)建研究的重要環(huán)節(jié)之一。

        本文采用本體理論和技術(shù),結(jié)合學(xué)科領(lǐng)域知識(shí)構(gòu)建學(xué)術(shù)創(chuàng)新力測(cè)度本體,是基于大數(shù)據(jù)的學(xué)術(shù)創(chuàng)新力測(cè)度的基礎(chǔ),為知識(shí)庫(kù)構(gòu)建、數(shù)據(jù)挖掘等其他與學(xué)術(shù)創(chuàng)新力自動(dòng)測(cè)度相關(guān)的研究提供支持,有助于豐富學(xué)術(shù)創(chuàng)新力測(cè)度研究和評(píng)價(jià)的研究成果。

        1 相關(guān)研究及本文研究目標(biāo)

        1.1 學(xué)術(shù)創(chuàng)新力相關(guān)研究

        目前國(guó)內(nèi)外關(guān)于學(xué)術(shù)創(chuàng)新力測(cè)度評(píng)價(jià)的研究工作和成果相對(duì)都較少,因?yàn)閷W(xué)術(shù)研究、創(chuàng)新的內(nèi)容一般基于一定的學(xué)科領(lǐng)域范疇,所以本文在進(jìn)行文獻(xiàn)調(diào)研時(shí)還參考了與學(xué)術(shù)創(chuàng)新力測(cè)度研究?jī)?nèi)容、方法較為相似的學(xué)科創(chuàng)新力評(píng)價(jià)的文獻(xiàn)。

        蔣偉偉[1]通過(guò)對(duì)國(guó)內(nèi)外相關(guān)研究的分析以及人文社會(huì)科學(xué)學(xué)術(shù)創(chuàng)新力相關(guān)概念的辨析,指出了學(xué)術(shù)創(chuàng)新力的研究?jī)?nèi)涵:學(xué)術(shù)創(chuàng)新力是創(chuàng)新主體在對(duì)學(xué)術(shù)知識(shí)的采納、吸收、創(chuàng)新的過(guò)程中所體現(xiàn)出的素質(zhì)和能力。Mishra S等[2]人基于醫(yī)學(xué)主題詞表,對(duì)單篇文獻(xiàn)的主題新穎度進(jìn)行考量,提出了基于改進(jìn)詞頻統(tǒng)計(jì)等一系列方法。楊建林等[3]基于詞頻和共現(xiàn)詞分析等思想,提出了量化文檔主題新穎度的4項(xiàng)原則,給出了基于關(guān)鍵詞對(duì)逆文檔頻率的主題新穎度的計(jì)算公式,對(duì)衡量單篇文獻(xiàn)或作者個(gè)人的學(xué)術(shù)創(chuàng)新力有重要的指導(dǎo)意義。這些研究為本文構(gòu)建學(xué)術(shù)創(chuàng)新力測(cè)度體系概念本體構(gòu)建提供了思路。

        1.2 本體構(gòu)建相關(guān)研究

        領(lǐng)域本體構(gòu)建方法有一系列較為成熟方法,如七步法、IDEF-5法和骨架法等。本體在工程、醫(yī)學(xué)、圖書情報(bào)學(xué)等領(lǐng)域一直有廣泛應(yīng)用,相關(guān)研究主要集中在基于本體的各類工程產(chǎn)品設(shè)計(jì)、醫(yī)學(xué)術(shù)語(yǔ)間聯(lián)系構(gòu)建、圖情領(lǐng)域知識(shí)地圖構(gòu)建。具體構(gòu)建方法主要包括手工構(gòu)建、復(fù)用已有本體,近年來(lái)有學(xué)者開(kāi)始研究基于機(jī)器學(xué)習(xí)的本體構(gòu)建。手工構(gòu)建本體耗時(shí)費(fèi)力,且比較主觀,缺少科學(xué)管理和評(píng)價(jià)機(jī)制,復(fù)用已有本體或其他知識(shí)組織形式的非手工構(gòu)建方法,則可以較容易地獲取領(lǐng)域知識(shí)和概念關(guān)系。關(guān)于基于敘詞表的本體構(gòu)建方法的研究已經(jīng)較為成熟。唐愛(ài)民等[4]提出將《國(guó)防科學(xué)技術(shù)敘詞表》向本體轉(zhuǎn)換,形成軍用飛機(jī)領(lǐng)域本體的方法。丁晟春等[5]分析了航天科技敘詞表的知識(shí)組織結(jié)構(gòu)和詞間關(guān)系,完成了向航天領(lǐng)域本體的轉(zhuǎn)化,最后用OWL Lite實(shí)現(xiàn)半自動(dòng)化構(gòu)建。將機(jī)器學(xué)習(xí)方法應(yīng)用于本體的自動(dòng)構(gòu)建是目前的一個(gè)研究熱點(diǎn),但概念間關(guān)系的抽取依賴于復(fù)雜的語(yǔ)言處理模型。郭瑞[6]在構(gòu)建中文領(lǐng)域本體時(shí),以純文本為數(shù)據(jù)源,采用將一系列規(guī)則與統(tǒng)計(jì)的算法進(jìn)行有機(jī)結(jié)合的方法,抽取領(lǐng)域術(shù)語(yǔ)、概念和概念分類關(guān)系。文必龍等[7]在構(gòu)建石油領(lǐng)域本體的實(shí)踐中,將文本分析的思想引入本體方法論。蔣婷等[8-9]學(xué)者對(duì)學(xué)術(shù)概念等級(jí)關(guān)系和非等級(jí)關(guān)系的學(xué)術(shù)概念抽取進(jìn)行了細(xì)致的研究。上述研究為本文學(xué)術(shù)創(chuàng)新力測(cè)度體系知識(shí)資源本體構(gòu)建提供了借鑒。

        1.3 評(píng)價(jià)本體構(gòu)建相關(guān)研究

        目前國(guó)內(nèi)有一些基于本體的評(píng)價(jià)研究。周紅照等[10]對(duì)中文評(píng)價(jià)知識(shí)本體進(jìn)行研究,基于本體研究成果建立評(píng)價(jià)分析規(guī)則庫(kù),建立了一套基于詞典規(guī)則的評(píng)價(jià)分析系統(tǒng)。姜韶華等[11]在對(duì)《綠色建筑評(píng)價(jià)標(biāo)準(zhǔn)》(GB/T50378-2014)進(jìn)行分析的基礎(chǔ)上提出基于本體與BIM的綠色建筑智能評(píng)價(jià)系統(tǒng)。馮淑芳等[12]以汽車領(lǐng)域知識(shí)為背景,利用Web汽車評(píng)論語(yǔ)料庫(kù),自動(dòng)獲取本體知識(shí)庫(kù)中的核心概念,構(gòu)建了面向觀點(diǎn)挖掘的本體知識(shí)庫(kù)。Daraio等[13]學(xué)者開(kāi)發(fā)了一種基于本體的數(shù)據(jù)管理平臺(tái)ODBM(Ontology-Based Data Management),通過(guò)一個(gè)案例從多維度對(duì)創(chuàng)新實(shí)體進(jìn)行評(píng)價(jià)和監(jiān)測(cè)。Cano-Basave等[14]學(xué)者提出一個(gè)基于本體的語(yǔ)義創(chuàng)新預(yù)測(cè)模型(Semantic Innovation Forecast(SIF)model),并以計(jì)算機(jī)學(xué)科為例,驗(yàn)證改模型可以有效提高學(xué)術(shù)前沿的預(yù)測(cè)率。這些學(xué)者從不同角度對(duì)基于本體的評(píng)價(jià)和預(yù)測(cè)進(jìn)行研究,為本文基于領(lǐng)域知識(shí)的學(xué)術(shù)創(chuàng)新力測(cè)度本體研究提供了研究方法。

        1.4 本文研究目標(biāo)

        本文采用本體理論和技術(shù),結(jié)合學(xué)科領(lǐng)域知識(shí)實(shí)現(xiàn)學(xué)術(shù)創(chuàng)新力本體,首先分別構(gòu)造學(xué)術(shù)創(chuàng)新力概念本體和知識(shí)資源本體,然后實(shí)例化單指標(biāo)評(píng)價(jià)體系,將學(xué)術(shù)創(chuàng)新力概念本體與學(xué)術(shù)創(chuàng)新力知識(shí)資源本體合并成一個(gè)OWL本體,定義類屬關(guān)系,為大數(shù)據(jù)環(huán)境下學(xué)術(shù)創(chuàng)新力的自動(dòng)測(cè)度提供堅(jiān)實(shí)的知識(shí)資源基礎(chǔ)和保障。

        2 基于領(lǐng)域知識(shí)的學(xué)術(shù)創(chuàng)新力本體構(gòu)建

        2.1 學(xué)術(shù)創(chuàng)新力概念本體的構(gòu)建

        學(xué)術(shù)創(chuàng)新力概念本體是用來(lái)描述學(xué)術(shù)創(chuàng)新力測(cè)度領(lǐng)域內(nèi)的一些基本概念和概念間關(guān)系的本體。本文采用“七步法”的本體構(gòu)建工程思想,對(duì)學(xué)術(shù)創(chuàng)新力測(cè)度領(lǐng)域的核心概念、理論和方法,對(duì)其中的術(shù)語(yǔ)進(jìn)行明確的描述,形成公理化的認(rèn)知,這樣既可以幫助該領(lǐng)域的學(xué)者們建立一個(gè)形式化的概念體系結(jié)構(gòu),又有助于讓后來(lái)進(jìn)入這一領(lǐng)域的研究者們快速建立基本的認(rèn)知,進(jìn)而選擇合適的體系進(jìn)行測(cè)度,同時(shí)為該領(lǐng)域未來(lái)的學(xué)術(shù)創(chuàng)新力自動(dòng)測(cè)度研究提供底層知識(shí),實(shí)現(xiàn)資源共享,方便文獻(xiàn)資源的組織和利用,也避免了重復(fù)開(kāi)發(fā)相同資源。

        2.1.1 確定類及本體概念

        經(jīng)過(guò)調(diào)研得知,學(xué)術(shù)創(chuàng)新力自動(dòng)測(cè)度領(lǐng)域尚無(wú)本體方向的研究成果,因而也沒(méi)有可以復(fù)用的本體資源。所以需要手工抽取領(lǐng)域內(nèi)重要的術(shù)語(yǔ)或概念,在這一過(guò)程中,首先確定的是領(lǐng)域內(nèi)的最為重要的概念,然后在這些概念的基礎(chǔ)上,找出其相關(guān)概念,從而得到一份該領(lǐng)域范圍內(nèi)的所有概念的清單。

        在確定核心概念時(shí),將抽取的核心詞匯、術(shù)語(yǔ)分為了基本概念類、相似概念類、基本理論類、指標(biāo)概念類、基本方法類、測(cè)度體系類和外部特征類7類。

        1)基本概念類包含由學(xué)術(shù)創(chuàng)新力研究領(lǐng)域的研究者們定義的核心概念,如“學(xué)術(shù)創(chuàng)新力”、“創(chuàng)新績(jī)效”等。

        2)相似概念類包括與“學(xué)術(shù)創(chuàng)新力”定義相似的概念,如“學(xué)科創(chuàng)新力”。

        3)基本理論類包括應(yīng)用到該領(lǐng)域的一些核心理論,如“創(chuàng)新過(guò)程理論”、“創(chuàng)新系統(tǒng)理論”等。

        4)指標(biāo)概念類包括用于測(cè)度學(xué)術(shù)創(chuàng)新力的術(shù)語(yǔ)、指標(biāo)等,如“關(guān)鍵詞交叉率”等。

        5)基本方法類是測(cè)度過(guò)程中用到的方法,如“單指標(biāo)評(píng)價(jià)方法”、“灰色關(guān)聯(lián)分析”等。

        6)測(cè)度體系類包括現(xiàn)有關(guān)于學(xué)術(shù)創(chuàng)新力相關(guān)測(cè)度的體系,包括核心指標(biāo)評(píng)價(jià)體系、單指標(biāo)評(píng)價(jià)體系、基于DEA模型的指標(biāo)體系、基于三階段四維度的指標(biāo)體系。

        7)外部特征類是期刊文獻(xiàn)的基本信息,包括文獻(xiàn)的作者、機(jī)構(gòu)、中文刊名等。

        本文只手工抽取了54個(gè)核心概念,最終建立好的概念本體的類如圖1所示。

        2.1.2確定類間關(guān)系

        關(guān)系(Relations)是存在于概念間的交互作用,比如,part-of等基本的關(guān)系。對(duì)于特定領(lǐng)域,往往有不同于其他領(lǐng)域的情形,研究者們通常根據(jù)情形自定義符合需求的關(guān)系。本文也使用或自定義了一些適用于學(xué)術(shù)創(chuàng)新力概念本體的關(guān)系以滿足需要。

        1)可以描述上下位概念關(guān)系的subclass-of,如“單指標(biāo)評(píng)價(jià)體系”與“測(cè)度體系”之間的關(guān)系;

        2)可以描述類與實(shí)例關(guān)系的instance-of,如“有效新詞出現(xiàn)率”與“創(chuàng)新潛力”之間的關(guān)系;

        3)以描述概念來(lái)源關(guān)系的come-from,如“有效新詞出現(xiàn)率”這一概念來(lái)自期刊文獻(xiàn)《人文社會(huì)科學(xué)學(xué)科創(chuàng)新力單指標(biāo)評(píng)價(jià)》;

        4)可以描述文獻(xiàn)收錄關(guān)系的indexed-of,如《人文社會(huì)科學(xué)學(xué)科創(chuàng)新力單指標(biāo)體系》被收錄于《圖書與情報(bào)》中。

        2.1.3 定義屬性和約束

        概念間的關(guān)系由對(duì)象屬性揭示,因此在分析并確定好類間關(guān)系后,需要建立對(duì)應(yīng)的對(duì)象屬性名,確定屬性的類、定義域和取值范圍。此外類還可以擁有數(shù)據(jù)屬性,需要定義數(shù)據(jù)屬性的屬性名、取值類型等。對(duì)象屬性是定義的重點(diǎn)。本文創(chuàng)建的概念本體中,類的數(shù)據(jù)屬性主要是概念或理論的含義,將這一屬性命名為meaning,取值類型為string,定義域?yàn)閷W(xué)術(shù)創(chuàng)新力概念類、理論類。

        2.2 學(xué)術(shù)創(chuàng)新力知識(shí)資源本體的構(gòu)建

        學(xué)術(shù)創(chuàng)新力知識(shí)資源本體是在學(xué)術(shù)創(chuàng)新力測(cè)度過(guò)程中需要的知識(shí)資源的概念集合,如期刊文獻(xiàn)的關(guān)鍵詞。因而需要對(duì)測(cè)度過(guò)程中用到的關(guān)鍵詞進(jìn)行組織,形成測(cè)度過(guò)程中需要用到的知識(shí)資源。即用戶在選擇了某一種測(cè)度體系后,可以自動(dòng)對(duì)應(yīng)測(cè)評(píng)項(xiàng)涉及的具體數(shù)據(jù)資源,從而得出相關(guān)測(cè)評(píng)結(jié)果,如此便可以為人機(jī)交流和信息共享提供便利,為學(xué)術(shù)創(chuàng)新力自動(dòng)測(cè)度系統(tǒng)的研究提供基礎(chǔ)的知識(shí)資源和語(yǔ)義支持。

        2.2.1 確定學(xué)術(shù)創(chuàng)新力知識(shí)資源核心概念集

        本文以中國(guó)分類主題詞表中的G3和G25部分類中的概念,即信息科學(xué)領(lǐng)域的概念為基礎(chǔ),建立知識(shí)資源本體的初始本體概念集。知識(shí)資源本體包含概念1 697個(gè),其中分類概念148個(gè),主題詞概念1 549個(gè)。在主題詞中,具有屬分關(guān)系的主題詞274個(gè),具有相關(guān)關(guān)系的主題詞1 257個(gè)。隨后,為完善初始本體,加入2013-2017年間的信息科學(xué)領(lǐng)域的期刊論文的新詞概念2 274個(gè)。“新詞”是未被中國(guó)分類主題詞表收錄的信息科學(xué)領(lǐng)域的高頻關(guān)鍵詞。

        2.2.2 建立概念層次結(jié)構(gòu)

        主題詞表中的詞間關(guān)系可分為層次關(guān)系、等價(jià)關(guān)系和相關(guān)關(guān)系3種。層次關(guān)系映射到本體中的關(guān)系,可以有部分與整體的關(guān)系、類與實(shí)例的關(guān)系、繼承關(guān)系等情況,而為方便主題詞表向本體的自動(dòng)轉(zhuǎn)化,本文將層次關(guān)系粗映射為subclass-of類型的關(guān)系,等價(jià)關(guān)系可能存在“相似”或“相等”兩種語(yǔ)義,本文統(tǒng)一粗映射為equivalent-to關(guān)系。而相關(guān)關(guān)系語(yǔ)義更為復(fù)雜,通過(guò)觀察中國(guó)分類主題詞表可以發(fā)現(xiàn),存在相關(guān)關(guān)系的主題詞都在同一級(jí)目錄下,將其粗映射為coordinate-of關(guān)系。

        2.2.3 定義屬性和約束

        為建立概念層次結(jié)構(gòu),將詞間關(guān)系粗映射為subclass-of、equivalent-to、coordinate-of 3種,其中subclass-of可用owl標(biāo)簽〈SubClassOf〉直接實(shí)現(xiàn),因此還需要分別自定義其他2個(gè)對(duì)象屬性equivalent-to和coordinate-of,定義域、取值范圍都是一級(jí)主題詞或二級(jí)主題詞,可取值個(gè)數(shù)為多個(gè)。在完善本體的過(guò)程中,新增的新詞類,我們?yōu)槠涮砑訉?duì)象屬性“come-from”,其取值范圍為DOI類,可取值個(gè)數(shù)為多個(gè)。

        2.2.4 敘詞表向本體的批量自動(dòng)轉(zhuǎn)換過(guò)程

        本文用python和owl語(yǔ)言完成了敘詞表向本體的自動(dòng)轉(zhuǎn)換。首先從《中國(guó)分類主題詞表》Web版中抓取需要的G3類數(shù)據(jù)保存到Excel文件中,然后對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。用owl語(yǔ)言描述本體時(shí),類名中不能包含“\”、“/”、“〈”、“|”和空格等不合法的字符,而這些字符在分類主題詞表中常常出現(xiàn),預(yù)處理后即可根據(jù)之前的策略,分別定義類、屬性和約束,將類名、屬性名分別用〈/Declaration〉標(biāo)簽進(jìn)行裝飾,如〈Declaration〉〈Class IRI=″#情報(bào)學(xué)″/〉〈/Declaration〉即可建立一個(gè)名為“情報(bào)學(xué)”的類。本體中的關(guān)系是由“類—對(duì)象屬性—值”的結(jié)構(gòu)形成的,因此在確定概念層次結(jié)構(gòu)后,需要事先定義好屬性和約束,才能建立關(guān)系。完成上述定義后,將處理好的標(biāo)簽寫入owl文件即可得到初始本體,可以用protégé提供的可視化工具OntoGraf查看建立好的本體。部分本體如圖2所示。

        從圖2可以看出,信息科學(xué)領(lǐng)域的關(guān)鍵詞“情報(bào)學(xué)”、“圖書館學(xué)”、“文獻(xiàn)學(xué)”和他們的子類及分類關(guān)系,他們?cè)瓉?lái)的敘詞表中分別是分類詞和主題詞,在本體中以上下位的關(guān)系組織。點(diǎn)擊某個(gè)類還可以看到該類的數(shù)據(jù)屬性和與其他類的關(guān)系。

        2.2.5 本體完善

        為豐富學(xué)術(shù)創(chuàng)新力知識(shí)資源本體,本文利用中國(guó)知網(wǎng)的G3類部分期刊題錄數(shù)據(jù),抽取其中的新詞加入到初始核心本體中去。

        選取2013-2017年間的信息科學(xué)領(lǐng)域的期刊論文題錄數(shù)據(jù)為數(shù)據(jù)源,預(yù)處理包括篩選數(shù)據(jù)字段、記錄去重和復(fù)合關(guān)鍵詞的提取等,本研究需要用到年、DOI、復(fù)合關(guān)鍵詞這3個(gè)字段,最終得到30 850條可用于進(jìn)一步分析的數(shù)據(jù),以及61 680個(gè)復(fù)合關(guān)鍵詞。

        61 680個(gè)關(guān)鍵詞中,可能存在大量不屬于信息科學(xué)領(lǐng)域或意義不明確的詞,如“美國(guó)課程研究”和“進(jìn)路”,因此應(yīng)對(duì)復(fù)合關(guān)鍵詞進(jìn)行過(guò)濾。經(jīng)過(guò)統(tǒng)計(jì),61 680個(gè)關(guān)鍵詞的可能擁有的詞頻共有206種,詞頻最小為1,最大為1 451。詞頻較少意味著該關(guān)鍵詞可能不是與信息科學(xué)領(lǐng)域相關(guān)的詞,或者是無(wú)效的“新詞”,但也可能是由于該詞所反映的研究方向或研究對(duì)象,并不是這5年間信息科學(xué)領(lǐng)域研究的熱點(diǎn)。根據(jù)多次實(shí)驗(yàn)得出的結(jié)果,本文選取了詞頻大于等于11的復(fù)合關(guān)鍵詞,此時(shí)得到的關(guān)鍵詞與信息科學(xué)領(lǐng)域聯(lián)系更為密切。然后將上述關(guān)鍵詞集合與本體中已存在的關(guān)鍵詞概念集合取差集,即可得到“新詞”。最后對(duì)得到新詞進(jìn)行規(guī)范化處理,處理結(jié)束后即可將新詞按照定義類、確定類間關(guān)系以及定義屬性和約束的步驟將新關(guān)鍵詞的概念類、關(guān)系和屬性加入到初始核心本體中去,該過(guò)程由python和owl語(yǔ)言自動(dòng)轉(zhuǎn)化完成。

        3 本體實(shí)例化

        本節(jié)將通過(guò)實(shí)例化單指標(biāo)評(píng)價(jià)體系[15-16]中的評(píng)價(jià)指標(biāo)類:主關(guān)鍵詞、有效新詞和共現(xiàn)詞,以及實(shí)例化單指標(biāo)評(píng)價(jià)體系需要利用的期刊文獻(xiàn)類來(lái)完成實(shí)例化單指標(biāo)評(píng)價(jià)體系的任務(wù),并借由這一體系的實(shí)例化,實(shí)現(xiàn)概念本體和知識(shí)資源本體兩部分本體的全部構(gòu)建和最終組合。

        3.1 添加文獻(xiàn)類實(shí)例

        在單指標(biāo)評(píng)價(jià)體系中,需要用到的期刊題錄數(shù)據(jù)的字段有:篇名、作者、機(jī)構(gòu)、中文刊名、年、分類號(hào)以及 DOI。分別建立各個(gè)字段的集合,將集合中的元素包裝成實(shí)例的標(biāo)簽,逐一建立與對(duì)應(yīng)的類的關(guān)系。將處理好的“篇名”、“機(jī)構(gòu)”、“doi”、“中文刊名”類的實(shí)例數(shù)據(jù)寫入到概念本體的owl文件中。

        3.2 添加關(guān)系和屬性

        實(shí)例可以繼承所屬類的關(guān)系。首先,需要了解的是:篇名、作者、年、分類號(hào)、DOI、機(jī)構(gòu)和中文刊名,這七者之間的關(guān)系,在數(shù)據(jù)庫(kù)中,上述七者都是期刊文獻(xiàn)這一實(shí)體的屬性,DOI是期刊文件實(shí)體的唯一標(biāo)志,因而在本體中,應(yīng)該分別建立其他6個(gè)類與DOI類的關(guān)系“attribute-of”,其他還可以選擇建立篇名與作者的關(guān)系“written-by”,作者與機(jī)構(gòu)的關(guān)系“work-in”,刊名和篇名的關(guān)系“indexed-of”等。

        3.3 添加評(píng)價(jià)指標(biāo)體系類實(shí)例

        根據(jù)主關(guān)鍵詞、共現(xiàn)詞和有效新詞的概念及獲取方法,處理2016-2017年G3類期刊題錄數(shù)據(jù),得到詞頻為前20名的關(guān)鍵詞,即主關(guān)鍵詞,如表1所示:

        根據(jù)上述主關(guān)鍵詞可以再分別得出共現(xiàn)詞實(shí)例8 921個(gè)和有效新詞實(shí)例3 361個(gè)。將這些實(shí)例分別加入到對(duì)應(yīng)的類下,共建立關(guān)系12 191個(gè)。

        3.4 組合本體

        將文獻(xiàn)類實(shí)例和評(píng)價(jià)指標(biāo)類實(shí)例本體按照?qǐng)D3所示的概念層次結(jié)構(gòu),補(bǔ)充類和關(guān)系的定義,利用protégé提供的Import功能將兩部分本體組合成一個(gè)OWL工程,并且將知識(shí)資源本體中的DOI類與概念本體中的doi類建立新的關(guān)系:相等關(guān)系“equivalent to”,即可得到較為完整的學(xué)術(shù)創(chuàng)新力測(cè)度本體。

        4 結(jié)論及下一步工作

        本文旨在結(jié)合學(xué)科領(lǐng)域知識(shí),構(gòu)建學(xué)術(shù)創(chuàng)新力本體,為后續(xù)學(xué)術(shù)創(chuàng)新力自動(dòng)測(cè)度研究提供基礎(chǔ)支持,通過(guò)概念本體描述學(xué)術(shù)創(chuàng)新力測(cè)度領(lǐng)域的概念和模型的知識(shí)網(wǎng)絡(luò),知識(shí)資源本體將測(cè)度體系要用到的特定學(xué)科領(lǐng)域的知識(shí)資源進(jìn)行組織,二者合二為一才是可支持學(xué)術(shù)創(chuàng)新力自動(dòng)測(cè)度研究的實(shí)用本體。在研究過(guò)程中,共建立了30 097個(gè)概念,41 484多個(gè)實(shí)例以及320 609條關(guān)系,基本完成創(chuàng)建學(xué)術(shù)創(chuàng)新力測(cè)度本體的任務(wù)目標(biāo)。

        本文是對(duì)學(xué)術(shù)創(chuàng)新力測(cè)度領(lǐng)域構(gòu)建本體的首次嘗試,存在著一些不足之處。首先是前文提到的知識(shí)資源本體的完善,后續(xù)工作中可以考慮使用LDA模型抽取期刊文獻(xiàn)的主題詞加入其中,避免作者標(biāo)注關(guān)鍵詞的主觀性,這樣構(gòu)建出來(lái)的本體,在應(yīng)用于學(xué)術(shù)創(chuàng)新力測(cè)度時(shí)會(huì)幫助呈現(xiàn)更加客觀有效的結(jié)果。其次是構(gòu)建概念本體時(shí)采用了手工抽取相關(guān)核心概念的方式,這么做雖然可以保證抽取到的關(guān)鍵詞是準(zhǔn)確有效的,但是難免費(fèi)時(shí)費(fèi)力,當(dāng)學(xué)術(shù)創(chuàng)新力方面的研究成果爆發(fā)時(shí),更會(huì)顯得力不從心。因此后面可以考慮利用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法來(lái)自動(dòng)化的抽取核心概念。然后是在添加文獻(xiàn)類實(shí)例的過(guò)程中,本文簡(jiǎn)單將DOI類與其他6個(gè)類的關(guān)系定義為“attribute-of”,今后可以進(jìn)一步細(xì)化類間關(guān)系。最后是本文構(gòu)建的本體是為了后期的知識(shí)庫(kù)以及學(xué)術(shù)創(chuàng)新力自動(dòng)測(cè)度研究服務(wù)的,目前只添加了單指標(biāo)評(píng)價(jià)實(shí)例,還需要進(jìn)一步的添加其他測(cè)度體系和領(lǐng)域知識(shí)實(shí)例、概念間關(guān)系,不斷充實(shí)和完善本體,為學(xué)術(shù)創(chuàng)新力的自動(dòng)測(cè)度提供堅(jiān)實(shí)的基礎(chǔ)和保障。

        參考文獻(xiàn)

        [1]蔣偉偉.人文社會(huì)科學(xué)學(xué)術(shù)創(chuàng)新力測(cè)度研究[D].南京:南京大學(xué),2013:41.

        [2]Mishra S,Torvik V I.Quantifying Conceptual Novelty in the Biomedical Literature[J].Dlib Mag,2016,22(9-10).

        [3]楊建林,錢玲飛.基于關(guān)鍵詞對(duì)逆文檔頻率的主題新穎度度量方法[J].情報(bào)理論與實(shí)踐,2013,36(3):99-102.

        [4]唐愛(ài)民,真溱,樊靜.基于敘詞表的領(lǐng)域本體構(gòu)建研究[J].現(xiàn)代圖書情報(bào)技術(shù),2005,(4):1-5.

        [5]丁晟春,傅柱.基于航天敘詞表的領(lǐng)域本體半自動(dòng)化構(gòu)建研究[J].情報(bào)理論與實(shí)踐,2011,34(11):113-116.

        [6]郭瑞.基于純文本的領(lǐng)域本體構(gòu)建與實(shí)現(xiàn)[D].石家莊:河北科技大學(xué),2016:53.

        [7]文必龍,段煉,汪志群,等.基于語(yǔ)料庫(kù)和規(guī)則庫(kù)的石油本體自動(dòng)構(gòu)建研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(9):209-212.

        [8]蔣婷,孫建軍.領(lǐng)域?qū)W術(shù)本體概念等級(jí)關(guān)系抽取研究[J].情報(bào)學(xué)報(bào),2017,36(10):1080-1092.

        [9]蔣婷,孫建軍.學(xué)術(shù)資源本體非等級(jí)關(guān)系抽取研究[J].圖書情報(bào)工作,2016,60(20):112-122.

        [10]周紅照,侯敏,滕永林. 評(píng)價(jià)知識(shí)本體研究與規(guī)則實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2016,(10):25-32.

        [11]姜韶華,武靜.基于本體與BIM的綠色建筑智能評(píng)價(jià)系統(tǒng)[J].工程管理學(xué)報(bào),2016,30(4):35-39.

        [12]馮淑芳,王素格.面向觀點(diǎn)挖掘的汽車評(píng)價(jià)本體知識(shí)庫(kù)的構(gòu)建[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(5):45-47,105.

        [13]Daraio C,Lenzerini M,Leporelli C,et al.Data Integration for Research and Innovation Policy:An Ontology-Based Data Management Approach[J].Scientometrics,2016,106(2):857-871.

        [14]Cano-Basave A E,Osborne F,Salatino A A.Ontology Forecasting in Scientific Literature:Semantic Concepts Prediction Based on Innovation-Adoption Priors[C]//European Knowledge Acquisition Workshop.Springer International Publishing,2016.

        [15]錢玲飛,楊建林,張莉.基于關(guān)鍵詞分析的學(xué)科創(chuàng)新力比較[J].情報(bào)理論與實(shí)踐,2011,34(1):117-120.

        [16]錢玲飛,楊建林,鄧三鴻.人文社會(huì)科學(xué)學(xué)科創(chuàng)新力單指標(biāo)評(píng)價(jià)[J].圖書與情報(bào),2013,(2):93-98.

        (責(zé)任編輯:陳 媛)

        猜你喜歡
        構(gòu)建方法知識(shí)庫(kù)本體
        Abstracts and Key Words
        對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
        基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
        構(gòu)建符合學(xué)生心理的數(shù)學(xué)課堂
        淺論高中地理“雙動(dòng)兩案”的教學(xué)模式構(gòu)建
        考試周刊(2016年86期)2016-11-11 09:00:41
        如何構(gòu)建高效的小學(xué)語(yǔ)文課堂
        考試周刊(2016年76期)2016-10-09 08:48:33
        高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
        農(nóng)村電子商務(wù)成本效益數(shù)學(xué)模式的建立與研究
        《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
        基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        日韩人妻中文无码一区二区| 麻豆久久久国内精品| 亚洲一区二区三区99区| 亚洲天堂av高清在线| 在线视频国产91自拍| 少妇愉情理伦片| 青草国产精品久久久久久| 亚洲一区二区三区在线观看播放| 日本免费一区精品推荐| 无人视频在线播放免费| 精品人妻一区二区三区四区在线| 全球中文成人在线| 乱子伦av无码中文字幕| 亚洲一区二区国产精品视频| 蜜桃夜夜爽天天爽三区麻豆av| 国产麻花豆剧传媒精品mv在线| 欧美人与动牲交a精品| 欧美国产日产一区二区| 日韩精品一区二区亚洲av性色 | 日本女优免费一区二区三区| 精品人妻少妇av中文字幕| 精品少妇无码av无码专区| 人人妻人人玩人人澡人人爽| 精品999无码在线观看| 成人av资源在线观看| 欧洲美女熟乱av| 国产精品久久久久影院嫩草| 日产精品一区二区三区| 精品中文字幕久久久人妻| 蜜桃av在线免费网站| 少妇无码av无码一区| 91久久精品无码人妻系列| 日本在线播放不卡免费一区二区| 在线观看亚洲av每日更新影片 | 国产夫妻自偷自拍第一页| 亚洲av无码无线在线观看| 一本色道久久99一综合| 456亚洲人成在线播放网站| 日本高清不卡二区三区| 国产成人精品无码片区在线观看 | 亚洲爆乳少妇无码激情|