亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于領(lǐng)域本體學(xué)習(xí)資源庫自動構(gòu)建模型研究

        2015-11-02 02:34:05王銳何聚厚
        電子設(shè)計工程 2015年24期
        關(guān)鍵詞:知識庫資源庫網(wǎng)頁

        王銳,何聚厚

        (1.陜西師范大學(xué)計算機(jī)科學(xué)學(xué)院,陜西西安710119;2.陜西師范大學(xué)現(xiàn)代教學(xué)技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,陜西西安710119)

        基于領(lǐng)域本體學(xué)習(xí)資源庫自動構(gòu)建模型研究

        王銳1,何聚厚2

        (1.陜西師范大學(xué)計算機(jī)科學(xué)學(xué)院,陜西西安710119;2.陜西師范大學(xué)現(xiàn)代教學(xué)技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,陜西西安710119)

        領(lǐng)域?qū)W習(xí)資源構(gòu)建模型是實(shí)現(xiàn)個性化資源推薦、查詢檢索的關(guān)鍵因素,針對手動構(gòu)建領(lǐng)域資源庫費(fèi)時費(fèi)力和領(lǐng)域資源之間缺乏語義聯(lián)系問題,提出了一種基于領(lǐng)域本體和搜索算法的學(xué)習(xí)資源知識庫構(gòu)建模型,使用PageRank抓取算法對網(wǎng)頁資源進(jìn)行抓取,通過結(jié)合領(lǐng)域本體增強(qiáng)資源之間的語義聯(lián)系,從而完成特定領(lǐng)域資源知識庫的自動構(gòu)建。實(shí)驗(yàn)表明該模型解決了手動構(gòu)建領(lǐng)域資源庫費(fèi)時費(fèi)力和領(lǐng)域資源之間缺乏語義聯(lián)系的問題。

        知識庫;領(lǐng)域本體;PageRank;語義

        在21世紀(jì)的信息時代,互聯(lián)網(wǎng)為用戶提供了一個龐大的信息資源庫,面對海量的信息,用戶很難高效的找出自己需求的資源。因此出現(xiàn)了大量的個性化推薦、查詢算法,為用戶減輕“負(fù)擔(dān)”,但由于網(wǎng)絡(luò)上的信息資源庫過于龐大,導(dǎo)致推薦資源達(dá)不到用戶的要求,因此特定領(lǐng)域資源庫的構(gòu)建十分重要,它是影響推薦、查詢算法準(zhǔn)確性的關(guān)鍵因素。

        傳統(tǒng)的學(xué)習(xí)資源庫構(gòu)建主要是基于關(guān)鍵字手工或半自動化的將資源的相關(guān)信息存儲于知識庫中,知識庫中的學(xué)習(xí)資源之間相互獨(dú)立沒有任何聯(lián)系,在進(jìn)行個性化資源推送、查詢時會忽略了語義問題,即有可能忽略用戶的真正需求和查詢的真正意圖,這將會造成資源推薦、查詢的不準(zhǔn)確。同時,考慮到學(xué)習(xí)資源信息的呈現(xiàn)方式,如:文字、圖形、音頻、視頻等對用戶的興趣度及學(xué)習(xí)效果的影響不同[1],本文提出了一種基于領(lǐng)域本體和搜索算法的學(xué)習(xí)資源知識庫自動構(gòu)建模型,該模型改進(jìn)了經(jīng)典的PageRank算法,主要思想是PageRank算法在進(jìn)行網(wǎng)頁相似性分析時,結(jié)合領(lǐng)域本體,同時對網(wǎng)頁中資源之間的語義相關(guān)性進(jìn)行分析抓取資源,最后根據(jù)信息的不同呈現(xiàn)方式對用戶興趣影響不同將信息資源存于不同的數(shù)據(jù)庫表中,完成特定領(lǐng)域資源知識庫的自動構(gòu)建。

        1 學(xué)習(xí)資源庫構(gòu)建模型

        目前學(xué)習(xí)資源庫構(gòu)建模型主要有以下兩種方式:

        1)手動構(gòu)建模型,主要思想是,首先相關(guān)領(lǐng)域?qū)<覍⒈绢I(lǐng)域相關(guān)知識資源的關(guān)鍵字羅列出來,然后,手動將關(guān)鍵字及其對應(yīng)的資源加入學(xué)習(xí)資源庫中,重復(fù)此過程,直到關(guān)鍵字已全部加入學(xué)習(xí)資源庫。

        手動模型,雖然能將所需的關(guān)鍵字及其資源存入資源庫中,但隨著領(lǐng)域規(guī)模的擴(kuò)大,羅列的關(guān)鍵字會越來越多,相對應(yīng)的資源也更加豐富,此時手動構(gòu)建模型費(fèi)時費(fèi)力,已不能滿足要求。為解決手動費(fèi)時費(fèi)力的問題,提出了半自動構(gòu)建模型。

        2)半自動構(gòu)建模型,主要思想是,利用網(wǎng)頁抓取算法在網(wǎng)絡(luò)上根據(jù)關(guān)鍵字抓取資源存入資源庫中。關(guān)于網(wǎng)頁抓取策略的研究,國外開始于20世紀(jì)90年代末,Cho等人第一次引入了網(wǎng)頁抓取策略的概念。之后,網(wǎng)頁抓取的方法不斷涌現(xiàn)。主要有寬度優(yōu)先網(wǎng)頁抓取策略、基于反向鏈接數(shù)的網(wǎng)頁抓取策略、PageRank、Shark-Search、Best-FirstSearch等算法。自動構(gòu)建模型利用抓取算法根據(jù)關(guān)鍵詞來抓取資源,雖然解決了費(fèi)時費(fèi)力的問題,但是領(lǐng)域資源庫中的資源之間相互獨(dú)立、沒有語義聯(lián)系。

        2 領(lǐng)域本體及其構(gòu)建

        本體[2]這個概念最早是在哲學(xué)中使用的,表達(dá)“存在論”,對世界上客觀存在的事物進(jìn)行系統(tǒng)的描述,對其本質(zhì)進(jìn)行抽象。隨著信息技術(shù)的飛速發(fā)展,本體被引入到計算機(jī)領(lǐng)域并得到廣泛的應(yīng)用。但是,到目前為止,本體一詞還沒有一個準(zhǔn)確的含義。自1993年Gruber提出“本體是概念的模型明確的規(guī)范說明”以后,它主要通過概念、概念之間的關(guān)系、屬性、實(shí)例四個方面來描述概念之間的語義。領(lǐng)域本體是對特定領(lǐng)域概念、屬性及關(guān)系進(jìn)行描述,對該領(lǐng)域內(nèi)的知識進(jìn)行抽象、描述、表達(dá)語義,從而達(dá)到信息整合與共享。本文以〈〈數(shù)據(jù)結(jié)構(gòu)〉〉課程為例,參考“七步法”[3]構(gòu)建數(shù)據(jù)結(jié)構(gòu)本體。構(gòu)建過程如下:

        1)數(shù)據(jù)結(jié)構(gòu)課程中概念的抽取。主要有:數(shù)據(jù)結(jié)構(gòu),線性結(jié)構(gòu),樹形結(jié)構(gòu),圖形結(jié)構(gòu),排序,線性表,棧,隊列,串,數(shù)組,廣義表,樹,二叉樹,森林,哈夫曼樹,鏈表,順序表,有向圖,完全圖,查找等概念。

        2)概念屬性的確定。在本體描述語言O(shè)WL中Property包含3種。

        一種是對象屬性(Object Properties),它表達(dá)實(shí)例和實(shí)例、類和類之間的關(guān)。如,在數(shù)據(jù)結(jié)構(gòu)本體中包含8種主要的對象屬性,分別是,isSame、isSubclass、isPartOf、isSibling、isUpper、isLower、isRelation、isExercise。具體含義如下面表1所示。

        表1 概念間的對象屬性Tab.1The object properties between concepts

        一種是數(shù)據(jù)屬性(Data Properties),它是實(shí)例的基本屬性,表達(dá)實(shí)例和基本數(shù)據(jù)類型之間的關(guān)系。如,在此本體中包含的主要數(shù)據(jù)屬性有定義、存儲結(jié)構(gòu)、邏輯結(jié)構(gòu)、遍歷、分類、應(yīng)用、最短路徑、算法、代碼、轉(zhuǎn)換。

        最后一種是解釋屬性(Annotation properties),它可以用來解釋類、對象屬性、數(shù)據(jù)屬性、實(shí)例,屬于元數(shù)據(jù),不常用。

        3)向資源庫中添加實(shí)例。本文通過抓取算法結(jié)合數(shù)據(jù)結(jié)構(gòu)本體進(jìn)行自動構(gòu)建,具體操作見下文。

        圖1所示為用Protégé4.3構(gòu)建的〈〈數(shù)據(jù)結(jié)構(gòu)〉〉課本中線性表的類關(guān)系圖。

        圖1 系統(tǒng)軟件設(shè)計結(jié)構(gòu)圖Fig.1Schematic diagram of the software test system

        3 PageRank算法的基本原理

        PageRank算法[4]是1998年Larry Page和Sergey Brin提出的。此算法認(rèn)為,一個頁面被多次引用,則這個頁面很可能是重要的,一個頁面盡管沒有被多次引用,但被一個重要頁面引用,則這個頁面的重要性被均勻地傳遞到它所引用的頁。PageRank評價標(biāo)準(zhǔn)認(rèn)為每個超鏈接的重要性與包含這個超鏈接的原web網(wǎng)頁的重要性是成比例的,而不是每個鏈接的重要性都相同。一個網(wǎng)頁的PR值的計算公式為:

        其中,Ti(i:1,2,…,n)是指向網(wǎng)頁P(yáng)的其他網(wǎng)頁,C(Ti)是網(wǎng)頁T向外指出的鏈接數(shù)目,?是(0,1)區(qū)間上的規(guī)范化因子,一般取值為0.85,經(jīng)過簡單的迭代就可以計算出PR(P)的值。由公式(1)可以看到,基本的PageRank算法中網(wǎng)頁P(yáng)的PR值僅與其鏈入的超鏈接的個數(shù)以及鏈入的超鏈的PR值有關(guān),因此存在偏重舊網(wǎng)頁、主題漂移等問題[5]。針對這些問題,李瑞提出了PageRank算法權(quán)威值均分的改進(jìn)[6],楊博等人提出基于超鏈接多樣性分析的新型網(wǎng)頁排名算法[7],潘偉豐等人通過加權(quán)模型分析PR所識別關(guān)鍵包的傳播影響來確定PR值[8]。但這些方法都是在互聯(lián)網(wǎng)提供的龐大資源庫中進(jìn)行,對沒有考慮特定領(lǐng)域中的內(nèi)容主題相關(guān)因素的影響。因此,本文結(jié)合領(lǐng)域本,對基本PageRank算法進(jìn)行改進(jìn),在抓取數(shù)據(jù)時一方面考慮網(wǎng)頁鏈接的相關(guān)性,另一方面考慮內(nèi)容與領(lǐng)域本體的相關(guān)性。

        4 基于本體的學(xué)習(xí)資源庫構(gòu)建模型

        為了構(gòu)建特定領(lǐng)域的學(xué)習(xí)資源庫,本文結(jié)合領(lǐng)域本體,從領(lǐng)域本體概念和網(wǎng)頁主題的語義相似度和網(wǎng)頁鏈接相似度兩個因素入手,改進(jìn)基本PageRank算法,從而自動構(gòu)建領(lǐng)域資源庫。

        基于本體的學(xué)習(xí)資源庫構(gòu)建模型算法如下:

        1)首先在t_concept表中查找第一個本體概念,接著利用PageRank算法抓取第一個網(wǎng)頁,同時計算此網(wǎng)頁中的主題概念與當(dāng)前的本體概念的語義相似度,借鑒已有的語義相似度計算方法,具體如下:

        ①考慮語義距離、層次因素對概念間的語義相似度的影響

        其中sc1,c2=Level(c1)+Level(c2)是概念c1和c2的層次和,dc1,c2=|Level(c1)-Level(c2)|,是概念c1和c2的層次差,L是本體的總層數(shù)。

        Level(c1)表示概念c1所在的層次,depth(LCS(c1,c2))概念c1和c2共同的最小分類LCS所在的層次。

        ②考慮上下位概念重合度對語義相似度的影響的度量算法如下:

        其中,ud(c1)表示c1的上下位概念集合,ud(c2)表示c2的上下位概念集合。

        ud(c1)∩ud(c2)表示概念c1和c2相同的上下位概念集合,ud(c1)∪ud(c2)表示概念c1和c2所有的上下位概念集合。綜合考慮①、②因素,添加?,β進(jìn)行調(diào)節(jié),公式如下:

        由式(4)就可以計算出此網(wǎng)頁中的主題概念與當(dāng)前的本體概念的語義相似度

        2)從時間效應(yīng)考慮,在基本PageRank算法基礎(chǔ)上為頁面增加一個時間因子,使新網(wǎng)頁排名靠前,時間因子公式如下:

        其中,D是本網(wǎng)頁的時間因子,d為阻尼系數(shù),Td表示爬取到這張網(wǎng)頁的次數(shù),次數(shù)越多說明時間越長,R是采集時間,λ為時間參數(shù)調(diào)節(jié)因子。綜合1)、2)兩個方面,改進(jìn)PageRank算法的PR值計算式為:

        3)通過步驟2)計算出當(dāng)前網(wǎng)頁的PR值,當(dāng)PR值達(dá)到要求時,將當(dāng)前網(wǎng)址存于數(shù)據(jù)庫對應(yīng)的數(shù)據(jù)表中。

        4)重復(fù)1)~3)步驟,直到表t_concept中的所有概念查完。

        通過基于本體的學(xué)習(xí)資源庫構(gòu)建模型就可以完成特定領(lǐng)域?qū)W習(xí)資源庫的自動構(gòu)建。

        5 實(shí)驗(yàn)

        為了驗(yàn)證該模型的有效性,本文基于本體建模工具Protégé4.3構(gòu)建了〈〈數(shù)據(jù)結(jié)構(gòu)〉〉課程本體,基于Jean接口完成本體文件到關(guān)系數(shù)據(jù)庫MySQl的存儲。由于本體文件存儲形式存儲的數(shù)據(jù)量較小而且每次使用開銷大,所以本文選擇用關(guān)系數(shù)據(jù)庫存儲數(shù)據(jù)。為了滿足特定領(lǐng)域的個性化推薦、查詢的方便,根據(jù)學(xué)習(xí)資源信息的呈現(xiàn)方式不同用戶的興趣度不同,主要分為視頻音頻、文字、圖像3種類型,將數(shù)據(jù)以3種類型存于3張不同的數(shù)據(jù)表中。數(shù)據(jù)庫中的7張表如圖2所示。

        圖2 數(shù)據(jù)庫的7張表Fig.2Seven tables in database

        抓取的學(xué)習(xí)資源存于數(shù)據(jù)表t_wordEntity,t_imageEntity,t_mediaEntity表中,如圖3所示。

        6 結(jié)論

        該模型對基本PageRank算法進(jìn)行改進(jìn),在其基礎(chǔ)上結(jié)合領(lǐng)域本體,使得在抓取學(xué)習(xí)資源的時候,參照本體之間的語義關(guān)系,與已有的構(gòu)建模型相比,解決了人工費(fèi)時費(fèi)力的問題,同時又構(gòu)建了具有語義關(guān)系的學(xué)習(xí)資源庫,為個性化資源推薦、查詢檢索的準(zhǔn)確性奠定基礎(chǔ)。

        圖3 t_wordEntity表Fig.3Table t_wordEntity

        [1]康誠,周愛保.信息呈現(xiàn)方式與學(xué)習(xí)者的個性特征對多媒體環(huán)境下學(xué)習(xí)效果的影響[J].心理發(fā)展與教育,2009(1):83-90.

        [2]吳建絨.論基于本體的領(lǐng)域知識庫構(gòu)建[J].科技創(chuàng)新導(dǎo)報,2010(30):250-251.

        [3]馬曉丹,鄧曉晴,彭文娟,等.基于領(lǐng)域本體的知識庫架構(gòu)和實(shí)現(xiàn)[J].河北聯(lián)合大學(xué)學(xué)報:自然科學(xué)報,2012,34(4):44-45.

        [4]PAGE L,BRINS,MOTWANI R,et al.The PageRank Citation Ranking:Bring order to the Web[EB/OL].(1998-12-19)http://ilpubs.Stanford.edu:8090/422,1998.

        [5]劉恩海,張梅芳,李天義.基于兩級修正的頁面排序改進(jìn)算法[J].計算機(jī)工程與設(shè)計,2014,35(6):2024-2028.

        [6]李瑞,郭小溪.PageRank算法權(quán)威值均分的改進(jìn)[J].大連交通大學(xué)學(xué)報,2013,34(2):109-110.

        [7]楊博,陳賀昌,朱冠宇,等.基于超鏈接多樣性分析的新型網(wǎng)頁排名算法[J].計算機(jī)學(xué)報,2014,37(4):833-834.

        [8]潘偉豐,李兵,馬于濤,等.基于加權(quán)PageRank算法的關(guān)鍵包識別方法[J].電子學(xué)報,2014,37(4):833-834.

        Research of learning resources building model based on domain ontology

        WANG Rui1,HE Ju-hou2
        (1.School of Computer Science,Shaanxi Normal University,Xi'an 710119,China;2.Key Laboratory of Modern Teaching Technology,Ministry of Education,Shaanxi Normal University,Xi'an 710119,China)

        Learning resources building model based on domain ontology is a key factor to achieve a specific field of personalized resources recommended,query and retrieve.For repository time-consuming and laborious in manual build and lacking of semantic contact between resources,this paper propose learning resources building model based on domain ontology and search algorithm.Using PageRank algorithm to grab web resources,by combining domain ontology enhance the semantic relations between the resources,to complete automated building knowledge base resources in special fields.The experiment show that the model solves laborious problem of learning resources building manually and lacking of semantic relations between learning resources.

        knowledge base;domain ontology;PageRank;semantic

        TN91

        A

        1674-6236(2015)24-0032-04

        2015-03-20稿件編號:201503273

        中央高校基本科研業(yè)務(wù)費(fèi)專項資金資助(GK201002028,GK201101001)

        王銳(1988—),女,陜西西安人,碩士研究生。研究方向:資源信息推薦。

        猜你喜歡
        知識庫資源庫網(wǎng)頁
        健身氣功開放課程資源庫建設(shè)研究
        貴州●石斛種質(zhì)資源庫
        基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計中的應(yīng)用
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        高中歷史信息化教育資源庫應(yīng)用探索
        福建基礎(chǔ)教育教學(xué)資源庫建設(shè)研究——以福建基礎(chǔ)教育網(wǎng)資源庫為例
        高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        一级黄片草逼免费视频| 日本强好片久久久久久aaa| 日本丰满妇人成熟免费中文字幕| 国产性感丝袜美女av| 亚洲乱码中文字幕视频| 老师露出两个奶球让我吃奶头| 亚洲一区二区三区日本久久九| 亚洲欧美香港在线观看三级片| 国产三区三区三区看三区| 丝袜美腿一区二区三区| 成在人线av无码免费| 2022AV一区在线| 日本一区二区三区亚洲| 两个人看的www免费视频中文| 国产精品国产三级农村妇女| 亚洲一区二区三区99区| 亚洲成人福利在线视频| 内射爽无广熟女亚洲| 91精品国产丝袜在线拍| 亚洲精品在线观看自拍| 色综合久久网| 日本不卡在线视频二区三区| 精品国产午夜久久久久九九| 精品人妻少妇丰满久久久免 | 亚洲人成7777影视在线观看| 日本最新一区二区三区视频| 女色av少妇一区二区三区| 狠狠做深爱婷婷久久综合一区| 亚洲人成精品久久久久| 午夜麻豆视频在线观看| 狠狠色丁香婷婷综合潮喷| 亚洲中文无码永久免| 国产99精品精品久久免费| 中文字幕精品人妻在线| 精品水蜜桃久久久久久久| 久久精品国产亚洲一区二区| 蜜桃国产精品视频网站| 国产伦精品一区二区三区妓女| 91精彩视频在线观看| 亚洲一级天堂作爱av| 免费观看a级片|