亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Alfresco的出版社資源庫(kù)系統(tǒng)的研究與實(shí)現(xiàn)

        2015-08-22 08:17:59李亞芬李征
        軟件 2015年5期
        關(guān)鍵詞:數(shù)字出版資源庫(kù)

        李亞芬 李征

        摘要:針對(duì)出版社內(nèi)資源采集渠道不便,資源管理混亂等問(wèn)題,本文使用開(kāi)源資源庫(kù)Alfresco開(kāi)發(fā)全新的資源庫(kù)系統(tǒng),實(shí)現(xiàn)了對(duì)社內(nèi)資源的重新整合與統(tǒng)一管理。特別是,提出詞語(yǔ)語(yǔ)義相似度加權(quán)的TextRank方法對(duì)采集到的文本資源進(jìn)行自動(dòng)標(biāo)注,這對(duì)數(shù)字出版中教材的創(chuàng)作有著非常大的幫助作用。

        關(guān)鍵詞:數(shù)字出版;資源庫(kù);Alfresco;TextRank

        中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1003-6970.2015.05.008

        0 引言

        隨著計(jì)算機(jī)技術(shù)、通訊技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)字出版業(yè)務(wù)相對(duì)傳統(tǒng)出版業(yè)務(wù),逐漸顯示出獨(dú)特的優(yōu)勢(shì)。外研社正處在由傳統(tǒng)出版到數(shù)字出版的轉(zhuǎn)型期。數(shù)字出版是為數(shù)據(jù)庫(kù)而編寫(xiě)內(nèi)容,更強(qiáng)調(diào)了內(nèi)容數(shù)據(jù)的重要性和內(nèi)容的可重復(fù)利用性。它將內(nèi)容拆分成一個(gè)個(gè)的獨(dú)立的內(nèi)容單元,通過(guò)模板對(duì)這些內(nèi)容單元進(jìn)行按需重組,最后由動(dòng)態(tài)發(fā)布引擎,生成紙質(zhì)書(shū)、電子書(shū)、光盤(pán)等一系列的出版產(chǎn)品,實(shí)現(xiàn)按需出版業(yè)務(wù)。因此,資源的采集和初步加工是實(shí)現(xiàn)數(shù)字出版的前序環(huán)節(jié)。

        目前,外研社的出版業(yè)務(wù)中存在以下一些問(wèn)題。作者編寫(xiě)內(nèi)容的結(jié)構(gòu)差異,導(dǎo)致了出版社在處理作者交稿的時(shí)候,需要占用很大的精力去處理內(nèi)容結(jié)構(gòu)差異,同時(shí),資源采集渠道的不便也會(huì)影響資源采集的數(shù)量和質(zhì)量,也不便于出版社實(shí)現(xiàn)采集的資源的全社使用和統(tǒng)一管理。社里目前只是對(duì)資源進(jìn)行簡(jiǎn)單地存儲(chǔ)和基于文件夾的分類(lèi),缺乏對(duì)資源的描述,使資源的可利用性差。所以,本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)面向互聯(lián)網(wǎng)和內(nèi)網(wǎng)的資源采集、資源標(biāo)注等綜合型的資源庫(kù)系統(tǒng),可以提供方便快捷的資源上傳、資源轉(zhuǎn)換功能,在很大程度上減少出版社收集資源的時(shí)間和人工成本。本文還使用詞語(yǔ)語(yǔ)義相似度加權(quán)的TextRank方法對(duì)社內(nèi)的教育資源進(jìn)行基于知識(shí)點(diǎn)的自動(dòng)標(biāo)注,方便創(chuàng)作者按照教學(xué)目的對(duì)內(nèi)容資源進(jìn)行檢索和重新組織,這對(duì)數(shù)字出版中教材的創(chuàng)作有著非常大的幫助作用。

        1 系統(tǒng)功能設(shè)計(jì)

        1.1 總體功能模塊

        本文重點(diǎn)對(duì)外研社的出版生產(chǎn)業(yè)務(wù)過(guò)程進(jìn)行了詳細(xì)的調(diào)研,設(shè)計(jì)出的資源庫(kù)系統(tǒng)由資源管理、資源加工、用戶(hù)管理、日志管理四大功能模塊組成。詳細(xì)見(jiàn)圖l所示。

        (1)資源管理模塊主要提供資源的上傳下載、查看預(yù)覽、查詢(xún)等;

        (2)資源加工模塊主要提供對(duì)資源的格式轉(zhuǎn)換拆分和資源的知識(shí)點(diǎn)標(biāo)注;

        (3)用戶(hù)管理模塊主要提供對(duì)用戶(hù)的權(quán)限、信息的編輯和查詢(xún);

        (4)日志管理模塊負(fù)責(zé)記錄用戶(hù)行為,包括登陸、查看數(shù)據(jù)、下載數(shù)據(jù)、使用數(shù)據(jù)等。

        1.2 資源知識(shí)點(diǎn)標(biāo)注

        資源加工模塊提供對(duì)資源的知識(shí)點(diǎn)標(biāo)注。資源知識(shí)點(diǎn)標(biāo)注是資源智能化的重要體現(xiàn)方式之一。外研社資源主要包括各類(lèi)大中小學(xué)教材教輔,文本資源占絕對(duì)大部分,每個(gè)文本資源內(nèi)部都有一定的知識(shí)結(jié)構(gòu)。經(jīng)過(guò)知識(shí)點(diǎn)標(biāo)注的資源具有功能上的獨(dú)立性。方便創(chuàng)作者按照教學(xué)目的對(duì)內(nèi)容資源進(jìn)行組織。編輯人員的專(zhuān)業(yè)領(lǐng)域知識(shí)往往不夠完備,知識(shí)點(diǎn)標(biāo)注易受主觀(guān)因素影響,使標(biāo)注的準(zhǔn)確度降低。人工標(biāo)注還要耗費(fèi)一定的精力和體力,工作效率會(huì)降低。因此,本文提出了資源的知識(shí)點(diǎn)自動(dòng)標(biāo)注。

        關(guān)鍵詞是表達(dá)一個(gè)文檔核心意義的最小單元。本文選擇文本關(guān)鍵詞作為知識(shí)點(diǎn)。選擇適當(dāng)?shù)年P(guān)鍵詞提取方法就顯得非常重要。目前的關(guān)鍵詞提取方法分為有監(jiān)督的方法和無(wú)監(jiān)督的方法兩大類(lèi)。有監(jiān)督的方法需要通過(guò)訓(xùn)練語(yǔ)料構(gòu)建模型實(shí)現(xiàn),無(wú)監(jiān)督的方法僅借助于詞語(yǔ)之間的關(guān)系直接從文本本身提取,無(wú)需訓(xùn)練過(guò)程,計(jì)算速度快,應(yīng)用較為方便??紤]到在上傳文檔資源時(shí),自動(dòng)完成關(guān)鍵詞的提取,無(wú)監(jiān)督方法既可以保證提取關(guān)鍵詞的準(zhǔn)確性,又能保證計(jì)算的快速性,因此本文選用無(wú)監(jiān)督的方法實(shí)現(xiàn)關(guān)鍵詞的提取。TextRank方法其中的代表,在眾多無(wú)監(jiān)督關(guān)鍵詞提取方法中表現(xiàn)出卓越的性能。本文對(duì)傳統(tǒng)的TextRank進(jìn)行改進(jìn),使用詞語(yǔ)語(yǔ)義相似度加權(quán)的TextRank關(guān)鍵詞提取算法,使其更加適用于知識(shí)點(diǎn)的標(biāo)注。

        資源庫(kù)提供基于知識(shí)點(diǎn)的查詢(xún)。在輸入查詢(xún)檢索詞后,首先將檢索詞與知識(shí)點(diǎn)關(guān)聯(lián)網(wǎng)中的知識(shí)點(diǎn)進(jìn)行匹配。知識(shí)點(diǎn)關(guān)聯(lián)網(wǎng)是以樹(shù)形結(jié)構(gòu)表示知識(shí)點(diǎn)之間關(guān)聯(lián)的網(wǎng)絡(luò)。若匹配成功,則選擇該知識(shí)點(diǎn)的上一級(jí)知識(shí)點(diǎn)一同作為檢索詞拋給搜索引擎,進(jìn)行資源的知識(shí)點(diǎn)檢索,這樣可以檢索到相關(guān)資源。

        2 資源庫(kù)架構(gòu)設(shè)計(jì)

        本系統(tǒng)主要是基于外研社內(nèi)網(wǎng)和互聯(lián)網(wǎng),除了為社外人員提供提交資源的入口外,主要為社內(nèi)工作人員搭建一個(gè)共享社內(nèi)數(shù)字資源的平臺(tái)。因此決定采用browser/server(簡(jiǎn)稱(chēng)B/S)結(jié)構(gòu)的設(shè)計(jì)思想。Alfresco一款優(yōu)秀的開(kāi)源資源庫(kù),是一個(gè)完全的Java應(yīng)用程序,基于J2EE框架,如圖2所示。它是B/S結(jié)構(gòu)。Alfresco中的內(nèi)容應(yīng)用程序和web應(yīng)用程序都是基于內(nèi)容存儲(chǔ)庫(kù)的服務(wù)上開(kāi)發(fā)的,內(nèi)容存儲(chǔ)庫(kù)處于資源庫(kù)的最底層,由數(shù)據(jù)庫(kù)、索引和內(nèi)容文件組成,是資源庫(kù)的核心。

        Alfresco是基于Java開(kāi)源框架Spring開(kāi)發(fā)的,它提供了一系列可以通過(guò)不同接口調(diào)用的數(shù)據(jù)存儲(chǔ)服務(wù),通過(guò)以下三個(gè)基本服務(wù)實(shí)現(xiàn)存儲(chǔ)訪(fǎng)問(wèn)內(nèi)容:節(jié)點(diǎn)服務(wù)、內(nèi)容服務(wù)和搜索服務(wù)。內(nèi)容是信息數(shù)據(jù)的載體,通過(guò)內(nèi)容服務(wù),元數(shù)據(jù)及內(nèi)容都可以根據(jù)內(nèi)容模型的規(guī)則定義被結(jié)構(gòu)化。

        本文通過(guò)對(duì)Alfresco進(jìn)行開(kāi)發(fā)與定制,使其滿(mǎn)足本文的需求。Alfresco中,資源的元數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)里,而內(nèi)容本身則以二進(jìn)制文件的形式存儲(chǔ)在文件系統(tǒng)中,數(shù)據(jù)庫(kù)存儲(chǔ)提供高效的查詢(xún)、事務(wù)處理及管理功能,而文件系統(tǒng)則保存比較大的內(nèi)容數(shù)據(jù)。根據(jù)Alfresco的架構(gòu)形式,本文對(duì)資源庫(kù)進(jìn)行架構(gòu)設(shè)計(jì),如圖3所示,使用內(nèi)容存儲(chǔ)庫(kù)提供的基本服務(wù)實(shí)現(xiàn)資源加工模塊、資源管理模塊,用戶(hù)管理模塊功能的開(kāi)發(fā)。關(guān)系數(shù)據(jù)庫(kù)中主要提供資源元數(shù)據(jù)信息的存儲(chǔ)、用戶(hù)信息的存儲(chǔ)、機(jī)構(gòu)組織信息以及知識(shí)點(diǎn)關(guān)聯(lián)信息的存儲(chǔ)。物理文件系統(tǒng)提供對(duì)資源的二進(jìn)制形式文件存儲(chǔ)。

        3 資源庫(kù)實(shí)現(xiàn)的關(guān)鍵方法和技術(shù)

        3.1 詞語(yǔ)語(yǔ)義相似度加權(quán)TextRank

        關(guān)鍵詞提取算法

        TextRank的思想來(lái)源于PageRank,通過(guò)把文本分割成若干組成單元并建立圖模型,結(jié)點(diǎn)代表詞語(yǔ),邊代表詞語(yǔ)之間的關(guān)聯(lián),利用投票機(jī)制對(duì)文本中的重要成分進(jìn)行排序,一個(gè)結(jié)點(diǎn)鏈人的結(jié)點(diǎn)集表示其投票支持者,投票者越重要,數(shù)量越多,則被投票者的排名越靠前。僅利用單篇文檔本身的信息即可實(shí)現(xiàn)關(guān)鍵詞提取。傳統(tǒng)TextRank中,某個(gè)詞語(yǔ)的影響力分值是均勻傳遞到與其相鄰的詞語(yǔ)中,構(gòu)建的圖模型是一種無(wú)項(xiàng)無(wú)權(quán)圖,考慮到本文要處理的是自然語(yǔ)言文本,部分詞語(yǔ)之間的關(guān)聯(lián)度會(huì)更高一些,因此,本文引入邊權(quán)重計(jì)算。由于教育資源中,知識(shí)點(diǎn)易共現(xiàn),同時(shí)知識(shí)點(diǎn)之間存在較大語(yǔ)義相似度,本文考慮將相關(guān)聯(lián)的詞之間的語(yǔ)義相似度,加入邊權(quán)重計(jì)算中,夏天等考慮詞語(yǔ)本身的重要性差異,提出了考慮詞語(yǔ)結(jié)點(diǎn)影響力的相關(guān)因素的詞語(yǔ)位置加權(quán)的TextRank方法,該方法引入詞語(yǔ)的覆蓋影響力、位置影響力和頻度影響力用于計(jì)算詞語(yǔ)之間的影響力概率轉(zhuǎn)移矩陣。本文考慮到知識(shí)點(diǎn)往往出現(xiàn)在文章標(biāo)題中,往往是文中的高頻詞匯,因此本文在邊權(quán)重計(jì)算中加入位置影響力和頻度影響力,提出了詞語(yǔ)語(yǔ)義相似度加權(quán)的TextRank方法。

        令G=(V,E)為結(jié)點(diǎn)集和邊集構(gòu)成的有向圖,V為結(jié)點(diǎn)集,由文本中的候選關(guān)鍵詞構(gòu)成,候選關(guān)鍵詞指經(jīng)過(guò)中文分詞、詞性過(guò)濾、去停用詞處理后,獲得的詞語(yǔ)集。對(duì)于任意一個(gè)結(jié)點(diǎn)vi

        資源加工模塊中的知識(shí)點(diǎn)標(biāo)注是在上傳文檔的動(dòng)作中自動(dòng)完成的。本文創(chuàng)建新的java類(lèi)TextAnalyser,該類(lèi)封裝了讀取文本內(nèi)容、關(guān)鍵詞提取、關(guān)鍵字存儲(chǔ)的功能。將其加入上傳文檔時(shí)對(duì)應(yīng)的spring配置文件中。該類(lèi)首先調(diào)用內(nèi)容服務(wù)ContentService獲取資源的文本內(nèi)容,接著調(diào)用使用詞語(yǔ)語(yǔ)義相似度加權(quán)的TextRank方法對(duì)文本內(nèi)容進(jìn)行分析,提取后的關(guān)鍵詞通過(guò)節(jié)點(diǎn)服務(wù)(NodeService)和內(nèi)容服務(wù)(contentService)獲取資源在數(shù)據(jù)庫(kù)中的存儲(chǔ)位置信息,將關(guān)鍵詞保存到相應(yīng)的元數(shù)據(jù)數(shù)據(jù)庫(kù)中。

        通過(guò)對(duì)Alfresco中的相應(yīng)頁(yè)面的JSP文件進(jìn)行擴(kuò)展或重寫(xiě),可以定制實(shí)現(xiàn)資源管理前臺(tái)界面。實(shí)現(xiàn)上述功能的Spring Beans、java class、iava script、JSP等文件將作為Alfresco的應(yīng)用程序進(jìn)行重新打包和部署,Alfresco提供AMP(Alfresco Module Packages)來(lái)實(shí)現(xiàn)打包,可以實(shí)現(xiàn)定制代碼與Alfresco核心代碼的分離,打包部署后,新的功能就加入到Alfresco中了。

        4 結(jié)論

        本文中,本文使用開(kāi)源資源庫(kù)Alfresco開(kāi)發(fā)全新的資源庫(kù)系統(tǒng),實(shí)現(xiàn)了對(duì)社內(nèi)資源的高效存儲(chǔ)、加工與管理。提出了詞語(yǔ)語(yǔ)義相似度加權(quán)的TextRank關(guān)鍵詞提取算法,將其應(yīng)用到資源知識(shí)點(diǎn)標(biāo)注中,使資源庫(kù)成為面向教育的知識(shí)庫(kù),更加滿(mǎn)足數(shù)字出版業(yè)務(wù)的需求。

        猜你喜歡
        數(shù)字出版資源庫(kù)
        廣州園科院木棉野牡丹種質(zhì)資源庫(kù)入選國(guó)家林木種質(zhì)資源庫(kù)
        園林科技(2021年3期)2021-04-03 04:33:46
        健身氣功開(kāi)放課程資源庫(kù)建設(shè)研究
        貴州●石斛種質(zhì)資源庫(kù)
        基于共享資源庫(kù)的混合式教學(xué)考核模式研究
        電子制作(2017年10期)2017-04-18 07:22:55
        高中歷史信息化教育資源庫(kù)應(yīng)用探索
        學(xué)術(shù)期刊數(shù)字出版的運(yùn)行模式與市場(chǎng)結(jié)構(gòu)
        出版廣角(2016年15期)2016-10-18 00:24:33
        淺談新媒體在美術(shù)類(lèi)圖書(shū)出版中的應(yīng)用
        今傳媒(2016年9期)2016-10-15 23:34:07
        做一個(gè)全民閱讀時(shí)代的“悅”讀人
        今傳媒(2016年9期)2016-10-15 23:11:36
        國(guó)際圖書(shū)出版市場(chǎng)現(xiàn)狀及趨勢(shì)分析
        今傳媒(2016年9期)2016-10-15 22:36:15
        福建基礎(chǔ)教育教學(xué)資源庫(kù)建設(shè)研究——以福建基礎(chǔ)教育網(wǎng)資源庫(kù)為例
        国产乱精品女同自线免费| 在线观看免费a∨网站| 久久国产亚洲AV无码麻豆| 乌克兰少妇xxxx做受野外| 无码人妻精品一区二区三区66| 毛片免费全部无码播放| 黄色大片一区二区中文字幕| 亚洲无码中文字幕日韩无码| 中文字幕一区二区三区精品在线| 久久精品亚洲熟女九色| 亚洲一区二区刺激的视频| 刺激一区仑乱| 在教室伦流澡到高潮hgl动漫| 国产精品无码久久久久久久久久| 欧美做受视频播放| 亚洲av综合色区在线观看| 一区二区三区免费观看在线视频| 国产精品成人黄色大片| 人妖国产视频一区二区| 帅小伙自慰videogay男男| 亚洲一本到无码av中文字幕| 国产免费播放一区二区| 少妇激情一区二区三区| 在线精品首页中文字幕亚洲| 无遮挡18禁啪啪羞羞漫画| 国产精品人妻一区夜夜爱| 毛片一级精油按摩无码| 风韵丰满妇啪啪区老老熟女杏吧| 日日麻批免费高清视频| 粉嫩小泬无遮挡久久久久久| 久久久久久国产精品无码超碰动画| 亚洲色成人网一二三区| 日韩亚洲午夜精品一区二区三区| 亚洲乱码中文字幕综合久久| 又黄又刺激的网站久久| 欧美老熟妇乱xxxxx| 国产麻豆剧传媒精品国产av| 999精品免费视频观看| 日韩av无码午夜福利电影| 中文在线最新版天堂av| 青青草免费观看视频免费|