范興豐
(科技部西南信息中心,重慶 401121)
基于云計算和大數(shù)據(jù)的知識服務(wù)平臺架構(gòu)研究
范興豐
(科技部西南信息中心,重慶 401121)
隨著海量信息和數(shù)據(jù)的幾何式增長,傳統(tǒng)數(shù)據(jù)庫復(fù)雜的檢索和使用方式造成有效情報不容易清晰篩選與精準(zhǔn)定位;對信息和數(shù)據(jù)的片面析出不能充分把握技術(shù)競爭情報和產(chǎn)學(xué)研上下游結(jié)構(gòu);如何解決這個困惑和難題,是一個值得研究的課題。文章以云計算和大數(shù)據(jù)為基礎(chǔ),進(jìn)行知識服務(wù)平臺的架構(gòu)研究。
底層架構(gòu);系統(tǒng)架構(gòu);內(nèi)容架構(gòu);定制服務(wù);資源管理
隨著云計算和大數(shù)據(jù)的飛速發(fā)展,以云計算和大數(shù)據(jù)為基礎(chǔ)的知識服務(wù)平臺受到了前所未有的重視。以云計算和大數(shù)據(jù)作為知識資源保障,結(jié)合機構(gòu)內(nèi)部的傳統(tǒng)數(shù)據(jù)資源,實現(xiàn)一站式的網(wǎng)絡(luò)知識檢索服務(wù),已經(jīng)成為獲取知識資源保障和情報服務(wù)的主要途徑?;谠朴嬎愫痛髷?shù)據(jù)為基礎(chǔ)的知識服務(wù)平臺,對于技術(shù)工作者能夠提供直觀的資源查詢;對于科研工作者能夠提供最新的動態(tài)研究趨勢;對于情報工作者能夠提供機構(gòu)的主題研究思路。
知識服務(wù)平臺底層架構(gòu)基于大規(guī)模云服務(wù)應(yīng)用的HADOOP架構(gòu)。HADOOP架構(gòu)具有高可靠性(按位存儲和處理數(shù)據(jù))、高擴(kuò)展性(底層包含數(shù)以千計的節(jié)點)、高效性(底層具備各個節(jié)點的動態(tài)平衡)、高容錯性(底層架構(gòu)能夠自動保存數(shù)據(jù)的多個副本)。HADOOP底層架構(gòu)如圖1所示。
圖1 HADOOP底層架構(gòu)
對知識服務(wù)平臺進(jìn)行本地部署時,知識服務(wù)平臺采用國際最為流行和領(lǐng)先的知識管理系統(tǒng)作為內(nèi)核,基于B/S架構(gòu),融合了全球最先進(jìn)的數(shù)據(jù)管理理念,在系統(tǒng)架構(gòu)及易用性上有著強大的穩(wěn)定性及創(chuàng)新性。主要表現(xiàn)在縮短大批量數(shù)據(jù)的吞吐時間;集中管理用戶在個人中心傳入的所有資源;具備用戶自主創(chuàng)建資源的特點和提供多層次瀏覽導(dǎo)航。B/S系統(tǒng)架構(gòu)如圖2所示。
圖2 B/S系統(tǒng)架構(gòu)
2.1 可靠性
知識服務(wù)平臺數(shù)據(jù)資源的龐大數(shù)量決定系統(tǒng)必須采用性能優(yōu)越的數(shù)據(jù)庫系統(tǒng)。這樣有利于縮短大批量數(shù)據(jù)的吞吐時間,使整個系統(tǒng)管理規(guī)范化,并保證執(zhí)行備份操作而不影響系統(tǒng)的正常運轉(zhuǎn),使數(shù)據(jù)的完整性和安全性得到保障。
2.2 靈活性
知識服務(wù)平臺資源的管理在數(shù)據(jù)管理方面應(yīng)具備較大的伸縮性和擴(kuò)展性,它可以集中管理用戶在個人中心傳入的所有資源,也可以將資源按類型或明細(xì)專業(yè)劃分開來,單獨進(jìn)行管理。保證資源條理清楚,專業(yè)學(xué)科明確,便于使用和查找。
2.3 開放性
知識服務(wù)平臺的資源所涉及的專業(yè)范圍大數(shù)量多,服務(wù)內(nèi)容的形態(tài)需求復(fù)雜,這就要求系統(tǒng)具有完全的開放性,能夠容納各種形態(tài)的內(nèi)容且具備用戶自主創(chuàng)建資源的特點。
2.4 簡潔性
知識服務(wù)平臺UI設(shè)計操作界面應(yīng)該是友好、簡單、導(dǎo)航清晰的。界面上的內(nèi)容應(yīng)該形象、直觀,能為用戶提供多層檢索功能,保證用戶迅速查閱資料。
2.5 安全性
知識服務(wù)平臺在應(yīng)用安全需求上主要針對用戶和系統(tǒng)資源進(jìn)行設(shè)計,確保合法用戶對信息的合法提取及使用。具體表現(xiàn)在數(shù)據(jù)保密,即:通過數(shù)據(jù)的保密規(guī)則、數(shù)據(jù)的加密傳輸與校驗保障關(guān)鍵數(shù)據(jù),如系統(tǒng)題庫相關(guān)數(shù)據(jù)的安全性;數(shù)據(jù)完整性和準(zhǔn)確性,即:在系統(tǒng)業(yè)務(wù)邏輯和數(shù)據(jù)應(yīng)用上保障數(shù)據(jù)的合理使用、數(shù)據(jù)的完整性、一致性、數(shù)據(jù)的容錯能力和回復(fù)能力,使數(shù)據(jù)可靠性達(dá)到要求;身份認(rèn)證與訪問授權(quán),即:建立安全的用戶管理體系和訪問授權(quán)機制,除了“共享庫、開放庫”等類別資源可匿名訪問外,其他資源作訪問權(quán)限控制。特別是對于用戶信息、資源記錄的訪問都有權(quán)限控制;數(shù)據(jù)資源的防盜鏈機制,即:數(shù)據(jù)資源防盜鏈機制可保證課件不會被非法訪問和非法下載,即便被檢測出真實路徑也不會被盜取。
知識服務(wù)平臺內(nèi)容架構(gòu)基于海量元數(shù)據(jù)資源,整合期刊、學(xué)位論文、會議論文、專利、專著、標(biāo)準(zhǔn)、科技成果、產(chǎn)品樣本、科技報告、政策法規(guī)等中外文文獻(xiàn)元數(shù)據(jù),大數(shù)據(jù)知識資源保障;通過對億級數(shù)據(jù)進(jìn)行關(guān)系的挖掘,并解析出多個維度的文獻(xiàn)資源知識對象,比如:領(lǐng)域、主題、學(xué)者、機構(gòu)、傳媒、資助等,挖掘整理千萬級的人物、機構(gòu)、主題、資助和傳媒,呈現(xiàn)出億級數(shù)據(jù)的關(guān)系,方便用戶通過知識服務(wù)平臺直觀使用。在確保提供海量知識資源服務(wù)的同時,提供及時的數(shù)據(jù)更新服務(wù)。
3.1 領(lǐng)域?qū)Ш?/p>
用戶瀏覽領(lǐng)域?qū)Ш娇梢圆榭疵總€學(xué)科下的“重要研究主題”和“研究發(fā)展趨勢”,其領(lǐng)域總圖可揭示科研產(chǎn)出在學(xué)科中的分布情況及學(xué)科之間較強的引用關(guān)聯(lián)。所有可視化知識圖譜都會隨元數(shù)據(jù)動態(tài)更新,無須用戶投入技術(shù)分析人員,提高用戶信息歸納效率。知識圖譜內(nèi)容架構(gòu)如圖3所示。
圖3 知識圖譜內(nèi)容架構(gòu)
3.2 聚類檢索
知識服務(wù)平臺除了包含上億級數(shù)據(jù)保障外,還對主題詞進(jìn)行了智分割,其提示功能幫助用戶做檢索詞的有效擴(kuò)展或修正。針對檢索結(jié)果,本系統(tǒng)提供的多種排序功能提供用戶快捷的尋優(yōu)途徑。同時還具備分面聚類功能,并提供用戶快速篩選檢索結(jié)果的工具。也支持用戶使用聚類工具對檢索結(jié)果快速組配篩選。
3.3 全文保障
知識服務(wù)平臺除了資源發(fā)現(xiàn)外,也提供多種途徑的全文保障服務(wù),且提供全文獲取的多個解析地址并開通全文獲取的文獻(xiàn)傳遞渠道。
4.1 定題服務(wù)
用戶可通過定題服務(wù)功能,對平臺底層的資源內(nèi)容進(jìn)行定制,包含云系統(tǒng)內(nèi)的人物對象、機構(gòu)對象、主題對象等。定題服務(wù)功能可以幫助用戶實時獲取所關(guān)注對象的最新信息。
4.2 研究趨勢
用戶提供主題人物列表為該研究方向與研發(fā)群體提供揭示,按照對本主題的產(chǎn)出貢獻(xiàn)依次羅列,可按照年代篩選功能可以查看該研究方向研發(fā)群體及其貢獻(xiàn)量的變化。
4.3 人才分析
用戶提供人物的作品列表對特定人物進(jìn)行研究產(chǎn)出的匯總,通過不同排序方式和年代篩選可以動態(tài)展示其研發(fā)過程。
4.4 資訊抓取
知識服務(wù)平臺提供網(wǎng)絡(luò)資源抓取功能,平臺管理人員可根據(jù)平臺發(fā)展需要,指定網(wǎng)站進(jìn)行新聞資訊等內(nèi)容抓取。提供此功能可指定所需抓取的內(nèi)容模塊,同時支持設(shè)置內(nèi)容更新時間,平臺將根據(jù)設(shè)置自動定期去抓取最新更新的資源。
5.1 入庫管理
知識服務(wù)平臺支持知識資源入庫通道的管理,包含:文檔、圖片、書籍、數(shù)據(jù)庫、計算機程序、虛擬和仿真模型、多媒體出版物和學(xué)習(xí)對象等幾乎所有數(shù)字格式的支持,同時也可以通過元數(shù)據(jù)存儲管理對印刷文獻(xiàn)支持,并能夠利用URL和儲藏地點來區(qū)分文獻(xiàn)服務(wù)的方式。
5.2 資源管理
知識服務(wù)平臺支持在自主創(chuàng)建流程中,靈活可控的分類管理,提供基于需求的分類預(yù)設(shè)和資源填充。本平臺管理人員可按照自身組織意識及發(fā)展需要來進(jìn)行調(diào)整,同時支持管理者創(chuàng)建分類根欄目及多級子欄目的功能。
5.3 發(fā)布管理
知識服務(wù)平臺具有功能全面的內(nèi)容發(fā)布編輯器,包含文字內(nèi)容編輯、排版、修正等各種基礎(chǔ)工具,支持表情、涂鴉、視頻、音頻、地圖、編碼等內(nèi)容加載,還擁有打印、預(yù)覽、查詢替換、草稿保存等常用功能。同時支持平臺管理人員添加多格式附件。
5.4 統(tǒng)計管理
知識服務(wù)平臺具有詳細(xì)的統(tǒng)計管理系統(tǒng),包含年、月、日的統(tǒng)計信息,根據(jù)當(dāng)前時間自動生成分類。支持平臺管理人員查看平臺訪問次數(shù),注冊用戶訪問次數(shù)及總的訪問量等信息。同時,可記錄資源下載量的信息,便于平臺管理員根據(jù)訪問量和下載量全面掌握該平臺的使用頻率,可及時針對人氣來對平臺的內(nèi)容更新做出調(diào)整。
基于云計算和大數(shù)據(jù)為基礎(chǔ)的知識服務(wù)平臺架構(gòu)的設(shè)計,在需求論證階段應(yīng)該在充分收集相關(guān)數(shù)據(jù)的同時,做好可行性論證,確保設(shè)計的功能能夠滿足自己的需要;在平臺架構(gòu)階段應(yīng)該制定平臺項目開發(fā)章程,做好開發(fā)實施計劃,完善架構(gòu)范圍;在平臺編碼階段做好交互設(shè)計,同時進(jìn)行平臺測試。知識服務(wù)平臺建設(shè)完成之后,還應(yīng)該進(jìn)行平臺推廣以及收集用戶的意見反饋,以便為平臺在升級迭代時提供決策參考。
[1]崔曉菡.文化資源數(shù)據(jù)庫構(gòu)建思路探析文化資源數(shù)據(jù)庫構(gòu)建思路探析—以白銀市博物館為例[J].江蘇科技信息,2016(22):77-80.
[2]劉秀梅.吉林省委黨校網(wǎng)絡(luò)教學(xué)系統(tǒng)的開發(fā)[D].吉林:吉林大學(xué),2006.
Research on the architecture of knowledge service platform based on cloud computing and big data
Fan Xingfeng
(Southwest Information Center of Ministry of Science and Technology, Chongqing 401121, China)
With the geometric massive growth of information and data, the use of complex retrieval method in traditional database makes it not easy to clearly screen and precise position effective information and data; one-sided precipitation information and data can not take full advantage of competitive technical intelligence and downstream structure of industry university research; how to solve the puzzle is a topic worthy of study. Based on cloud computing and big data, this paper makes a research on the architecture of knowledge service platform.
bottom architecture; system architecture; content architecture; customized service; resource management
項目名稱:重慶市數(shù)字出版發(fā)展項目庫知識云圖;項目編號:CQSWHWYH201606。
范興豐(1983— ),男,重慶,本科,項目經(jīng)理;研究方向:信息系統(tǒng)集成項目管理。