趙凡 趙昕暉
(甘肅省科學技術(shù)情報研究所,甘肅 蘭州 730000)
知識服務(wù)[1]是指從各種顯性和隱性知識資源中按照人們的需要有針對性地提煉知識,并用來解決用戶問題的高級階段的信息服務(wù)過程。
本文主要提出了通過在網(wǎng)頁發(fā)布中的內(nèi)容抽取隱含的知識元,建立元數(shù)據(jù)倉儲[2],利用知識元鏈接進行更深入解釋和導航,通過關(guān)鍵詞監(jiān)測對各類科技活動進行量化評估,服務(wù)于科技決策、科技政務(wù)、科研發(fā)展及科學社會化普及。
系統(tǒng)采用三層體系結(jié)構(gòu),由客戶層、服務(wù)層和數(shù)據(jù)層組成??蛻魧又饕怯脩粼L問的WEB頁面。服務(wù)層主要由知識平臺、知識庫應(yīng)用和詞條發(fā)布三大服務(wù)器組成。數(shù)據(jù)層主要是存放相關(guān)數(shù)據(jù)。三層之間主要利用SOAP和ODBC協(xié)議連通。其中,SOAP協(xié)議是客戶層與服務(wù)層的鏈接,ODBC協(xié)議主要以SQL SERVER數(shù)據(jù)庫中存放的數(shù)據(jù)與服務(wù)層中的三個服務(wù)器相關(guān)數(shù)據(jù)調(diào)用和整理。該平臺的體系具有一定的安全性、可連通性、可擴展性[3]。
1.1.1 知識元發(fā)布系統(tǒng)
知識元發(fā)布系統(tǒng)主要由網(wǎng)站內(nèi)容加工、元數(shù)據(jù)倉儲庫加工、詞條快速加工和重建詞條索引四個模塊組成。網(wǎng)站內(nèi)容加工主要是對網(wǎng)站信息進行詞條加工,可以新建、刪除、修改詞條。元數(shù)據(jù)倉儲庫加工主要通過詞條類別建立不同的元數(shù)據(jù)數(shù)據(jù)庫,并對現(xiàn)有的元數(shù)據(jù)倉儲庫進行刪除、修改操作。詞條快速加工主要是修改、刪除已有的詞條并對詞條進行分類操作,另外可以批量導入已經(jīng)編輯好的詞條。重建詞條索引主要對詞條索引進行重建。最后實現(xiàn)詞條在網(wǎng)站中的正文顯示。
1.1.2 知識服務(wù)信息平臺
知識服務(wù)的信息平臺在設(shè)計上主要分為數(shù)據(jù)層、應(yīng)用層和表示層。在數(shù)據(jù)層主要包括了信息和知識元數(shù)據(jù)倉儲庫等,利用關(guān)系不同的數(shù)據(jù)庫實現(xiàn)查詢和存儲;在應(yīng)用層主要包括內(nèi)容信息發(fā)布、知識庫發(fā)布和統(tǒng)一搜索等系統(tǒng)來實現(xiàn)信息和知識元的發(fā)布及相關(guān)文獻的匹配。知識元發(fā)布系統(tǒng)提供知識元鏈接的接口(Web Service接口)。在表示層主要為用戶提供信息門戶頁面的瀏覽服務(wù),采用知識元鏈接至知識服務(wù)系統(tǒng),為用戶服務(wù)。其中主要包括新建/編輯詞條、詞條監(jiān)測、主題頻次監(jiān)控和科技問答等功能。
用到的主要技術(shù)主要有:知識元抽取:從已有網(wǎng)頁正文部分提取出知識元?;静襟E為先清理文字中的符號,形成無格式、無符號的中文字符集,再通過中文分詞軟件,將內(nèi)容分詞為詞條列表,通過TF-IDF算法提取知識元,并在知識元數(shù)據(jù)庫中進行索引。知識元加工:由于知識元倉儲的建設(shè)是一個龐大的系統(tǒng)工程,本文主要立足于科技政務(wù)網(wǎng)站集群所產(chǎn)生的知識元倉儲,以滿足科技政務(wù)和信息服務(wù)需要為準。知識元耦合:
利用一種動態(tài)優(yōu)化鏈接,系統(tǒng)采用異步調(diào)用技術(shù)(AJAX)附件知識元鏈接的辦法。知識元監(jiān)測:通過對平臺門戶網(wǎng)頁內(nèi)容中知識元的提取和訪問,可統(tǒng)計、分析科技和科研活動的重點工作領(lǐng)域,提供重要的數(shù)量評價指數(shù)。
本系統(tǒng)的安全要通過基于snorby技術(shù)的網(wǎng)絡(luò)監(jiān)測平臺和WAF模塊,實現(xiàn)對知識服務(wù)平臺的安全防范。
該平臺主要利用snorby技術(shù)實現(xiàn)網(wǎng)絡(luò)監(jiān)測平臺的部署,通過分析海量的網(wǎng)關(guān)數(shù)據(jù),利用高危、中危和低危來提示網(wǎng)絡(luò)的安全性,該系統(tǒng)可監(jiān)測到攻擊源地址和被攻擊地址以及攻擊頻次,通過對攻擊源地址進行編譯,可查看該地址的地域以及被攻擊地址和URL,分析相關(guān)數(shù)據(jù),最終判斷為該攻擊為那種類型的攻擊,從而對知識服務(wù)系統(tǒng)進行網(wǎng)絡(luò)監(jiān)測。其中,包含Payload模塊、Dashboard模塊、可視化度量模塊組成。
通過基于snorby技術(shù)的網(wǎng)絡(luò)監(jiān)測平臺監(jiān)測結(jié)果,利用WAF模塊對攻擊源地址進行結(jié)果分析,利用威脅系數(shù)算法實現(xiàn)動態(tài)IP黑名單庫的建立,進而對惡意攻擊地址的攔截。其中,算法主要通過時間、地域、頻次、規(guī)則等進行加權(quán)求和,達到峰值將進行攔截。另外,建立免安全檢查模塊、IP白名單模塊實現(xiàn)對有些IP訪問頻次高的安全合法性驗證。
2.2.1 結(jié)果分析模塊
結(jié)果分析是對自動裝載的日志也可對不同周期的日志進行分析,提出相關(guān)威脅因子對易受侵文件、入侵地址、受侵WEB、攻擊邊界進行威脅評估并通過相關(guān)防護措施及時進行威脅處理,加強WEB的入侵防護能力。結(jié)果分析主要實現(xiàn)對攻擊邊界分析、威脅系數(shù)計算分析、IP阻斷分析的分析。
2.2.2 攻擊邊界分析
攻擊邊界分析主要實現(xiàn)IP與WEB間相互訪問的統(tǒng)計分析。首先通過算法進行數(shù)據(jù)統(tǒng)計。然后,利用不同的顏色作為IP與WEB相互訪問方向表達形式。最后,通過對比IP與WEB相互訪問視線數(shù)及密度,確定IP為攻擊方還是WEB為攻擊方,得出結(jié)果,進行處理。
2.2.3 威脅系數(shù)計算分析
威脅系數(shù)計算分析利用威脅評估算法,通過對威脅系數(shù)的計算以及對相關(guān)參數(shù)的統(tǒng)計進行分析評估。分析參數(shù)由阻斷IP地址、威脅系數(shù)數(shù)值、攻擊次數(shù)、受侵主機數(shù)、觸發(fā)規(guī)則數(shù)(規(guī)則預設(shè))、區(qū)域威脅系數(shù)(1表示國外IP,0.5表示國內(nèi)IP)組成。參數(shù)值越大說明阻斷的IP威脅系數(shù)高。通過分析得出結(jié)果,進行處理。
2.2.4 IP阻斷計算分析
IP阻斷計算分析利用威脅評估算法,通過對威脅系數(shù)的計算以及對相關(guān)參數(shù)的統(tǒng)計進行分析評估。分析參數(shù)由阻斷IP地址、威脅系數(shù)數(shù)值、阻斷時間、WAF主機地址、所屬城市、地理位置(利用經(jīng)緯度數(shù)值表示,可查詢IP地址的位置)組成。通過分析得出結(jié)果,進行處理。