李曙軍, 張宏杰, 王海棠, 王秋爽
(1. 國(guó)網(wǎng)河北省電力有限公司 a. 培訓(xùn)中心黨校工作部; b. 培訓(xùn)中心, 石家莊 050023;2. 北京敏行創(chuàng)業(yè)國(guó)際管理咨詢有限公司, 北京 101100; 3. 吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 長(zhǎng)春 130012)
以計(jì)算機(jī)為基礎(chǔ)的多媒體技術(shù)快速發(fā)展, 數(shù)據(jù)庫(kù)檢索浪潮已經(jīng)席卷全國(guó), 世界各地都在積極推進(jìn)以檢索為基本的應(yīng)用系統(tǒng)[1]。尤其是在課程培訓(xùn)領(lǐng)域, 其信息化對(duì)課程資源建設(shè)提出了高標(biāo)準(zhǔn)高要求, 對(duì)網(wǎng)絡(luò)蘊(yùn)含的多媒體資源進(jìn)行語(yǔ)義標(biāo)注, 并全部整合到數(shù)據(jù)庫(kù)中, 對(duì)于資源建設(shè)具有重要意義, 有效促進(jìn)課程信息化發(fā)展[2]。課程信息化快速發(fā)展的同時(shí)對(duì)培訓(xùn)主體起到了轉(zhuǎn)換作用, 從資源角度, 培訓(xùn)是人們掌握技能主要來(lái)源, 然而隨著網(wǎng)絡(luò)普及, 其中蘊(yùn)含的大量多媒體信息成為了一個(gè)龐大數(shù)據(jù)庫(kù), 能使培訓(xùn)生們獲取更多信息資源。對(duì)于大型國(guó)企, 基層黨支部書記工作能力關(guān)乎整個(gè)企業(yè)的命運(yùn), 目前課程模式很難滿足組織實(shí)際工作需求, 因此, 如何提升工作能力, 成為基層黨支部書記面臨的挑戰(zhàn)性問(wèn)題, 獲取有用數(shù)據(jù)就顯得尤為重要[3]。
由于信息資源呈現(xiàn)爆炸式增長(zhǎng)方式, 想要查找與自己相關(guān)的主要信息十分困難, 采用現(xiàn)有數(shù)據(jù)庫(kù)檢索系統(tǒng)可對(duì)少量信息資源進(jìn)行高精度檢索, 但對(duì)于數(shù)量龐大資源, 檢索過(guò)程非常復(fù)雜[4]。網(wǎng)絡(luò)具有分布性特點(diǎn), 人們只有采用不同模式, 使用網(wǎng)絡(luò)信息相連性原理進(jìn)行全面搜索, 才能檢索出所需的數(shù)據(jù), 因此, 基層黨支部書記迫切需要一種可以控制的Stac(Statistical Analysis)課程數(shù)據(jù)庫(kù)檢索, 保證課程數(shù)據(jù)庫(kù)檢索的精準(zhǔn)性[5-8]。
針對(duì)傳統(tǒng)系統(tǒng)存在的問(wèn)題, 筆者提出了基于場(chǎng)景理論的Stac課程數(shù)據(jù)庫(kù)自動(dòng)檢索系統(tǒng)設(shè)計(jì), 結(jié)合場(chǎng)景理論, 運(yùn)用數(shù)據(jù)技術(shù), 梳理出Stac課程開(kāi)發(fā)模型, 這使系統(tǒng)具備動(dòng)態(tài)檢索能力, 實(shí)時(shí)更新動(dòng)態(tài)信息, 保證系統(tǒng)時(shí)效性。
圖1 系統(tǒng)總體結(jié)構(gòu)設(shè)計(jì)Fig.1 Overall structure design of the system
針對(duì)Stac課程數(shù)據(jù)庫(kù)自動(dòng)檢索系統(tǒng)設(shè)計(jì), 采用場(chǎng)景理論, 該理論是由單純空間轉(zhuǎn)換為人與周圍環(huán)境關(guān)系總和, 隨著網(wǎng)絡(luò)時(shí)代來(lái)臨, 場(chǎng)景成為了移動(dòng)媒體時(shí)代核心要素。無(wú)論是Stac課程研發(fā)形式, 還是具體內(nèi)容方面研究, 都需注重黨支部書記日常工作情況, 在不同背景下, 設(shè)計(jì)系統(tǒng)總體結(jié)構(gòu)和軟件功能。
Stac課程數(shù)據(jù)庫(kù)自動(dòng)檢索系統(tǒng)主要是由分詞模塊、自動(dòng)檢索模塊、索引模塊和數(shù)據(jù)采集模塊組成的, 其結(jié)構(gòu)如圖1所示。
采用傳統(tǒng)系統(tǒng)受到Stac課程數(shù)據(jù)庫(kù)中詞同義或多義影響, 導(dǎo)致用戶學(xué)習(xí)背景與認(rèn)知能力都有所下降, 用戶輸入的關(guān)鍵詞條件與查詢結(jié)果是不對(duì)應(yīng)的, 為此, 結(jié)合基層黨支部書記的實(shí)際情況, 提出了場(chǎng)景理論的Stac課程數(shù)據(jù)庫(kù)分詞體系。
圖2 自動(dòng)檢索結(jié)構(gòu)Fig.2 Automatic retrieval structure
分詞模塊的設(shè)計(jì)可為系統(tǒng)提供實(shí)用接口, 在接收用戶檢索命令時(shí), 場(chǎng)景理論下的自然語(yǔ)言句子, 具有求解復(fù)雜問(wèn)題能力, 同時(shí)具備檢索智能接口, 采用組合型歧義統(tǒng)計(jì)同義或多義情況, 具有較高切分正確率和良好排歧效果。
自動(dòng)檢索模塊是依據(jù)用戶需求, 通過(guò)場(chǎng)景理論下的網(wǎng)絡(luò)蜘蛛對(duì)Stac課程數(shù)據(jù)庫(kù)資源進(jìn)行自動(dòng)檢索。網(wǎng)絡(luò)蜘蛛是通過(guò)網(wǎng)頁(yè)鏈接地址尋找目標(biāo), 從某個(gè)頁(yè)面開(kāi)始, 讀取其中內(nèi)容, 再找到網(wǎng)絡(luò)中的其他地址, 如此循環(huán)下去, 直到檢索整個(gè)互聯(lián)網(wǎng)網(wǎng)站, 即可實(shí)現(xiàn)全部目標(biāo)資源的采集[9]。構(gòu)建的自動(dòng)檢索結(jié)構(gòu)如圖2所示。
由圖2可知, 為滿足Stac課程數(shù)據(jù)庫(kù)自動(dòng)檢索系統(tǒng)兼容性, 需在Linux系統(tǒng)配合下, 進(jìn)行信息采集, 并直接對(duì)數(shù)據(jù)庫(kù)進(jìn)行訪問(wèn), 采用多??刂? 直接影響整個(gè)系統(tǒng)覆蓋面積。采用增量式采集算法, 在提高檢索效率的同時(shí), 也可對(duì)動(dòng)態(tài)信息進(jìn)行實(shí)時(shí)存取[10]。
索引主要功能就是將Stac課程資源素材全部輸入到系統(tǒng)中, 經(jīng)過(guò)自動(dòng)檢索模塊從網(wǎng)頁(yè)中獲取索項(xiàng)目數(shù)據(jù), 以此表示文檔索引表[11-15]。
由于索引引擎本身是無(wú)法存儲(chǔ)有效信息的, 因此, 當(dāng)系統(tǒng)檢索量達(dá)到一定規(guī)模時(shí), 需采用分布式體系結(jié)構(gòu), 調(diào)用數(shù)個(gè)獨(dú)立搜索引擎, 相互合作、 相互分工, 并將搜索結(jié)果反饋給用戶, 以提高系統(tǒng)性能, 索引引擎設(shè)計(jì)如圖3所示。
圖3 索引引擎設(shè)計(jì)Fig.3 Index engine design
圖3中的機(jī)器DB Server組件用來(lái)接收中心DB Server傳輸?shù)男畔? 并協(xié)調(diào)多個(gè)機(jī)器并行獲取信息資源, 經(jīng)過(guò)一系列處理后, 向中心DB Server發(fā)送處理結(jié)果。中心DB Server是協(xié)調(diào)各個(gè)機(jī)器DB Server組件工作過(guò)程, 同時(shí)為索引DB Server提供接口, 以此建立索引庫(kù)。
將課程資源網(wǎng)頁(yè)作為樣本進(jìn)行解析, 可轉(zhuǎn)化為Dom頁(yè)面集, 根據(jù)課程資源數(shù)據(jù)規(guī)范標(biāo)準(zhǔn), 制定頁(yè)面集合語(yǔ)義模型, 并對(duì)其進(jìn)行標(biāo)記, 使信息內(nèi)容與語(yǔ)義呈現(xiàn)一一對(duì)應(yīng)關(guān)系, 通過(guò)學(xué)習(xí)獲取課程資源中各種語(yǔ)義對(duì)象, 并把采集規(guī)則編排到規(guī)則庫(kù)中。
對(duì)同義或多義對(duì)象采集規(guī)則進(jìn)行組合, 以此獲取組合形式的課程資源, 將組合結(jié)果通過(guò)索引引擎, 全部輸入到數(shù)據(jù)庫(kù)中, 通過(guò)對(duì)網(wǎng)頁(yè)進(jìn)行實(shí)時(shí)采集, 可獲取相應(yīng)檢索結(jié)果。
在場(chǎng)景理論下, 設(shè)計(jì)分詞模塊, 可為系統(tǒng)提供實(shí)用接口, 具有較高切分正確率和良好排歧效果。依據(jù)用戶需求, 使用網(wǎng)絡(luò)蜘蛛對(duì)Stac課程數(shù)據(jù)庫(kù)資源進(jìn)行自動(dòng)檢索, 經(jīng)過(guò)自動(dòng)檢索模塊, 將從網(wǎng)頁(yè)中獲取的Stac課程資源素材全部輸入系統(tǒng)中, 當(dāng)系統(tǒng)檢索量達(dá)到一定規(guī)模時(shí), 調(diào)用數(shù)個(gè)獨(dú)立搜索引擎, 提高索引效率。通過(guò)對(duì)網(wǎng)頁(yè)進(jìn)行實(shí)時(shí)采集, 用戶可獲取想要的檢索結(jié)果, 由此完成系統(tǒng)結(jié)構(gòu)設(shè)計(jì)。
針對(duì)系統(tǒng)軟件功能設(shè)計(jì)在Visual C++6.0開(kāi)發(fā)工具下實(shí)現(xiàn), 在檢索過(guò)程中, 機(jī)器DB Server通過(guò)日程表模塊控制機(jī)器行為, 日程表模塊內(nèi)部放置了待訪問(wèn)的URL列表, 用于監(jiān)視機(jī)器狀態(tài), 控制其行為, 對(duì)于不能直接訪問(wèn)的地址進(jìn)行過(guò)濾處理。
數(shù)據(jù)庫(kù)是Stac課程的存儲(chǔ)倉(cāng)庫(kù), 以基層黨組織負(fù)責(zé)人的勝任力提升為目標(biāo), 研發(fā)符合Stac的課程模式, 在一定場(chǎng)景理論下, 通過(guò)辨認(rèn)情景特點(diǎn)對(duì)典型場(chǎng)景進(jìn)行選擇、任務(wù)目標(biāo)指定、態(tài)度和行為描述、教練輔導(dǎo)。建立光盤數(shù)據(jù)庫(kù)其中包括光盤信息表、光盤類別表、用戶信息表、光盤題名、下載地址和時(shí)間等字段名稱, 設(shè)執(zhí)行任務(wù)與資源任務(wù)處理階段并行總數(shù)分別為m和n, 設(shè)共有k個(gè)課程, 具體計(jì)算如下所示
(1)
其中mi和ni分別表示不同節(jié)點(diǎn)數(shù)值, 對(duì)其進(jìn)行分布式處理, 為數(shù)據(jù)檢索提供支持。
隨著場(chǎng)景理論在Stac課程數(shù)據(jù)庫(kù)中的廣泛應(yīng)用, 搜索引擎在執(zhí)行任務(wù)過(guò)程中會(huì)產(chǎn)生大量噪聲信息, 該信息混雜在有效信息中, 嚴(yán)重降低了系統(tǒng)檢索效率。因此, 需要設(shè)計(jì)嚴(yán)密檢索流程, 其流程如下所示。
1) 當(dāng)機(jī)器處于空閑狀態(tài)時(shí), 需立刻從日程表中獲取合法地址, 并分派給空閑機(jī)器; 當(dāng)服務(wù)器不能使用代表協(xié)議禁止機(jī)器訪問(wèn)時(shí), 需立即終止當(dāng)前訪問(wèn), 并重新分派任務(wù)。
2) 嚴(yán)密監(jiān)視各個(gè)機(jī)器行為, 避免出現(xiàn)干擾網(wǎng)絡(luò), 形成檢索誤差, 在機(jī)器獲取網(wǎng)絡(luò)信息后, 可直接傳輸給日程安排模塊, 該模塊會(huì)詳細(xì)分析其所包含內(nèi)容, 將有用信息提交給機(jī)器DB Server, 以此填充數(shù)據(jù)庫(kù)資源量。
3) 中心DB Server中包含資源列表, 記錄資源保存情況, 在系統(tǒng)初始化階段, 機(jī)器DB Server會(huì)不斷獲取新信息資源。如果信息在保存階段就被丟棄, 則需設(shè)置一個(gè)新令牌模塊, 該令牌是由中心DB Server產(chǎn)生后傳遞給機(jī)器DB Server的, 該傳遞過(guò)程中所產(chǎn)生的新資源將按照統(tǒng)一格式全部寫入地址列表中, 然后傳遞給下一個(gè)機(jī)器DB Server, 不斷重復(fù), 直至傳回中心DB Server中。而中心DB Server在去掉令牌, 將地址列表合并到資源列表中去, 進(jìn)而生成新的資源列表, 供用戶檢索。
為了驗(yàn)證基于場(chǎng)景理論的Stac課程數(shù)據(jù)庫(kù)自動(dòng)檢索系統(tǒng)設(shè)計(jì)有效性, 需先根據(jù)系統(tǒng)總體結(jié)構(gòu)和軟件功能對(duì)信息資源進(jìn)行采集, 完成最基本檢索任務(wù)。該實(shí)驗(yàn)側(cè)重對(duì)檢索流程進(jìn)行驗(yàn)證, 通過(guò)對(duì)比傳統(tǒng)系統(tǒng)查全率和噪聲影響情況, 分析該系統(tǒng)性能。
自動(dòng)檢索系統(tǒng)由硬件與軟件兩部分組成, 其中硬件可直接發(fā)送動(dòng)態(tài)響應(yīng)信息, 并對(duì)數(shù)據(jù)庫(kù)直接訪問(wèn), 而軟件部分可為數(shù)據(jù)檢索提供支持。分析Stac課程中基層黨支部最應(yīng)該面對(duì)的問(wèn)題, 以該問(wèn)題為索引進(jìn)行數(shù)據(jù)檢索。Stac課程需要容納的問(wèn)題如表1所示。
表1 Stac課程需要容納的問(wèn)題
將表1所示問(wèn)題通過(guò)硬件索引引擎輸入系統(tǒng)中, 再經(jīng)軟件檢索流程, 實(shí)現(xiàn)Stac課程數(shù)據(jù)庫(kù)自動(dòng)檢索, 滿足用戶需求。
圖4 不同檢索時(shí)間索引建立性能比較Fig.4 Performance comparison of indexestablishment with different retrieval time
結(jié)合表1Stac課程需要容納的問(wèn)題, 在系統(tǒng)中輸入關(guān)鍵字, 根據(jù)關(guān)鍵字檢索出的相關(guān)頁(yè)面, 設(shè)該頁(yè)面有150個(gè)左右, 每頁(yè)都會(huì)存在固定短語(yǔ)35個(gè), 此時(shí)存在5 250個(gè)預(yù)備數(shù)據(jù)。合理設(shè)置檢索時(shí)間, 能顯著改善系統(tǒng)性能, 在增加檢索任務(wù)同時(shí), 保證軟件部分負(fù)載均衡, 使系統(tǒng)具有更好執(zhí)行能力。因此, 設(shè)置檢索時(shí)間, 以3、6、9、12 Map Slot為檢索時(shí)間, 驗(yàn)證其是否影響檢索性能, 根據(jù)運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)調(diào)整。
由圖4可知, 建立在34、35、36、37的索引都是使用12個(gè) Map Slot作為檢索時(shí)間, 且運(yùn)行時(shí)間耗費(fèi)最多, 而其他運(yùn)行時(shí)間耗費(fèi)較少。而建立在38上的索引, 使用12個(gè)Map Slot的運(yùn)行時(shí)間達(dá)到78 s; 使用9個(gè)Map Slot的運(yùn)行時(shí)間達(dá)到74 s; 使用6個(gè)Map Slot的運(yùn)行時(shí)間達(dá)到55 s; 使用3個(gè)Map Slot的運(yùn)行時(shí)間達(dá)到85 s。由于數(shù)據(jù)量選取較小, 因此, 使用12個(gè)Map Slot時(shí), 檢索性能較高。
圖5 兩種系統(tǒng)查全率對(duì)比結(jié)果Fig.5 Comparison of recall rates of the two systems
在該條件設(shè)置下, 將傳統(tǒng)系統(tǒng)與基于場(chǎng)景理論查全率進(jìn)行對(duì)比分析, 對(duì)比結(jié)果如圖5所示。由圖5可知, 當(dāng)實(shí)驗(yàn)次數(shù)為10次時(shí), 使用12個(gè)Map Slot基于場(chǎng)景理論檢索系統(tǒng)查全率比傳統(tǒng)系統(tǒng)查全率高33%; 當(dāng)實(shí)驗(yàn)次數(shù)為20次時(shí), 基于場(chǎng)景理論檢索系統(tǒng)查全率比傳統(tǒng)系統(tǒng)查全率高27%; 當(dāng)實(shí)驗(yàn)次數(shù)為30次時(shí), 基于場(chǎng)景理論檢索系統(tǒng)查全率比傳統(tǒng)系統(tǒng)查全率高26%; 當(dāng)實(shí)驗(yàn)次數(shù)為40次時(shí), 基于場(chǎng)景理論檢索系統(tǒng)查全率比傳統(tǒng)系統(tǒng)查全率高53%; 當(dāng)實(shí)驗(yàn)次數(shù)為50次時(shí), 基于場(chǎng)景理論檢索系統(tǒng)查全率比傳統(tǒng)系統(tǒng)查全率高56%。
根據(jù)上述可知, 基于場(chǎng)景理論檢索系統(tǒng)查全率較高, 說(shuō)明該系統(tǒng)所設(shè)計(jì)的檢索流程是有效的。
傳統(tǒng)系統(tǒng)受到噪聲影響, 導(dǎo)致檢索精準(zhǔn)度較低, 為了驗(yàn)證基于場(chǎng)景理論檢索系統(tǒng)不會(huì)受到噪聲影響, 而具備良好檢索精準(zhǔn)度, 需對(duì)這兩種系統(tǒng)進(jìn)行對(duì)比分析, 結(jié)果如表2所示。
表2 兩種系統(tǒng)檢索精準(zhǔn)度對(duì)比
由表2可知, 當(dāng)實(shí)驗(yàn)時(shí)間為20 s時(shí), 基于場(chǎng)景理論檢索系統(tǒng)檢索精準(zhǔn)度比傳統(tǒng)系統(tǒng)檢索精準(zhǔn)度高0.441 9; 當(dāng)實(shí)驗(yàn)時(shí)間為40 s時(shí), 基于場(chǎng)景理論檢索系統(tǒng)檢索精準(zhǔn)度比傳統(tǒng)系統(tǒng)檢索精準(zhǔn)度高0.613 8; 當(dāng)實(shí)驗(yàn)時(shí)間為60 s時(shí), 基于場(chǎng)景理論檢索系統(tǒng)檢索精準(zhǔn)度比傳統(tǒng)系統(tǒng)檢索精準(zhǔn)度高0.441 4; 當(dāng)實(shí)驗(yàn)時(shí)間為80 s時(shí), 基于場(chǎng)景理論檢索系統(tǒng)檢索精準(zhǔn)度比傳統(tǒng)系統(tǒng)檢索精準(zhǔn)度高0.352 6; 當(dāng)實(shí)驗(yàn)時(shí)間為100 s時(shí), 基于場(chǎng)景理論檢索系統(tǒng)檢索精準(zhǔn)度比傳統(tǒng)系統(tǒng)檢索精準(zhǔn)度高0.639 5。
根據(jù)上述可知: 基于場(chǎng)景理論檢索系統(tǒng)不會(huì)受到噪聲影響, 具有較高檢索精準(zhǔn)度, 當(dāng)實(shí)驗(yàn)時(shí)間為100 s時(shí), 其檢索精準(zhǔn)度達(dá)到最高為0.985 4, 由此說(shuō)明該系統(tǒng)所設(shè)計(jì)的檢索流程是有效的。
基于場(chǎng)景理論的Stac課程數(shù)據(jù)庫(kù)自動(dòng)檢索系統(tǒng)是以自然語(yǔ)言形式輸入的查詢文本, 從數(shù)據(jù)庫(kù)中獲取相似數(shù)據(jù)。通過(guò)對(duì)自然語(yǔ)言查詢文本進(jìn)行詳細(xì)理解, 能對(duì)相似度計(jì)算方式進(jìn)行研究。對(duì)于以往常見(jiàn)的檢索系統(tǒng), 經(jīng)過(guò)場(chǎng)景理論分析, 提出了完整設(shè)計(jì)方案, 同時(shí)保證信息檢索的可靠性, 使整個(gè)檢索過(guò)程更加自動(dòng)化, 極大縮短檢索時(shí)間。通過(guò)對(duì)比系統(tǒng)查全率和檢索精準(zhǔn)度可知, 該系統(tǒng)查全效果較好, 且檢索精準(zhǔn)度較高。
雖然該系統(tǒng)設(shè)計(jì)具有98%的檢索精準(zhǔn)度, 但仍存在不足之處。對(duì)于Stac課程數(shù)據(jù)進(jìn)行語(yǔ)義分析, 需注入權(quán)重, 確定檢索中心, 提高系統(tǒng)檢索精準(zhǔn)度, 這是系統(tǒng)進(jìn)一步發(fā)展需求, 也是提升系統(tǒng)性能主要內(nèi)容。隨著數(shù)據(jù)庫(kù)模式不斷擴(kuò)大, 對(duì)于優(yōu)化數(shù)據(jù)庫(kù)檢索算法也是具有實(shí)用性的, 因此, 在今后研究進(jìn)程中, 結(jié)合現(xiàn)有研究成果加以改進(jìn), 爭(zhēng)取獲得性能更加完美的系統(tǒng)。