賈金娜 JIA Jin-na
(西安工商學院,西安 710032)
當前隨著信息化手段的普及和運用,高校在教學過程中不斷產出海量的數據和信息,已經形成規(guī)模化的知識網絡。網絡中擁有海量的傳統數據庫、報表、文檔、多媒體等資源,但普遍存在數據分散管理、知識挖掘不足等問題,教職員工和學生針對性檢索能力還比較弱。因此,需要一種針對個性化檢索需求的方法,解決當前檢索效率低下問題。
在分析典型高校知識網絡現狀基礎上,系統分析各類知識資源節(jié)點屬性,將其主要關系歸納為組合、聚合、繼承、依賴、屬性關聯、類別關聯、推理關聯、關鍵詞關聯、目錄關聯、行為關聯、自關聯等,如圖1。例如,組合關系是指知識整體和部分之間的關系,整體和部分不可分割,如學生整體成績與其單科成績之間的關系;行為關聯關系是指用戶特定行為所涉及的知識資源之間的關聯關系,如學生搜索“Python 工具”時,往往同時檢索“*.py”,這兩種知識之間存在行為關聯關系。這些關系是知識網絡中的邊集合(關系集合)ESet={e1,e2,…,em}的具體取值。同時,使用XML Schema 作為中間層,可構建出知識的層次化地圖模型(如圖2),在此模型中:
圖1 知識資源間的主要關系
圖2 層次化知識地圖模型
①資源層,即各種實體,例如各種DB 二維表,doc、mp4 等不同后綴的文件;
②表現層,即基于上述關系的可導航的地圖模型,其中資源即節(jié)點,連接即關系;
③描述層,即實體為數據(Data)文件,以XML 描述形成業(yè)務(Business)文件。
將知識網絡形成的結構樹以XML Schema 進行規(guī)范,形成其描述文件KRP-t,后續(xù)檢索可以通過XML 文件中的各類Tag 進行。相關Tag 之間構成具體檢索路徑K-p:①K-p 為: KN1/KN2/…/KNi/KN(i+1)/…/KNn;②KN1、KN2、…、KN(n-1)∈KNSetE(節(jié)點集合),KNn∈KNSetE(邊集合)∪KNSetA(屬性集合),使得KNi 是KN(i+1)的父節(jié)點,則稱KNn 是KN1 的上級,KN1 是KNn 的下級;③將這些點依次連接,即可構成一條從KN1 到KNn 的路徑KR_Path(KN1, KNn)。若KRP-t 中存在一個節(jié)點序列{KR_TSeq:KRN1, KRN2,…, KRNi, KRN(i+1),…, KRNn},使得KRNi是KRN(i+1)的上級,則稱該節(jié)點序列是從KRN1 到KRNn 的標簽序列,記為KR_TS∈KRP-t?;谏鲜龆x,可基于Schema 對其進行檢索,如圖3。
圖3 XML 描述文件解析算法
將知識檢索按照一般檢索、復雜檢索進行分類。一般檢索類:
①對于簡單檢索項集合SW(S1, S2, …,Sm),如“Title = *.py”、“Subject = python 代碼;管理系統”等,利用Boolean 運算實現。
②對于復雜檢索項,借鑒前期同類研究成果,形成知識網絡中基于知識地圖的層次化檢索模型如圖4 所示。檢索的主要流程包括:
圖4 知識地圖層次化檢索過程
1)對檢索項匯總形成想要集合SW,匯總相應資源形成集合KR_Set;
2)查找到具體的實體資源文件所關聯的業(yè)務項的描述文件,即可找到其對應的XML Meta-data 文檔,按照簡單檢索模式查找其對應的資源;
3)基于KRP_t_P&R 算法解析XML 文檔,通過遍歷各標簽生成對應XML 文件的標簽樹KR_Tag_Tree,獲取Tage 對之內的字符串,構建生成待檢索的文本集合,按照文本匹配等簡單檢索方式對其內容進行查找定位;
4)在檢索完所有XML 文件后,形成一個檢索的結構矩陣;
5)對比所有檢索結果之間對應的不同關聯關系,即可獲得一個按照特定關系形式組合的文件資源對之間的網絡,最后以集合形式進行存儲即完成所有工作。如圖5 所示。
圖5 XML 描述文件中關鍵詞搜索算法
用戶的直接需求(如以檢索詞、訂閱關鍵詞等形式)和間接需求(來源于知識節(jié)點的潛在關系)決定了知識推薦的表現形式。筆者所提出的知識推薦方法是“以檢索詞檢索+以規(guī)則關聯”。在不同的檢索需求下,可基于用戶個性化檢索詞進行知識推薦形成知識資源集合,對比整個知識網絡,篩選出相應的知識子網絡?;緦崿F過程為“文件預處理→基于向量空間進行表征→基于改進N-Gram 進行分詞→基于多屬性融合方法選取特征→基于改進Apriori 算法分析關聯規(guī)則→進行推薦給出結果”。這里重點對其中的文本分詞、特征選擇和關聯規(guī)則等關鍵步驟進行分析和設計:
①基于預切分改進設計N-Gram 方法。針對Gram 方法中Gram 數量偏大、部分無實際意義等問題,使用預切分方式對其進行改進,具體步驟是:
1)用StopWordsList 切分文本,形成由不同長度的字串組成的集合U0,將每個詞的詞頻記入詞頻表集合W;
2)將U0按長度2、3、…、k-1 進行分類,形成集合U1、U2、…、U(k-1);
3)對U2中的每個字串直接切分為兩個長度為2 的字串,并將結果合并到集合U1,同時更新相關字串的詞頻;
4)對U3、…、U(k-1)繼續(xù)切分,形成相應的集合并將每個字串的詞頻記入W;
5)將U1、U2、…、U(k-1)取并集得到U,歸并U 中相同字串,更新W 中詞頻;
6)應用“長詞優(yōu)先”的原則對U 中的冗余字串進行消減(即一個短詞含在一個長詞之中,則將其減去),并更新W 中字串的詞頻。
7)輸出特征項集合U 和W。
②基于多屬性融合的文本特征選擇方法。按照相關文獻提出的文檔頻、特征項詞頻、特征項詞性、特征項在文本中位置等多種屬性,按照W(f)=a×Wdf+b×WF+c×WP進行文本特征的選擇。其中:
1)W(f)表示特征項f 的綜合權重。a、b、c 分別表示三個屬性值的權重系數,其取值范圍為(0,1),且滿足a+b+c=1。
2)Wdf為特征項文檔頻屬性值,其值是集合里具有某特征項的文本數量與總數n 之比,Wdf∈(0,1)。
3)WF為特征項詞頻屬性值,分詞過程中進行特征項頻率統計,可獲取到不同特征項詞頻,令其取值為Nd,具體特征項的WF=TotalNd/TotalNdmax。
4)WP為特征項詞性屬性值,對文檔中其關鍵作用的名詞、動詞、形容詞、副詞外的其他進行剔除,如某文檔集合中名詞所占比例數值為Pmax,且在四類詞中占比最高,設P 為某特征詞所屬詞性占比值,則WP=P/Pmax。
③基于改進Apriori 算法的文本關聯規(guī)則提取方法。將上述集合存儲到關系數據庫(或表格文件)之后,對其進行關聯規(guī)則分析和提取。關聯規(guī)則的提取主要步驟如下:
1)找出事務庫中所有大于等于最小支持度的頻繁項集。
2)利用頻繁項集生成所有的關聯規(guī)則,根據預先設定的最小置信度進行關聯規(guī)則的取舍,最終得到強關聯規(guī)則。
④檢索結果推薦按照上述關聯關系,將指定范圍內“item→item”形式的關聯規(guī)則所對應的文檔進行關聯,自動關聯到相應類別中,并可由相關用戶需求修訂該類別,為形成知識網絡提供輸入。上述規(guī)則中,按照置信度和最小支持度進行選取,截取長度為N 的序列,形成Top-N 知識規(guī)則,即可直接訪問到這些規(guī)則中后項所對應的知識資源。
本文通過對知識網絡中的節(jié)點關系進行分析,構建了包含資源層、表現層和描述層的層次化知識地圖模型,設計了基于XML Schema 的知識結構樹模型及其檢索方法,基于關聯規(guī)則設計了一種個性化的知識資源網絡檢索方法,為知識網絡信息個性化檢索和推薦奠定了方法基礎。