亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種知識網絡個性化檢索方法

2023-11-14 13:46:26賈金娜JIAJinna

價值工程 2023年30期

賈金娜 JIA Jin-na

（西安工商學院，西安 710032）

0 引言

當前隨著信息化手段的普及和運用，高校在教學過程中不斷產出海量的數據和信息，已經形成規(guī)模化的知識網絡。網絡中擁有海量的傳統數據庫、報表、文檔、多媒體等資源，但普遍存在數據分散管理、知識挖掘不足等問題，教職員工和學生針對性檢索能力還比較弱。因此，需要一種針對個性化檢索需求的方法，解決當前檢索效率低下問題。

1 知識網絡中資源之間關系及知識地圖建模

在分析典型高校知識網絡現狀基礎上，系統分析各類知識資源節(jié)點屬性，將其主要關系歸納為組合、聚合、繼承、依賴、屬性關聯、類別關聯、推理關聯、關鍵詞關聯、目錄關聯、行為關聯、自關聯等，如圖1。例如，組合關系是指知識整體和部分之間的關系，整體和部分不可分割，如學生整體成績與其單科成績之間的關系；行為關聯關系是指用戶特定行為所涉及的知識資源之間的關聯關系，如學生搜索“Python 工具”時，往往同時檢索“*.py”，這兩種知識之間存在行為關聯關系。這些關系是知識網絡中的邊集合（關系集合）ESet={e1，e2，…，em}的具體取值。同時，使用XML Schema 作為中間層，可構建出知識的層次化地圖模型（如圖2），在此模型中：

圖1 知識資源間的主要關系

圖2 層次化知識地圖模型

①資源層，即各種實體，例如各種DB 二維表，doc、mp4 等不同后綴的文件；

②表現層，即基于上述關系的可導航的地圖模型，其中資源即節(jié)點，連接即關系；

③描述層，即實體為數據（Data）文件，以XML 描述形成業(yè)務（Business）文件。

2 基于Schema 的知識網絡結構樹建模

將知識網絡形成的結構樹以XML Schema 進行規(guī)范，形成其描述文件KRP-t，后續(xù)檢索可以通過XML 文件中的各類Tag 進行。相關Tag 之間構成具體檢索路徑K-p：①K-p 為: KN1/KN2/…/KNi/KN(i+1)/…/KNn；②KN1、KN2、…、KN(n-1)∈KNSetE（節(jié)點集合），KNn∈KNSetE（邊集合）∪KNSetA（屬性集合），使得KNi 是KN（i+1）的父節(jié)點，則稱KNn 是KN1 的上級，KN1 是KNn 的下級；③將這些點依次連接，即可構成一條從KN1 到KNn 的路徑KR_Path（KN1, KNn）。若KRP-t 中存在一個節(jié)點序列｛KR_TSeq:KRN1, KRN2,…, KRNi, KRN（i+1）,…, KRNn｝，使得KRNi是KRN（i+1）的上級，則稱該節(jié)點序列是從KRN1 到KRNn 的標簽序列，記為KR_TS∈KRP-t?；谏鲜龆x，可基于Schema 對其進行檢索，如圖3。

圖3 XML 描述文件解析算法

3 知識地圖層次化檢索建模

將知識檢索按照一般檢索、復雜檢索進行分類。一般檢索類：

①對于簡單檢索項集合SW（S1, S2, …,Sm），如“Title = *.py”、“Subject = python 代碼;管理系統”等，利用Boolean 運算實現。

②對于復雜檢索項，借鑒前期同類研究成果，形成知識網絡中基于知識地圖的層次化檢索模型如圖4 所示。檢索的主要流程包括：

圖4 知識地圖層次化檢索過程

1）對檢索項匯總形成想要集合SW，匯總相應資源形成集合KR_Set；

2）查找到具體的實體資源文件所關聯的業(yè)務項的描述文件，即可找到其對應的XML Meta-data 文檔，按照簡單檢索模式查找其對應的資源；

3）基于KRP_t_P&R 算法解析XML 文檔，通過遍歷各標簽生成對應XML 文件的標簽樹KR_Tag_Tree，獲取Tage 對之內的字符串，構建生成待檢索的文本集合，按照文本匹配等簡單檢索方式對其內容進行查找定位；

4）在檢索完所有XML 文件后，形成一個檢索的結構矩陣；

5）對比所有檢索結果之間對應的不同關聯關系，即可獲得一個按照特定關系形式組合的文件資源對之間的網絡，最后以集合形式進行存儲即完成所有工作。如圖5 所示。

圖5 XML 描述文件中關鍵詞搜索算法

4 基于關聯規(guī)則的知識排序推薦模型

用戶的直接需求（如以檢索詞、訂閱關鍵詞等形式）和間接需求（來源于知識節(jié)點的潛在關系）決定了知識推薦的表現形式。筆者所提出的知識推薦方法是“以檢索詞檢索+以規(guī)則關聯”。在不同的檢索需求下，可基于用戶個性化檢索詞進行知識推薦形成知識資源集合，對比整個知識網絡，篩選出相應的知識子網絡?；緦崿F過程為“文件預處理→基于向量空間進行表征→基于改進N-Gram 進行分詞→基于多屬性融合方法選取特征→基于改進Apriori 算法分析關聯規(guī)則→進行推薦給出結果”。這里重點對其中的文本分詞、特征選擇和關聯規(guī)則等關鍵步驟進行分析和設計：

①基于預切分改進設計N-Gram 方法。針對Gram 方法中Gram 數量偏大、部分無實際意義等問題，使用預切分方式對其進行改進，具體步驟是：

1）用StopWordsList 切分文本，形成由不同長度的字串組成的集合U0，將每個詞的詞頻記入詞頻表集合W；

2）將U0按長度2、3、…、k-1 進行分類，形成集合U1、U2、…、U（k-1）；

3）對U2中的每個字串直接切分為兩個長度為2 的字串，并將結果合并到集合U1，同時更新相關字串的詞頻；

4）對U3、…、U（k-1）繼續(xù)切分，形成相應的集合并將每個字串的詞頻記入W；

5）將U1、U2、…、U（k-1）取并集得到U，歸并U 中相同字串，更新W 中詞頻；

6）應用“長詞優(yōu)先”的原則對U 中的冗余字串進行消減（即一個短詞含在一個長詞之中，則將其減去），并更新W 中字串的詞頻。

7）輸出特征項集合U 和W。

②基于多屬性融合的文本特征選擇方法。按照相關文獻提出的文檔頻、特征項詞頻、特征項詞性、特征項在文本中位置等多種屬性，按照W（f）=a×Wdf+b×WF+c×WP進行文本特征的選擇。其中：

1）W（f）表示特征項f 的綜合權重。a、b、c 分別表示三個屬性值的權重系數，其取值范圍為（0，1），且滿足a+b+c=1。

2）Wdf為特征項文檔頻屬性值，其值是集合里具有某特征項的文本數量與總數n 之比，Wdf∈（0，1）。

3）WF為特征項詞頻屬性值，分詞過程中進行特征項頻率統計，可獲取到不同特征項詞頻，令其取值為Nd，具體特征項的WF=TotalNd/TotalNdmax。

4）WP為特征項詞性屬性值，對文檔中其關鍵作用的名詞、動詞、形容詞、副詞外的其他進行剔除，如某文檔集合中名詞所占比例數值為Pmax，且在四類詞中占比最高，設P 為某特征詞所屬詞性占比值，則WP=P/Pmax。

③基于改進Apriori 算法的文本關聯規(guī)則提取方法。將上述集合存儲到關系數據庫（或表格文件）之后，對其進行關聯規(guī)則分析和提取。關聯規(guī)則的提取主要步驟如下：

1）找出事務庫中所有大于等于最小支持度的頻繁項集。

2）利用頻繁項集生成所有的關聯規(guī)則，根據預先設定的最小置信度進行關聯規(guī)則的取舍，最終得到強關聯規(guī)則。

④檢索結果推薦按照上述關聯關系，將指定范圍內“item→item”形式的關聯規(guī)則所對應的文檔進行關聯，自動關聯到相應類別中，并可由相關用戶需求修訂該類別，為形成知識網絡提供輸入。上述規(guī)則中，按照置信度和最小支持度進行選取，截取長度為N 的序列，形成Top-N 知識規(guī)則，即可直接訪問到這些規(guī)則中后項所對應的知識資源。

5 結語

本文通過對知識網絡中的節(jié)點關系進行分析，構建了包含資源層、表現層和描述層的層次化知識地圖模型，設計了基于XML Schema 的知識結構樹模型及其檢索方法，基于關聯規(guī)則設計了一種個性化的知識資源網絡檢索方法，為知識網絡信息個性化檢索和推薦奠定了方法基礎。