張建華,楊俊曉,曹子傲,劉藝琳
(鄭州大學(xué)管理學(xué)院,河南鄭州 450001)
在知識經(jīng)濟(jì)時(shí)代,知識資源在社會(huì)生產(chǎn)與運(yùn)行中發(fā)揮越來越重要的作用,成為各組織的核心生產(chǎn)要素以及價(jià)值創(chuàng)造的主體來源[1],對知識尤其隱性知識資源進(jìn)行有效管理有助于培育或重塑組織的核心競爭力。知識資源管理的核心活動(dòng)包括知識共享與轉(zhuǎn)移、知識學(xué)習(xí)與應(yīng)用以及知識創(chuàng)新等[2]。當(dāng)用戶提出知識需求時(shí),高效完成與隱性知識外顯案例庫中既有知識的匹配與適配,是確保用戶高效應(yīng)用隱性知識資源、實(shí)現(xiàn)乃至增值其資源價(jià)值的基礎(chǔ)性工作。知識應(yīng)用涵蓋知識匹配與知識適配兩個(gè)子過程,且均以用戶需求為導(dǎo)向。在知識應(yīng)用階段,當(dāng)前多數(shù)知識服務(wù)系統(tǒng)僅將用戶需求與系統(tǒng)隱性知識外顯案例庫進(jìn)行匹配計(jì)算,然而,緣于傳統(tǒng)基于知識系統(tǒng)的知識獲取瓶頸以及應(yīng)用環(huán)境的復(fù)雜多變特性,一旦未檢索到與用戶需求完全吻合的隱性知識外顯案例,系統(tǒng)則無法提供結(jié)果,導(dǎo)致對知識庫的利用效益較低。對此,本研究提出一種改進(jìn)隱性知識外顯案例適配度的優(yōu)化方法,為向用戶提供盡可能滿足其需求的案例知識、避免用戶“零基”求解,從而有效提升隱性知識外顯案例庫的應(yīng)用以及知識用戶的問題求解效益提供參考。
梳理目前有關(guān)案例知識適配的主要研究包括:常春光等[3]將適配分為單適配與組合適配,在總結(jié)各適配方式的適用條件以及適配算法的基礎(chǔ)上,按思路不同將適配分為轉(zhuǎn)換型和誘導(dǎo)型兩類,前者進(jìn)行參數(shù)調(diào)整求解,后者通過分析提取解軌跡,由此重構(gòu)對用戶知識需求的解;李小青等[4]、王建成等[5]與顧東曉等[6]將人工神經(jīng)網(wǎng)絡(luò)(ANN)與CBR 技術(shù)相結(jié)合,通過ANN 建立分類網(wǎng)絡(luò),對得到的優(yōu)化案例集進(jìn)行調(diào)整以滿足用戶需求,從而完成適配過程;張建華[7]針對傳統(tǒng)案例式推理(case based reason,CBR)適配模型的不足,基于與用戶知識需求視圖相似度較高的隱性知識外顯案例集設(shè)計(jì)了一套多案例誘導(dǎo)型知識適配方案。
有學(xué)者將神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹等方法引入適配模型,如Chen 等[8]提出基于自組織映射和Fisher 判別分析(FDA)的適配模型,首先采用FDA 進(jìn)行屬性降維,再運(yùn)用自組織映射完成適配;Yan 等[9]提出了屬性差異修正方法(ADR),利用支持向量回歸模型得出目標(biāo)知識需求與案例知識庫中知識間差異,對建議解進(jìn)行調(diào)整后輸出解決方案,并用實(shí)驗(yàn)證明了ADR 算法對CBR 性能的提升;Qi等[10]對支持向量回歸方法進(jìn)行改進(jìn),設(shè)計(jì)了多變量自適應(yīng)案例適配模型;Son 等[11]建立了基于粗糙集與決策樹的疾病數(shù)據(jù)適配模型,通過粗糙集算法提取關(guān)鍵屬性及知識,結(jié)合決策樹算法發(fā)現(xiàn)適配規(guī)則;張建華等[12]基于視圖相似度確定適配集,通過遺傳算法(GA)刪除冗余屬性,運(yùn)用C4.5 決策樹求解目標(biāo)問題的解軌跡,實(shí)現(xiàn)多案例誘導(dǎo)型適配;常淼等[13]通過貝葉斯法對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),以帶動(dòng)量的隨機(jī)梯度下降算法(SGDM)訓(xùn)練改進(jìn)卷積神經(jīng)網(wǎng)絡(luò),挖掘軸承故障特征與軸承故障間的關(guān)聯(lián)關(guān)系;雷蕾瀟等[14]基于關(guān)聯(lián)規(guī)則以及BP 神經(jīng)網(wǎng)絡(luò)的適配方法,利用關(guān)聯(lián)規(guī)則算法(Apriori)挖掘?qū)傩蚤g的關(guān)聯(lián)規(guī)則,運(yùn)用BP 神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)適配;劉可真等[15]運(yùn)用改進(jìn)關(guān)聯(lián)規(guī)則算法對內(nèi)存軟錯(cuò)誤事件進(jìn)行特征篩選及建模從而完成適配,輔助運(yùn)維人員診斷故障。
可見,目前有關(guān)案例適配的研究大多屬于轉(zhuǎn)換型適配,通過目標(biāo)需求與系統(tǒng)知識庫中知識間差異進(jìn)行參數(shù)調(diào)整以及解重構(gòu)、向用戶提供所需問題的解,這為隱性知識外顯案例適配提供了一定的理論依據(jù),然對有關(guān)參數(shù)調(diào)整機(jī)制的分析與確定時(shí)耗較大;而誘導(dǎo)型適配可以有效改善這一不足,但這一方面的研究領(lǐng)域還存在很大空白,需要深入研究。
誘導(dǎo)性適配需由既有知識基分析、歸納出適配規(guī)則(集),在此基礎(chǔ)上輸入案例化用戶知識需求的各條件屬性值,則可依適配規(guī)則推導(dǎo)目標(biāo)問題(用戶知識需求)的解。決策樹是一種有效的規(guī)則提取方法,但傳統(tǒng)決策樹方法已難滿足大數(shù)據(jù)時(shí)代海量復(fù)雜化數(shù)據(jù)的多屬性決策需求。隨機(jī)森林(random forest,RF)是一種基于決策樹的集成學(xué)習(xí)算法,有關(guān)該算法應(yīng)用方面的研究有如:李輝等[16]提出采用隨機(jī)森林算法與長短期記憶網(wǎng)絡(luò)算法組合模型預(yù)測股票的收盤價(jià)格,找出最優(yōu)特征集合,解決多特征間非線性及數(shù)據(jù)冗余問題;高學(xué)金等[17]將隨機(jī)森林算法用于篩選出不同故障類型的相關(guān)特征;馬玥等[18]基于隨機(jī)森林算法對農(nóng)耕用地的各特征信息進(jìn)行分類,并應(yīng)用RF 算法對變量降維,找到不同特征與農(nóng)耕土地類型的對應(yīng)關(guān)系,據(jù)此劃分土地利用類型;王宇燕等[19]運(yùn)用遺傳算法改進(jìn)隨機(jī)森林集成分類,并通過參數(shù)優(yōu)化后的隨機(jī)森林預(yù)測模型實(shí)現(xiàn)對疾病存活性的預(yù)測;包吉祥[20]在進(jìn)行電商企業(yè)消費(fèi)者需求預(yù)測前,應(yīng)用隨機(jī)森林算法剔除掉顧客行為數(shù)據(jù)中與商品需求無關(guān)或相關(guān)性較低的特征因子。綜上,隨機(jī)森林因其高效穩(wěn)健的優(yōu)勢已被廣泛用于分類和回歸,可以挖掘各領(lǐng)域不同類型數(shù)據(jù)間的聯(lián)系、提取規(guī)則,實(shí)現(xiàn)大數(shù)據(jù)時(shí)代對于多屬性決策的需求,且具有較好的效果。
通過視圖相似度計(jì)算并確定適配案例集是實(shí)施誘導(dǎo)型適配的基礎(chǔ),因此本研究采用加權(quán)畢達(dá)哥拉斯相關(guān)系數(shù)對傳統(tǒng)視圖相似度計(jì)算進(jìn)行改進(jìn),并通過聚類算法實(shí)現(xiàn)匹配空間的橫向壓縮、完成知識匹配過程,而后基于粒子群優(yōu)化改進(jìn)隨機(jī)森林算法,設(shè)計(jì)知識匹配失敗后的隱性知識外顯案例適配算法,并運(yùn)用UCI 數(shù)據(jù)庫中的紅酒數(shù)據(jù)集(winequality-red)驗(yàn)證所提出改進(jìn)算法的實(shí)效。
傳統(tǒng)Zadeh 模糊集采用隸屬度映射函數(shù)表示模糊信息的確定性[21]。為改進(jìn)對模糊信息的描述,Atanassov[22]提出了直覺模糊集,增加了非隸屬度來描繪信息的不確定性。針對直覺模糊集所存在的不能描述隸屬度與非隸屬度之和大于1 的缺陷,Yager等[23]提出了畢達(dá)哥拉斯模糊集(Pythagorean fuzzy sets,PFS)。
隨機(jī)森林是一種集成學(xué)習(xí)方法,它將多個(gè)同類型且相互獨(dú)立的個(gè)體學(xué)習(xí)器組成并行式集成學(xué)習(xí)器,集成學(xué)習(xí)器可以是多個(gè)單分類器的簡單組合,也可以通過裝袋法(bagging method,Bagging)或提升算法(boosting method,Boosting)訓(xùn)練分類器,從而形成強(qiáng)分類器。隨機(jī)森林方法以Bagging 為依據(jù),隨機(jī)選取屬性建立多棵決策樹、形成決策森林,由多棵決策樹投票形成最終決策,當(dāng)個(gè)體學(xué)習(xí)器達(dá)到一定數(shù)目時(shí),會(huì)得到比Bagging 更低的泛化誤差以及更高的訓(xùn)練效率。隨機(jī)森林能在數(shù)據(jù)缺失的情況下保持較高的分類精度,且避免了過擬合問題,具有較強(qiáng)的適應(yīng)性;同時(shí),它還適用于處理高維樣本,且不需要對數(shù)據(jù)進(jìn)行降維,在處理推斷映射類問題時(shí)具有明顯優(yōu)勢,可用于挖掘知識條件屬性與決策屬性間的關(guān)系。
粒子群優(yōu)化算法(particle swarm optimization,PSO)是一種智能算法,它模擬鳥類捕食過程中尋求最近食物的行為,即鳥類捕食會(huì)持續(xù)追隨當(dāng)前范圍內(nèi)距離自己最近的食物。PSO 將每一個(gè)需要尋優(yōu)的問題解視為1 個(gè)粒子,1 個(gè)粒子通常有3 個(gè)基本參數(shù):適應(yīng)度(fitness function,F(xiàn)itness)、位置(xi)、速度(vi)。適應(yīng)度表征了粒子目前所處位置的優(yōu)劣。每個(gè)粒子都可以記憶所搜尋到的最優(yōu)位置,都有一個(gè)速度決定其飛行時(shí)所沿的方向和速率,可通過個(gè)體和全局的極值找尋適應(yīng)度最優(yōu)的粒子。
隱性知識外顯案例庫是知識服務(wù)提供方所擁有的知識資源。當(dāng)用戶提出知識需求時(shí),首先,服務(wù)方在其案例庫中檢索是否存在與用戶需求相匹配的知識,若檢索出與用戶需求完全一致的案例知識,則直接推送給用戶;否則,則基于視圖相似度高于閾值的檢索案例集挖掘知識屬性間關(guān)系、為用戶提供知識適配服務(wù),以盡可能滿足用戶的知識需求。
針對傳統(tǒng)的隱性知識外顯案例匹配算法的改進(jìn)過程如下:(1)基于隱性知識外顯案例集建立知識表達(dá)系統(tǒng),并將其屬性值用畢達(dá)哥拉斯模糊數(shù)表示;(2)利用K-Means 聚類算法改進(jìn)模糊C均值聚類(fuzzy C-means,F(xiàn)CM)算法,實(shí)現(xiàn)對案例知識庫的聚類,尋找與用戶需求最相近的類別,壓縮匹配時(shí)對于相似度的計(jì)算量;(3)運(yùn)用熵權(quán)法對知識屬性進(jìn)行賦權(quán),結(jié)合權(quán)重系數(shù)與畢達(dá)哥拉斯相關(guān)系數(shù)計(jì)算各案例與用戶需求間的視圖相似度,并據(jù)此判定是否需實(shí)施適配。
為提升檢索效率,對案例庫進(jìn)行聚類處理,而后確定與用戶需求最相近的聚類,從而實(shí)現(xiàn)對案例匹配空間的橫向壓縮。傳統(tǒng)硬聚類將對象劃分到一個(gè)確定類別中,對難以界定具體類別的對象則無法處理。FCM 算法通過對目標(biāo)函數(shù)進(jìn)行優(yōu)化,得到每個(gè)對象對于各聚類中心的隸屬度;通過隸屬度進(jìn)行類別劃分,一個(gè)對象可以對應(yīng)多個(gè)類別,每個(gè)類別都可以當(dāng)作論域U上的模糊子集。FCM 算法的聚類結(jié)果易受聚類數(shù)目以及初始聚類中心的影響,容易陷入局部最優(yōu)狀態(tài),聚類數(shù)目的設(shè)置對聚類結(jié)果的影響較大;且傳統(tǒng)FCM 方法基于人為主觀經(jīng)驗(yàn)設(shè)定聚類數(shù)目,缺乏客觀性。而K均值聚類算法(K-means)通過多步驟迭代實(shí)現(xiàn)距離總和最小的優(yōu)化目標(biāo),可以得到c個(gè)區(qū)域的聚類中心。K-means 聚類算法聚類中心Oj的優(yōu)化迭代公式及最終迭代完成的目標(biāo)函數(shù)P為:
通過對聚類中心Oj和指示矩陣的優(yōu)化迭代,可以得到聚類區(qū)域個(gè)數(shù)c,利用K-means 算法不斷遍歷不同類別數(shù)c下的K-means 聚類效果,通過選取合適的聚類評價(jià)指標(biāo)判定不同c值下聚類模型的優(yōu)劣,選擇最優(yōu)的聚類數(shù)目,確定案例知識庫的劃分類別數(shù)。
運(yùn)用FCM 算法實(shí)現(xiàn)對案例數(shù)據(jù)庫的軟聚類,其目標(biāo)函數(shù)J如下:
式(5)中,dij為第i條知識與聚類中心Oj間的歐氏距離;為模糊隸屬度系數(shù),且滿足對于各類別隸屬度之和為1 的要求。即:
通過式(7)(8)進(jìn)行聚類中心Oj和隸屬度的迭代及更新,使得聚類效果更優(yōu)。
至此,基于最優(yōu)類別數(shù)c設(shè)定模糊隸屬度系數(shù),通過不斷迭代達(dá)到FCM 的聚類目標(biāo)函數(shù)最小值,完成對案例庫的劃分。
案例條件屬性權(quán)重確定是案例視圖計(jì)算的主體工作,采用熵權(quán)法確定權(quán)重。熵權(quán)法賦權(quán)客觀強(qiáng),區(qū)分度也較高,基本步驟如下:
(1)對條件屬性值進(jìn)行標(biāo)準(zhǔn)化處理。公式如下:
(2)計(jì)算各屬性值所占的概率。公式如下:
(3)計(jì)算各屬性的信息熵值。公式如下:
(4)計(jì)算各屬性權(quán)重。公式如下:
傳統(tǒng)知識匹配模型通常采用距離或相似系數(shù)衡量兩條知識間的相似程度,用此方法在計(jì)算模糊不確定案例知識屬性間相似度時(shí)會(huì)造成信息量的缺失,且未考慮到隸屬度與非隸屬度之和大于1 的情況。鑒于此,本研究引入畢達(dá)哥拉斯相關(guān)系數(shù)對傳統(tǒng)相似度算法進(jìn)行改進(jìn),使得相似度包含更多的非精確、非確定的信息,并加入權(quán)重系數(shù)對畢達(dá)哥拉斯相關(guān)系數(shù)進(jìn)行改進(jìn),用改進(jìn)后的相關(guān)系數(shù)表示視圖相似度?;静襟E如下:
式(13)(14)中,πij為條件屬性值aij的猶豫度。
(2)引入權(quán)重系數(shù)改進(jìn)知識間畢達(dá)哥拉斯相關(guān)度計(jì)算方法,第h條知識與第k條知識的相關(guān)度為:
(3)計(jì)算兩條知識的視圖相似度為:
若某一案例知識與用戶知識需求之間的視圖相似度為1,表明其完全滿足用戶需求,則將其直接推送給用戶;若其視圖相似度小于1 但仍大于或等于設(shè)定閾值,則將其納入后續(xù)適配計(jì)算的案例子集,經(jīng)適配計(jì)算后將結(jié)果輸出以盡可能滿足用戶需求;若其視圖相似度小于設(shè)定閾值,則宣告案例匹配失敗。
隨機(jī)森林是機(jī)器學(xué)習(xí)領(lǐng)域中用于預(yù)測和分類的優(yōu)勢算法,適用于推斷映射問題,本研究引入隨機(jī)森林算法并對其進(jìn)行參數(shù)優(yōu)化,用于挖掘隱性知識外顯案例庫中知識屬性間的關(guān)系,求解適配解軌跡。首先,將案例庫中已有的知識屬性輸入隨機(jī)森林訓(xùn)練模型進(jìn)行訓(xùn)練;然后,采用PSO 算法優(yōu)化RF 模型參數(shù),在此基礎(chǔ)上完成適配計(jì)算。
采用隨機(jī)Boostrap 抽樣選取樣本集作為每棵決策樹的訓(xùn)練集,其他未抽取的樣本可作為測試集以評估模型效果。利用CART、C4.5、ID3 等方法訓(xùn)練單棵決策樹,隨機(jī)選擇劃分特征,基于基尼指數(shù)(Gini index)選擇最優(yōu)屬性作為分裂點(diǎn),訓(xùn)練生成多棵決策樹,且多棵樹間沒有關(guān)聯(lián),從而形成隨機(jī)森林,最終通過投票法實(shí)現(xiàn)對用戶待解問題(知識需求)的適配求解。
對于隱性知識外顯案例庫A,其決策屬性值共有e類,依據(jù)條件屬性進(jìn)行決策,第e類決策屬性值的概率為pe,則基尼指數(shù)的計(jì)算如下:
隨機(jī)森林算法的步驟為:
Step1:從大小為T的訓(xùn)練集中,以隨機(jī)且有放回的方式抽取t個(gè)訓(xùn)練樣本作為一棵決策樹的訓(xùn)練集。
Step2:每個(gè)訓(xùn)練樣本的屬性維度為N,指定n<<N,隨機(jī)從N個(gè)屬性中選取n個(gè)屬性作為屬性子集。
Step3:從屬性子集中,依據(jù)Gini 指數(shù),在這n個(gè)屬性中選擇最小分裂后的基尼指數(shù),即為最優(yōu)屬性,以此作為分裂節(jié)點(diǎn)建立決策樹。每棵決策樹都不剪枝、不受控制地增長,直到?jīng)Q策樹無法分裂為止。
Step4:重復(fù)以上3 個(gè)步驟,生成k棵決策樹。
Step5:組合k棵決策樹的輸出結(jié)果,建立隨機(jī)森林適配模型。
決策樹集成后采用簡單多數(shù)投票的方式確定適配結(jié)果。集成投票公式如下:
式(18)中:margin 為邊緣分布函數(shù);hi表示單棵決策樹算法;Y為決策樹的目標(biāo)變量;I為示性函數(shù)。margin 的值越大,表示隨機(jī)森林模型的可信度越高。
隨機(jī)森林算法的效率受決策樹的個(gè)數(shù)n_estimators 和單棵樹最大深度max_depth 兩個(gè)參數(shù)的影響最大。對于隨機(jī)森林模型來說,決策樹的個(gè)數(shù)越多,集成學(xué)習(xí)器的能力也就越強(qiáng),模型的準(zhǔn)確率也會(huì)提升,與此同時(shí)會(huì)帶來運(yùn)算速度降低的問題;樹的深度越深,樹枝就越多、結(jié)構(gòu)更加細(xì)化,構(gòu)造的隨機(jī)森林模型也越復(fù)雜。因此,對隨機(jī)森林參數(shù)的優(yōu)化要以“減少模型復(fù)雜度、防止過擬合”為目標(biāo),同時(shí)達(dá)到較高的準(zhǔn)確率。針對RF 算法的缺點(diǎn),群智能優(yōu)化算法可以進(jìn)行有效改進(jìn)。遺傳算法是經(jīng)典的優(yōu)化算法,PSO 算法相較于GA 算法,使用實(shí)數(shù)編碼,會(huì)在提升運(yùn)行速度的同時(shí)確保準(zhǔn)確性,因此,本研究選用PSO 算法對RF 進(jìn)行參數(shù)優(yōu)化。流程如下:
輸入:RF 適配模型的參數(shù)。
輸出:模型的優(yōu)化參數(shù)組合n_estimators、max_depth。
至此,確定隨機(jī)森林算法的最優(yōu)參數(shù)n_estimators、max_depth,依據(jù)最優(yōu)參數(shù)對隨進(jìn)森林模型進(jìn)行優(yōu)化,從而提升算法的效率和準(zhǔn)確率,改善其泛化能力。
選用UCI 數(shù)據(jù)庫中的“winequality-red” 數(shù)據(jù)集驗(yàn)證本研究以上提出的改建算法的效果?!皐inequality-red”一共包含1 599 條案例知識,案例庫共有12 個(gè)屬性,其中含11 個(gè)條件屬性、1 個(gè)決策屬性,條件屬性為葡萄酒各類指標(biāo)的客觀測度值,決策屬性代表多位品酒專家對紅酒質(zhì)量的評分值,從很差到很好用打分0~10 分表示。將案例庫轉(zhuǎn)換為矩陣,矩陣的每一行代表一條案例知識的全部屬性值集合。
4.1.1 聚類評價(jià)指標(biāo)
CH 系數(shù)(Calinski-Harabasz index)是聚類效果的評價(jià)指標(biāo)之一,它謀求用較少的類別聚類較多的樣本,同時(shí)達(dá)到較好的聚類效果。CH 系數(shù)適用于實(shí)際類別未知的情況下對聚類效果進(jìn)行測度,有較強(qiáng)的普適性。計(jì)算如下:
式(23)中:tr 表示矩陣的跡;Bc、Wc分別為各類別之間與類別內(nèi)部的協(xié)方差矩陣;t為訓(xùn)練集中的樣本個(gè)數(shù)。CH 系數(shù)的值越高,說明各類內(nèi)部越緊密、各類之間越分散,表明聚類效果越好。
4.1.2 適配評價(jià)指標(biāo)
適配是通過已知條件屬性值給出對未知解問題的預(yù)測解,因此適配模型的效果可以參照預(yù)測問題的相關(guān)指標(biāo)來測算。在機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等領(lǐng)域,預(yù)測評估的測算指標(biāo)主要有準(zhǔn)確率(accuracy)、召回率(recall)和均方誤差(MSE)等指標(biāo),本研究通過這些指標(biāo)評價(jià)適配模型。
準(zhǔn)確率表示預(yù)測正確的結(jié)果占全部的比重。即:
式(24)中:TP 表示預(yù)測值為真,真實(shí)值也為真;FP 表示預(yù)測為真,真實(shí)值為假;FN 表示預(yù)測值為假,真實(shí)值為真;TN 表示預(yù)測值為假,真實(shí)值也為假。
召回率也稱查全率,表示預(yù)測為正的結(jié)果占全部實(shí)際為正的比重。即:
均方誤差表示預(yù)測結(jié)果與真實(shí)結(jié)果之間的差異。即:
建立知識表達(dá)系統(tǒng),需先對winequality-red 數(shù)據(jù)集的屬性值進(jìn)行處理,用畢達(dá)哥拉斯模糊數(shù)實(shí)現(xiàn)對案例知識條件屬性的表示,將案例知識庫轉(zhuǎn)化為畢達(dá)哥拉斯模糊決策表。隨機(jī)從中抽取一條知識作為用戶需求C=(7,0.58,0.39,3.3,0.058,23,45,0.996 23,3.47,0.61,10.8,dc),決策屬性未知;經(jīng)過處理后,將該用戶的知識需求轉(zhuǎn)化為畢達(dá)哥拉斯模糊數(shù)如下:
在進(jìn)行知識匹配前,對案例知識庫進(jìn)行聚類以實(shí)現(xiàn)匹配空間的橫向壓縮。首先利用K-Means 算法設(shè)置聚類個(gè)數(shù)c從2~9 進(jìn)行循環(huán),求得不同聚類數(shù)下的CH 系數(shù),據(jù)此確定FCM 聚類的最優(yōu)類別數(shù)。如圖1 所示,可以看出winequality-red 數(shù)據(jù)集K-Means 聚類的類別在6 個(gè)、7 個(gè)時(shí)的CH 值較高且非常接近,表明選取較小的聚類數(shù)可實(shí)現(xiàn)較好的聚類效果。
圖1 不同聚類個(gè)數(shù)對應(yīng)的CH 指數(shù)
據(jù)此,將聚類數(shù)目確定為6 個(gè),并基于FCM 算法對知識庫中的所有知識進(jìn)行聚類劃分,在此基礎(chǔ)上計(jì)算用戶知識需求與6 個(gè)聚類中心間的距離,結(jié)果如表1 所示,可知用戶知識需求與聚類區(qū)域3 的距離最近;而后,計(jì)算用戶知識需求與聚類區(qū)域3中各知識(共312 條)的視圖相似度。如此,避免了對全庫遍歷的匹配計(jì)算,降低了時(shí)耗、提升了匹配效率。
表1 樣本數(shù)據(jù)集中目標(biāo)知識需求與各聚類中心間的距離
繼而,運(yùn)用改進(jìn)的畢達(dá)哥拉斯相關(guān)系數(shù)算法計(jì)算上述312條知識各自與知識需求間的視圖相似度,并對其降序排列,部分結(jié)果如表2 所示。由表2 可知,各相似度均未達(dá)到1,無法直接給出待解問題的解。
表2 樣本用戶目標(biāo)需求與聚類區(qū)域3 內(nèi)知識間的相似度
則設(shè)定適配閾值為0.7,將視圖相似度大于閾值的案例知識納入適配案例集。首先,將適配案例集輸入RF 適配模型,隨機(jī)抽取80%作為訓(xùn)練集用于訓(xùn)練適配模型;剩余20%作為測試集用于評估適配模型的效果。而后,利用PSO 算法對隨機(jī)森林模型的參數(shù)n_estimators、max_depth 進(jìn)行不斷迭代,尋找最優(yōu)參數(shù)組合,得到最優(yōu)參數(shù)組合為n_estimators=175、max_depth=16,將適配模型中的參數(shù)設(shè)定為搜尋到的最優(yōu)參數(shù)組合,繼續(xù)進(jìn)行訓(xùn)練。訓(xùn)練完成后,用測試集對模型效果進(jìn)行測試,計(jì)算評估指標(biāo)accuracy、recall、MSE。此外,保持模型各參數(shù)設(shè)置不變,利用傳統(tǒng)的k最鄰近分類算法(KNN)、分類回歸決策樹(CART)、C4.5 決策樹和樸素貝葉斯模型進(jìn)行適配,計(jì)算出相應(yīng)評估指標(biāo),并與本研究上述設(shè)計(jì)的適配算法進(jìn)行對比。
(1)準(zhǔn)確率。由圖2 可知,在相同參數(shù)設(shè)置的情況下,本研究提出的算法準(zhǔn)確率高于KNN、CART決策樹、C4.5決策樹以及樸素貝葉斯適配模型;此外,決策樹適配模型的準(zhǔn)確率普遍高于傳統(tǒng)的KNN 及樸素貝葉斯模型。
圖2 不同適配模型的準(zhǔn)確率比較
(2)召回率。由圖3 可知,實(shí)驗(yàn)的召回率與準(zhǔn)確率趨勢相同,準(zhǔn)確率高則召回率也高;本研究提出的算法的召回率最高,適配效果優(yōu)于其他模型。
圖3 不同適配模型的召回率比較
(3)均方誤差。由圖4 可知,本研究提出的算法的均方誤差最小,C4.5 決策樹與CART 決策樹次之,KNN 與樸素貝葉斯的均方誤差較大。
圖4 不同適配模型的均方誤差比較
基于知識適配領(lǐng)域的既有研究,針對傳統(tǒng)知識匹配過程對知識庫做全遍歷,耗時(shí)長、效率低,不適用于大規(guī)模知識庫匹配計(jì)算的問題,本研究設(shè)計(jì)、提出了一套隱性知識外顯案例適配方案。本研究引入FCM 聚類算法,并通過K-Means 算法確定客觀的聚類數(shù)目,對知識庫先行聚類;而后,引入PFS 相關(guān)系數(shù)計(jì)算目標(biāo)問題與距離最近類別內(nèi)的知識間視圖相似度,縮短了知識匹配時(shí)間、提升了匹配效率。在案例適配方面,基于PSO-RF 的適配算法的其各項(xiàng)評價(jià)指標(biāo)優(yōu)于KNN、CART、C4.5、樸素貝葉斯等傳統(tǒng)算法。