徐紅升,張瑞玲
(洛陽(yáng)師范學(xué)院信息技術(shù)學(xué)院,河南 洛陽(yáng) 471022)
基于粗概念格模型的電子商務(wù)領(lǐng)域本體的構(gòu)建研究
徐紅升,張瑞玲
(洛陽(yáng)師范學(xué)院信息技術(shù)學(xué)院,河南 洛陽(yáng) 471022)
以構(gòu)建電子商務(wù)系統(tǒng)中的本體為出發(fā)點(diǎn),分析現(xiàn)有的本體構(gòu)建技術(shù)中存在的缺陷。針對(duì)這些不足,綜合考慮變精度粗糙集模型和形式概念分析的相關(guān)理論,提出基于粗概念格模型來(lái)構(gòu)建本體。將變精度粗糙集的β選取算法和可辨識(shí)矩陣屬性約簡(jiǎn)算法進(jìn)行了改進(jìn),使β-上、下分布的約簡(jiǎn)方法適用于形式背景的約簡(jiǎn),從而提出基于變精度粗糙集的概念格約減算法;然后計(jì)算語(yǔ)義概念相似度,并以聯(lián)合國(guó)標(biāo)準(zhǔn)產(chǎn)品與服務(wù)分類代碼的本體元模型為核心本體,結(jié)合領(lǐng)域?qū)<抑R(shí),建立電子商務(wù)領(lǐng)域本體模型。實(shí)驗(yàn)表明了粗概念格構(gòu)建本體的高效性。
本體;變精度粗糙集;概念格;屬性約簡(jiǎn)
隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,電子商務(wù)系統(tǒng)在為用戶提供越來(lái)越多選擇的同時(shí),其結(jié)構(gòu)也變得更加復(fù)雜,如何及時(shí)在網(wǎng)絡(luò)上的海量信息中發(fā)現(xiàn)所需要的信息變得越來(lái)越困難。
目前的電子商務(wù)系統(tǒng)都是基于單個(gè)電子商務(wù)網(wǎng)站的應(yīng)用,客戶群體也是特定的,存在實(shí)時(shí)性差、推薦質(zhì)量不高的問(wèn)題,因此不能滿足基于網(wǎng)絡(luò)條件下大規(guī)模電子商務(wù)推薦應(yīng)用的要求?;谥R(shí)的推薦技術(shù)是解決這一問(wèn)題的關(guān)鍵,但基于知識(shí)的推薦技術(shù)最大的難點(diǎn)是知識(shí)的獲取[1],而本體技術(shù)可以有效解決知識(shí)的獲取、聚合和智能推薦等問(wèn)題。本體作為解決知識(shí)工程、語(yǔ)義Web、人工智能等領(lǐng)域瓶頸問(wèn)題的萬(wàn)靈丹(Silver Bullet)受到研究者廣泛關(guān)注,越來(lái)越多地被用于推薦系統(tǒng),主要用來(lái)描述用戶需求和產(chǎn)品,以及通過(guò)本體匹配向用戶推薦產(chǎn)品。
那么,構(gòu)建本體成為本體應(yīng)用的關(guān)鍵問(wèn)題,但目前該領(lǐng)域研究還處于探索階段,沒(méi)有形成成熟、統(tǒng)一的方法作為指導(dǎo)。由于手工構(gòu)建并開(kāi)發(fā)本體的方法費(fèi)時(shí)、費(fèi)力、成本很高,導(dǎo)致本體的構(gòu)建成為一項(xiàng)艱巨的任務(wù)。因此,如何利用知識(shí)獲取技術(shù)來(lái)降低本體構(gòu)建的成本是一個(gè)很有建設(shè)性的研究課題。國(guó)外在該方向的研究很活躍,把相關(guān)的技術(shù)稱為本體學(xué)習(xí)技術(shù)(Ontology Learning),其目標(biāo)是利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)等技術(shù)自動(dòng)或半自動(dòng)地從已有的數(shù)據(jù)資源中獲取渴望的本體。而采用本體學(xué)習(xí)技術(shù),雖然可以簡(jiǎn)化手工構(gòu)建本體的工作量,但這些技術(shù)不能尋找到領(lǐng)域內(nèi)所有隱含的概念和概念間關(guān)系,而且不能明確地以形式化方式表達(dá)所形成的概念及概念模型。
形式概念分析作為應(yīng)用數(shù)學(xué)的一個(gè)分支,來(lái)源于哲學(xué)領(lǐng)域?qū)Ω拍畹睦斫鈁2,3],從外延和內(nèi)涵兩方面對(duì)概念進(jìn)行符號(hào)形式化描述,實(shí)現(xiàn)計(jì)算機(jī)可以理解的語(yǔ)義信息。根據(jù)用二元關(guān)系來(lái)表達(dá)領(lǐng)域中的形式背景,從中提取所有隱含的概念和概念之間的相互關(guān)系,形成概念層次結(jié)構(gòu),即概念格,從數(shù)據(jù)集中生成概念格的過(guò)程實(shí)際上是一種概念聚類的過(guò)程。利用形式概念分析技術(shù)在不受開(kāi)發(fā)者的主觀影響下,幫助從給定的數(shù)據(jù)里自動(dòng)獲取所有隱含的概念以及概念之間的層次關(guān)系,并且用符號(hào)表示所有概念,達(dá)到了形式化概念模型的效果,為構(gòu)建本體提供一種方法指導(dǎo)。概念格和粗糙集是數(shù)據(jù)挖掘中對(duì)數(shù)據(jù)進(jìn)行分析與處理的兩個(gè)有力工具,本文將可變精度粗糙集的β-上、下分布的約簡(jiǎn)思想應(yīng)用于形式背景的約簡(jiǎn),提出基于變精度粗糙集的概念格約減算法。針對(duì)約簡(jiǎn)后的概念從中提取形式概念,用決策表中的對(duì)象集和相應(yīng)的屬性集來(lái)表達(dá)所形成的概念,形成概念間的層次關(guān)系。這里提出基于變精度粗糙集的概念格模型來(lái)構(gòu)建本體,該方法在不改變本體結(jié)構(gòu)的前提下,盡量減少對(duì)象和屬性的數(shù)量,降低構(gòu)造本體的時(shí)間復(fù)雜度,增加其覆蓋能力和泛化能力。
最后以聯(lián)合國(guó)標(biāo)準(zhǔn)產(chǎn)品與服務(wù)分類代碼(UNSPSC)為核心本體,結(jié)合商品表格、日志、現(xiàn)有電子商務(wù)領(lǐng)域?qū)<抑R(shí)庫(kù),通過(guò)核心本體半自動(dòng)擴(kuò)展的方法提取和生成電子商務(wù)領(lǐng)域本體。本文第1節(jié)作為全文的概述;第2節(jié)主要介紹目前本體構(gòu)建技術(shù)的情況,分析存在的問(wèn)題;第3節(jié)介紹粗概念格模型的構(gòu)建方法;第4節(jié)討論基于粗概念格來(lái)構(gòu)建電子商務(wù)領(lǐng)域本體的方法。
本體作為解決知識(shí)工程、語(yǔ)義Web、人工智能等領(lǐng)域瓶頸問(wèn)題的萬(wàn)靈丹受到研究者的廣泛關(guān)注,越來(lái)越多地被用于推薦系統(tǒng),主要用來(lái)描述用戶需求和產(chǎn)品,以及通過(guò)本體匹配向用戶推薦產(chǎn)品。因此,關(guān)于本體構(gòu)建方法的研究對(duì)于本體的應(yīng)用具有至關(guān)重要的作用。但是,目前該領(lǐng)域研究還處于探索階段,沒(méi)有形成成熟、統(tǒng)一的方法作為指導(dǎo)。
早期的本體構(gòu)建方法主要誕生在具體的開(kāi)發(fā)項(xiàng)目,為具體的項(xiàng)目實(shí)踐服務(wù)。國(guó)外的研究有:骨架法、企業(yè)建模法、 METHONTOLOGY、KACTUS、循環(huán)獲取法、IDEF-5方法、七步法。這七種方法體系的成熟度依次為:七步法、METHONTOLOGY法> IDEF-5方法>企業(yè)建模法>骨架法>循環(huán)獲取法、 KACTUS法。國(guó)內(nèi)的有:(1)王洪偉、吳家春、蔣馥提出了基于描述邏輯的本體模型;(2)劉鳳華、朱欣娟等人提出了基于需求分析的本體模型構(gòu)建方法;(3)李景、蘇曉鷺等人[4]提出了構(gòu)建領(lǐng)域本體的知識(shí)工程方法。
經(jīng)分析,上述構(gòu)建方法的缺點(diǎn)是:(1)采用手工方式,一旦遇到復(fù)雜的領(lǐng)域就費(fèi)時(shí)費(fèi)力;(2)在建立各自的本體時(shí)均采用不同的標(biāo)準(zhǔn)、建模方法,所以構(gòu)建的本體不通用;(3)具有很大的主觀性,針對(duì)某個(gè)領(lǐng)域,不同的領(lǐng)域?qū)<視?huì)采用不同的觀點(diǎn)以至構(gòu)建的本體不統(tǒng)一。最重要的是在尋找領(lǐng)域概念和概念之間的關(guān)系時(shí),所采取的方法和手段有較大差異,而且也只能找到一些已知的概念(從辭海或敘詞表中)。
由于手工構(gòu)建并開(kāi)發(fā)本體的方法費(fèi)時(shí)、費(fèi)力、成本很高,導(dǎo)致本體的構(gòu)建成為一項(xiàng)艱巨的任務(wù)。因此,如何利用知識(shí)獲取技術(shù)來(lái)降低本體構(gòu)建的成本是一個(gè)很有建設(shè)性的研究課題。
目前,國(guó)外在該領(lǐng)域的研究很活躍,并把該研究領(lǐng)域稱為本體學(xué)習(xí)(Ontology Learning)。其目標(biāo)是利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)等技術(shù),以自動(dòng)或半自動(dòng)的方法,從己有的數(shù)據(jù)資源中獲取期望的本體。到目前為止,國(guó)外己開(kāi)發(fā)了一些本體學(xué)習(xí)工具,具有代表性的工具包括Hasti[5]、OntoLearn[6]、Text-To-Onto[7]和OntoLIFT[8]。
在國(guó)內(nèi),中國(guó)科技信息研究所的梁健和王惠臨的《基于文本的本體學(xué)習(xí)法研究》[9];中國(guó)人民大學(xué)杜小勇、李曼等將本體學(xué)習(xí)分為基于非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)三種類型[10]??傊?,采用本體學(xué)習(xí)技術(shù),雖然可以簡(jiǎn)化手工構(gòu)建本體的工作量,但在實(shí)際的知識(shí)獲取過(guò)程中,有些知識(shí)雖然人能理解,但很難確切地表達(dá)出來(lái),比如很多隱含的概念和概念間的關(guān)系,這些關(guān)系都是隱含在人的頭腦中,或者是文檔中的。另外,這些隱含的概念及概念間的關(guān)系要用形式化的方式確切地表示出來(lái)更加困難。
而形式概念分析就是從給定數(shù)據(jù)中自動(dòng)提取出所有的隱含概念以及概念之間的分類關(guān)系,形成概念模型(概念格)。概念格作為形式概念分析的核心數(shù)據(jù)結(jié)構(gòu),從外延和內(nèi)涵兩方面對(duì)概念進(jìn)行符號(hào)形式化描述,具有明確的層次關(guān)系,含有豐富的語(yǔ)義信息,實(shí)現(xiàn)了計(jì)算機(jī)可以理解的語(yǔ)義信息[11]。本體和形式概念分析都來(lái)源于哲學(xué)領(lǐng)域,概念格由概念的層次關(guān)系組成,內(nèi)涵、外延構(gòu)成了概念,而本體也是用來(lái)體現(xiàn)概念與概念間關(guān)系的。因此,采用形式概念分析的方法可以幫助構(gòu)建本體,并為本體的構(gòu)建提供了一種統(tǒng)一、成熟的方法指導(dǎo)。
概念格和粗糙集是數(shù)據(jù)挖掘中對(duì)數(shù)據(jù)進(jìn)行分析與處理的兩個(gè)有力工具。近年來(lái)將粗糙集理論與概念格相結(jié)合已有許多成果[12]。本文將可變精度粗糙集的β-上、下分布的約簡(jiǎn)思想應(yīng)用于形式背景的約簡(jiǎn),提出基于變精度粗糙集的概念格構(gòu)造模型。其核心思想是首先針對(duì)領(lǐng)域的形式背景進(jìn)行預(yù)處理,然后把變精度粗糙集在屬性約簡(jiǎn)方面的較強(qiáng)能力用于概念格的約簡(jiǎn),使生成的概念格的節(jié)點(diǎn)數(shù)目大大減少,系統(tǒng)的魯棒性和抗噪能力增強(qiáng)。
這里采用改進(jìn)的基于變精度粗糙集的β-上、下分布屬性約簡(jiǎn)算法對(duì)形式背景約簡(jiǎn)。在不改變格結(jié)構(gòu)的基礎(chǔ)上,減少對(duì)象和屬性的數(shù)量,降低構(gòu)造概念格的時(shí)間復(fù)雜度,增加其覆蓋能力和泛化能力。
通過(guò)改進(jìn)計(jì)算可辨識(shí)矩陣的方法,使得算法既適用于相容決策表,也適用于不相容決策表,首先根據(jù)β值的估算方法求出β,計(jì)算屬性重要度;然后改進(jìn)Skowron提出的可辨識(shí)矩陣計(jì)算方法,以改進(jìn)的可辨識(shí)矩陣計(jì)算方法為基礎(chǔ),提出基于變精度粗糙集的β-上、下分布屬性約簡(jiǎn)算法。
分類質(zhì)量是決策屬性D對(duì)條件屬性C的依賴度,表示條件類U/C能夠確切劃入決策類U/D的對(duì)象數(shù)占論域中總對(duì)象數(shù)的比率,體現(xiàn)了決策信息系統(tǒng)的不確定程度。分類質(zhì)量越小,不確定性就越大。在現(xiàn)實(shí)生活中 ,決策分析者往往并不知道β的取值,但有可能知道用戶所要求的分類質(zhì)量不得低于某一閾值γ,如何根據(jù)γ來(lái)確定β的取值范圍是本文研究的一個(gè)重點(diǎn)。
定義1 給定決策表S=(U,C∪D,V,f),其中V是屬性值的集合,f是信息函數(shù)。給定β∈(0.5,1],U/C={X1,X2,…,X|U/C|},U/D={Y1,Y2,…,Y|U/D|},近似分類質(zhì)量(稱“決策屬性D對(duì)條件屬性C的近似依賴度”)定義公式為γ(C,D,β)=POS(C,D,β)/U。
定理1[13](1) 設(shè)0.5<β1≤β≤1,若x∈POS(C,D,β),則x∈POS(C,D,β1)。
(2) 設(shè)0.5<β≤β1≤1,若x?POS(C,D,β),則x?POS(C,D,β1)。
定理2 對(duì)于定義1中的決策表,
β={β(Xi,Yj)|00.5},若β中重復(fù)的元素只保留一個(gè)并按從小到大順序排列為β={β1,β2,…,βk}, 1≤k≤|U/C|*|U/D|,則有γ(C,D,β1)>γ(C,D,β2)>…>γ(C,D,βk)。
定理3 對(duì)于定義1中的決策表,
β={β(Xi,Yj)|00.5},對(duì)?β∈(βi,βi+1],有γ(C,D,β)=γ(C,D,βi+1)。
定理4 設(shè)給定的近似分類質(zhì)量閾值r,滿足r要求的最大β值為βr,則對(duì)任意的β∈(0.5,βr],γ(C,D,β)≥γ。
可辨識(shí)矩陣是Skowron于1991年提出來(lái)的[13]。可辨識(shí)矩陣的精妙之處就是在于它把粗糙集對(duì)于信息表所要求的所有信息都濃縮到一個(gè)可辨識(shí)矩陣中,因此矩陣中所有條件屬性組合數(shù)為1的屬性均為核屬性。這里改進(jìn)可辨識(shí)矩陣的概念屬性約簡(jiǎn)算法(VMAR算法),首先對(duì)屬性集之間的正域和負(fù)域定義進(jìn)行改進(jìn),根據(jù)最大交集的思想來(lái)拓展變精度粗糙集模型,并結(jié)合β值選取方法來(lái)改進(jìn)基于變精度粗糙集理論的近似知識(shí)約簡(jiǎn)算法,通過(guò)分析概念構(gòu)造算法,最終將變精度粗糙集的Inspired規(guī)則獲取算法與改進(jìn)的概念格構(gòu)造算法進(jìn)行有機(jī)結(jié)合,形成基于VPRS的概念格的約簡(jiǎn)構(gòu)造算法如下。
對(duì)于決策表,從{β1,β2,…,βk}序列中通過(guò)逐個(gè)比較找出使得近似分類質(zhì)量γ最接近r值的βr。
輸入:背景(X,D,R)所對(duì)應(yīng)的原始概念格L信息,{β1,β2,…,βk}序列值,閾值r;
輸出:背景(X∪{x*},D,R)所對(duì)應(yīng)的概念格L*信息。
算法描述:
步驟1 輸入決策表。
步驟2 令x=l,計(jì)算γ(C,D,β1);
if(γ(C,D,β1)≥r) 轉(zhuǎn)步驟2;
else 要求決策者降低對(duì)決策表的分類能力,并重新提供r值。
步驟3R=null;∥初始化約簡(jiǎn)集R為空
for (i=0;i<|M|;i++)
{for (j=i;j<|M|;j++)
{if(mij只有一個(gè)條件屬性元素)
CORE(C)<==={a}; /*CORE(C)為屬性的核約簡(jiǎn)}*/
}R<===CORE(C);/*將核加到約簡(jiǎn)集R中*/
步驟4 計(jì)算γ(C,D,βx);
if(γ(C,D,βx)≥r) 轉(zhuǎn)步驟2;
else 轉(zhuǎn)步驟4。
步驟5 [Increasei] Seti+1→i,
ifi=n+1 算法結(jié)束;
elsel←j, 轉(zhuǎn)步驟2。
步驟6 取出所有的更新格節(jié)點(diǎn),并按內(nèi)涵元素個(gè)數(shù)從小到大排序,返回集合COLL3;
for (每個(gè)Ck∈COLL3) { 找出Ck的子節(jié)點(diǎn)集合CHD(Ck),按內(nèi)涵元素個(gè)數(shù)從小到大排序}。
步驟7 得到一個(gè)β-變精度屬性約簡(jiǎn),從而得到簡(jiǎn)化的決策表L*。
步驟8 添加新生成的格節(jié)點(diǎn)Cnew=(Extent(Ci)∪ {x*},Intersection);
添加邊Cnew→C1。
步驟9 輸出最終粗概念格L。
目前,電子商務(wù)系統(tǒng)中存在大量非結(jié)構(gòu)化數(shù)據(jù)(文本、表格、日志等)以及結(jié)構(gòu)化數(shù)據(jù)(關(guān)系數(shù)據(jù)庫(kù)),非結(jié)構(gòu)化數(shù)據(jù)依據(jù)一定的造句法表達(dá)語(yǔ)義信息,只能通過(guò)一些背景知識(shí)來(lái)理解其中的含義。這里結(jié)合產(chǎn)品本體介紹本體構(gòu)建的過(guò)程,其技術(shù)路線如圖1所示。
Figure 1 Technology roadmap of ontology building圖1 本體構(gòu)建的技術(shù)路線圖
(1)抽取形式背景。
由于缺乏一定的結(jié)構(gòu),要使機(jī)器能夠自動(dòng)地理解非結(jié)構(gòu)化數(shù)據(jù)并從中抽取出需要的知識(shí),必須利用自然語(yǔ)言處理(NLP)技術(shù)對(duì)其預(yù)處理。首先利用自然語(yǔ)言理解技術(shù)(NLP)對(duì)收集來(lái)的純文本進(jìn)行預(yù)處理,取得文本中的字詞集合;利用概率統(tǒng)計(jì)的方法獲得能代表文本的關(guān)鍵概念詞匯。具體的方法可以是計(jì)算概念詞匯在文本集中出現(xiàn)的頻率,如果該頻率大于指定的閾值,則將其作為領(lǐng)域本體中的概念,利用WordNet判斷概念間的同義關(guān)系。然后針對(duì)所找出的概念詞匯,結(jié)合相應(yīng)的文本集合形成詞匯、文件的二元關(guān)系表,該二元關(guān)系表就是形式背景。
(2)采用粗概念格模型來(lái)生成單元本體。
通過(guò)選擇合適的β值,利用變精度粗糙集對(duì)形式背景進(jìn)行約簡(jiǎn),以減少冗余對(duì)象、降低噪聲。針對(duì)約減后的形式背景,采用粗概念格技術(shù)構(gòu)造單元本體。用RFCA來(lái)構(gòu)建本體的具體方法如下:
①?gòu)目盏膶?duì)象和屬性集合開(kāi)始。
②由使用者根據(jù)需要把對(duì)象和屬性添加到形式背景中。
③構(gòu)建形式背景對(duì)應(yīng)的粗概念格。
④用戶可以在顯式化的粗概念格的基礎(chǔ)上做如下操作:
a 根據(jù)本體使用的需要直接編輯:
i 添加或移除對(duì)象;
ii 添加或移除屬性;
iii 給對(duì)象添加屬性或從對(duì)象移走某一屬性。
b 由程序提示編輯本體:
i 當(dāng)兩個(gè)對(duì)象有相同的屬性時(shí),要么合并成一個(gè)對(duì)象,要么給對(duì)象添加屬性,以區(qū)別對(duì)象;
ii RFCA能產(chǎn)生新的對(duì)象,這些對(duì)象直接由屬性構(gòu)成。
⑤整個(gè)過(guò)程可以不斷地循環(huán)重復(fù),直到設(shè)計(jì)者滿意為止。
最后,還要探討如何從粗概念格轉(zhuǎn)換成相應(yīng)的本體。這里所用的方法是:采用簡(jiǎn)化的方法用屬性來(lái)代表所形成的粗概念,并且在標(biāo)注時(shí)只讓屬性在粗概念格中出現(xiàn)一次,由于這里的屬性都是詞匯,而本體所描述的重點(diǎn)元素也都是詞匯概念,因此可以用粗概念格中的屬性來(lái)表示本體概念[11]。
(3)構(gòu)建本體元模型。
構(gòu)建本體模型,首先需要計(jì)算語(yǔ)義概念相似度,借助WordNet,采用下面提出的概念相似度計(jì)算方法,計(jì)算本體間屬性概念的相似度,得到單元本體的屬性映射集合。
由于電子商務(wù)領(lǐng)域要分析顧客的評(píng)分,需要對(duì)以往研究成果進(jìn)行改進(jìn),加入了權(quán)重值,它主要來(lái)源于用戶對(duì)商品的評(píng)分值。文獻(xiàn)[14]中提出了基于RFCA的相似度測(cè)量方法。依據(jù)概念E1與E2的所有屬性(I1,I2)作笛卡爾積,即p(I1,I2)={〈a1,b2〉,…,〈an,bn〉},再兩兩一組進(jìn)行相似度計(jì)算,并各自將對(duì)象與屬性的相似比乘上權(quán)重(w),求出概念相似度,如下所示:
p(I1,I2)={{〈a1,b1〉,…,〈an,bn〉}|ah∈I1,bh∈I2,?h=1,…,n, 且ah≠ak,bh≠bk,?k,l≠h}
其中,p(I1,I2)為I1、I2集合內(nèi)所有元素的笛卡爾乘積;as(a,b)為屬性集合中兩兩一對(duì)的元素相似度;|E1∩E2|為兩對(duì)象集合的交集個(gè)數(shù);r為兩個(gè)對(duì)象集合中的最大元素值;w為權(quán)重值;n為I1集合個(gè)數(shù),m為I2集合個(gè)數(shù),且令n≤m。
然后針對(duì)領(lǐng)域中具有相似關(guān)系的單元本體,運(yùn)用基于概念格同構(gòu)生成的本體合并方法,將這些單元本體合并,最后以UNSPSC產(chǎn)品本體元模型為核心本體,結(jié)合電子商務(wù)領(lǐng)域?qū)<抑R(shí),通過(guò)核心本體半自動(dòng)化地提取和生成全局領(lǐng)域電子商務(wù)。
下面結(jié)合某電子商務(wù)交易平臺(tái)的實(shí)際交易商品的數(shù)據(jù),分析比較采用概念格與采用粗概念格來(lái)構(gòu)建本體的性能,主要依據(jù)生成本體的時(shí)間與本體概念的冗余度來(lái)作對(duì)比。如圖2所示,本例中的本體概念構(gòu)建數(shù)量是20倍數(shù)遞增的,當(dāng)本體概念的數(shù)量增加時(shí),尤其超過(guò)3*20的時(shí)候,基于概念格來(lái)構(gòu)建本體的耗時(shí)就明顯增加??傊?,實(shí)驗(yàn)表明,在時(shí)間上基于粗概念格構(gòu)建本體要優(yōu)于基于概念格構(gòu)建本體。
Figure 2 Comparison of ontology construction圖2 本體構(gòu)建比較圖
目前對(duì)于電子商務(wù)領(lǐng)域本體的研究偏向相似度計(jì)算、基于算法的推理、匹配等的研究,缺乏具有針對(duì)性的研究背景,缺乏大規(guī)模知識(shí)庫(kù)的支持。國(guó)內(nèi)外已經(jīng)進(jìn)行了許多關(guān)于自動(dòng)(或半自動(dòng))本體映射、合并的研究,并且取得了很大的突破和進(jìn)展,但在時(shí)間復(fù)雜度、準(zhǔn)確率和效率等許多方面與實(shí)際需求還有很大差距。最重要的是這些本體構(gòu)建技術(shù)無(wú)法找到領(lǐng)域內(nèi)所有隱含的概念及概念間的關(guān)系。
針對(duì)這些不足,本文以構(gòu)建電子商務(wù)系統(tǒng)中的本體模型為目標(biāo),綜合考慮變精度粗糙集模型和形式概念分析理論,將其優(yōu)勢(shì)互補(bǔ),提出了粗概念格模型, 利用粗概念格模型對(duì)形式背景抽取和約簡(jiǎn);然后計(jì)算語(yǔ)義概念相似度,并以聯(lián)合國(guó)標(biāo)準(zhǔn)產(chǎn)品與服務(wù)分類代碼(UNSPSC)為核心本體,結(jié)合商品表格、日志、現(xiàn)有電子商務(wù)領(lǐng)域?qū)<抑R(shí)庫(kù),通過(guò)核心本體半自動(dòng)擴(kuò)展的方法提取和建立了電子商務(wù)領(lǐng)域本體,以增強(qiáng)電子商務(wù)系統(tǒng)的魯棒性和抗噪能力。今后的工作是在粗概念格的基礎(chǔ)上,結(jié)合模糊集理論,探索電子商務(wù)本體的映射與合并。
[1] Dei W, Yi M. An approach of personalization for electronic commerce websites based on ontology[C]∥Proc of the 7th IFIP International Conference on e-Business, e-Services and e-Society, 2007:491-498.
[2] Richards D. Using concept lattices for requirements reconciliation[C]∥Proc of the 2nd International Conference on Formal Concept Analysis, 2004:402-409.
[3] Ganter B, Wille R. Formal concept analysis:Mathematical foundations[M]. Berlin:Springer Verlag, 1999.
[4] Li Jing. The research application of ontology in literature retrieval system [M]. Beijing:Publishing House of Beijing Library, 2005. (in Chinese)
[5] Shamsfard M, Barforoush A A. Learning ontologies from natural language texts [J]. International Journal of Human-Computer Studies,2004,60(1):17-63.
[6] Navigli R, Velardi P, Gangemi A. Ontology learning and its application to automated terminology translation[J].IEEE Intelligent Systems,2003,18(1):22-31.
[7] Maedch A.Ontology learning for the semantic web[M]. Boston:Kluwer Academic Publishers,2002.
[8] Volz R,Oberle D,Staab S,et al. OntoLIFT prototype[C]∥Proc of IST Project 2001-33052 WonderWeb Deliverable 11.2003:1.
[9] Liang Jian,Wang Hui-lin.Research on ontology learning from text [J]. Journal of Intelligence Theory and Practice, 2007,30(1):112-115. (in Chinese)
[10] Du Xiao-yong, Li Man,Wang Shan. Research on ontology learning [J]. Journal of Software, 2006 ,17(9):1837-1847. (in Chinese)
[11] Xu Hong-sheng, Shen Xia-jiong, Liu Zong-tian. Construction and presentation of ontology on semantic web based on formal concept[J]. Journal of Computer Science, 2007,34(2):171-174. (in Chinese)
[12] Yao Y Y.A comparative study of formal concept analysis and rough set theory in data analysis:Rough sets and current trends in computing[C]∥Proc of the 3rd International Conference,2004:59-68.
[13] Beynon M. Reducts within the variable precision rough sets model:A further investigation[J]. European Journal of Operational Research, 2001,134(3):592-605.
[14] Xu Hong-sheng, Zhang Rui-ling. Application of ART and concept similarity in e-commerce recommendation systems [J]. Journal of Computer Engineering and Applications, 2010,46(7):213-217.(in Chinese)
附中文參考文獻(xiàn):
[4] 李景.本體理論在文獻(xiàn)檢索系統(tǒng)中的應(yīng)用研究[M].北京:北京圖書(shū)館出版社,2005.
[9] 梁健,王惠臨.基于文本的本體學(xué)習(xí)方法研究[J].情報(bào)理論與實(shí)踐,2007,30(1):112-115.
[10] 杜小勇,李曼,王珊.本體學(xué)習(xí)研究綜述[J].軟件學(xué)報(bào), 2006,17(9):1837-1847.
[11] 徐紅升,沈夏炯,劉宗田. 基于形式概念的語(yǔ)義網(wǎng)本體的構(gòu)建與展現(xiàn)[J].計(jì)算機(jī)科學(xué), 2007,34(2):171-174.
[14] 徐紅升,張瑞玲. ART與概念相似在電子商務(wù)推薦系統(tǒng)中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用,2010,46(7):213-217.
XU Hong-sheng,born in 1979,MS,lecturer,his research interests include data mining, and knowledge acquire.
張瑞玲(1964-),女,河南洛陽(yáng)人,碩士,教授,研究方向?yàn)閿?shù)據(jù)挖掘和知識(shí)獲取。E-mail:ruilingzhang@163.com
ZHANG Rui-ling,born in 1964,MS,professor,her research interests include data mining, and knowledge acquire.
Research of domain ontology construction in e-business based on rough concept lattice model
XU Hong-sheng,ZHANG Rui-ling
(College of Information Technology,Luoyang Normal University,Luoyang 471022,China)
The defects of existing ontology construction technology are analyzed in order to construct the ontology model of the e-commerce system. The model of ontology construction based on rough concept lattice is proposed for the sake of making up these defects by integrating the theory of variable precision rough set (VPRS) model and formal concept analysis. The method of β-upper and lower distribution reduction is used to reduce formal context by improving the two algorithms of β-values select and attribute reduction based on discernibility matrix in VPRS. Therefore, the paper proposes the reduction algorithm of concept lattices based on VPRS. After calculating the semantic similarity of concepts, the domain ontology model of e-business is built combined with knowledge of domain expert and original ontology model of the United Nations Standard Products and Services Classification Code by way of core ontology. Experiments show that the efficiency of building ontology based on rough concept lattice is higher than FCA.
ontology;variable precision rough set;concept lattice;attribute reduction
2012-08-29;
2012-12-26
國(guó)家自然科學(xué)基金資助項(xiàng)目(61050004,61272015);河南省教育廳科學(xué)技術(shù)研究重點(diǎn)項(xiàng)目(13B520155)
張瑞玲(ruilingzhang@163.com)
1007-130X(2014)03-0530-06
TP274
A
10.3969/j.issn.1007-130X.2014.03.027
徐紅升(1979-),男,河南洛陽(yáng)人,碩士,講師,研究方向?yàn)閿?shù)據(jù)挖掘和知識(shí)獲取。E-mail:xhs_ls@sina.com
通信地址:471022 河南省洛陽(yáng)市洛陽(yáng)師范學(xué)院信息技術(shù)學(xué)院
Address:College of Information Technology,Luoyang Normal University,Luoyang 471022,Henan,P.R.China