亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的本體構(gòu)建與重構(gòu)技術(shù)研究

        2017-11-01 07:17:42段妍羽鞏青歌彭圳生
        計算機測量與控制 2017年8期
        關(guān)鍵詞:概念分類

        段妍羽, 鞏青歌, 彭圳生

        (武警工程大學 研究生管理信息工程系,西安 710086)

        基于數(shù)據(jù)挖掘的本體構(gòu)建與重構(gòu)技術(shù)研究

        段妍羽, 鞏青歌, 彭圳生

        (武警工程大學 研究生管理信息工程系,西安 710086)

        本體理論在知識工程領(lǐng)域得到廣泛關(guān)注和普遍認可,構(gòu)建完備且準確的領(lǐng)域本體已經(jīng)越來越重要,同時,企業(yè)知識資源的更新與集成要求本體的不斷進化與融合;針對目前本體構(gòu)建與重構(gòu)過程中數(shù)據(jù)處理效率低的問題,運用支持向量機分類及K-均值聚類的方法對本體構(gòu)建數(shù)據(jù)進行處理,從文本數(shù)據(jù)中抽取關(guān)注的特定的信息,運用基于二叉樹的多分類支持向量機以及支持向量機與K-均值融合的多樣本聚類,總結(jié)基于分類與聚類的本體構(gòu)建過程,并以離散型和連續(xù)型兩種數(shù)據(jù)樣本驗證了方法的可行性;最后,在上述框架與理論研究的基礎(chǔ)上,設(shè)計并開發(fā)了面向知識管理的本體工具平臺,簡單介紹系統(tǒng)的模塊功能;實驗結(jié)果表明,基于數(shù)據(jù)挖掘的本體構(gòu)建與重構(gòu)技術(shù)具有良好的應(yīng)用效果。

        本體構(gòu)建與重構(gòu);文本處理;支持向量機;K-均值;分類;聚類

        0 引言

        隨著科技的進步,各領(lǐng)域研究和應(yīng)用的不斷深入,針對相應(yīng)領(lǐng)域的人和軟件系統(tǒng),基于數(shù)據(jù)挖掘的設(shè)計了一種通用全新的知識共享方式,其研究和應(yīng)用已經(jīng)延伸到多個領(lǐng)域,構(gòu)建完備且準確的領(lǐng)域本體已經(jīng)越來越重要[1]。本體理論研究不斷走向成熟,本體構(gòu)建方法也層出不窮,但目前而言,很多本體自動構(gòu)建方法是基于某一特定語言的,大多是半自動的,距離完全自動構(gòu)建還有一定差距,因此,如何自動化構(gòu)建本體特別是中文本體,仍是一個需要不斷改進的問題[2]。

        自動化構(gòu)建本體是為企業(yè)新領(lǐng)域知識服務(wù)的,隨著本體技術(shù)的發(fā)展以及應(yīng)用領(lǐng)域的推廣,企業(yè)需要更多地考慮已有本體的更新以及重復利用,以支持企業(yè)知識的更快、更全面地共享[3]。但目前的重構(gòu)技術(shù)應(yīng)用十分有限,應(yīng)用的領(lǐng)域比較集中,而且成本高,風險也大,因此需要通過重構(gòu)技術(shù)規(guī)范本體,并通過實際的驗證和應(yīng)用來反映其應(yīng)用價值[4]。

        本文針對目前知識管理中本體構(gòu)建自動化程度低以及重用度低的問題,結(jié)合軍用車輛設(shè)計領(lǐng)域研究了支持向量機、K-均值等挖掘算法等本體構(gòu)建與重構(gòu)中的關(guān)鍵技術(shù)—進行了深入研究。

        1 文本構(gòu)建與重構(gòu)體系

        本體構(gòu)建是本體從無到有的過程,本體重構(gòu)是對已存在的本體進行優(yōu)化整合的過程。因此,知識管理的有效應(yīng)用依賴于本體構(gòu)建和重構(gòu)兩方面技術(shù)[5]。其中,本體構(gòu)建方法研究是本體重構(gòu)技術(shù)研究的基礎(chǔ)和前期準備。通過本體構(gòu)建方法的研究,深入理解領(lǐng)域概念及其語義關(guān)系在本體中的表現(xiàn)形式,本體重構(gòu)技術(shù)可以更好挖掘本體建模元素以及他們之間的語義關(guān)系[6]。通過本體構(gòu)建方法的研究可以構(gòu)建語義關(guān)系明確,一致性較強的本體,以此支持本體重構(gòu)技術(shù)研究。

        針對本體構(gòu)建方法對本體重構(gòu)的影響,本文研究內(nèi)容分為本體構(gòu)建和本體重構(gòu)兩個研究階段。第一,研究領(lǐng)域本體構(gòu)建技術(shù),利用已有工具并結(jié)合數(shù)據(jù)挖掘中數(shù)據(jù)處理方法,解決本體“從無到有”的問題;第二,研究本體重構(gòu)技術(shù),整理出本體重構(gòu)總體流程,詳細研究本體解析、數(shù)據(jù)處理和本體融合所需的關(guān)鍵技術(shù)。

        本體構(gòu)建主要包括本體規(guī)劃、本體分析設(shè)計、本體評價確認、領(lǐng)域本體建立4個關(guān)鍵技術(shù)。本體的重構(gòu)可以用于個體的完善與更新,也可以是多本體的一個融合過程。該研究主要包括本體解析技術(shù)、數(shù)據(jù)處理技術(shù)、本體融合技術(shù)三個關(guān)鍵技術(shù)。

        2 基于分類與聚類本體構(gòu)建與重構(gòu)技術(shù)

        2.1 基于SVM的本體概念分類

        基于線性可分情況下的思想,支持向量機是由最優(yōu)分類面推論得出,核心的基本思想可用二維兩類線性可分情況來說明[7],具體如圖1所示。圖中兩類不同的訓練樣本分別用實心點和空心點分別表述,其中2類沒有錯誤地分開的分類線用H線表述。通過不同樣本中距離分類線最近的點,同時平行于分類線H的直線,分別用H1,H2表述。兩類的分類空隙或分類間隔具體指直線H1和H2之間的最短距離。通過定義最優(yōu)分類線不但能將兩類信息無錯誤地分開,而且能使兩類的分類空隙最大[8]。前者的目的是為了保證經(jīng)驗風險最小,而后者的目標是使得分類空隙最大,實際上其本質(zhì)就是使推廣性界中具有最小化的置信范圍,進一步降低真實風險。以此類推到到高維空間,最優(yōu)分類線便構(gòu)成了最優(yōu)分類面。

        圖1 最優(yōu)分類面的二維雙類線性圖

        最優(yōu)分類面的求解通常情況下可以分為兩類:線性不可分、線性可分2種情況。而企業(yè)知識信息中提取的數(shù)據(jù)、術(shù)語等可能涉及多個領(lǐng)域,同一領(lǐng)域也可能涉及多個方面,根據(jù)分解重構(gòu)法思想,一個復雜的多類問題可劃分為多個兩類問題來解決。采取決策樹的組合分類策略已被證明是一種高效的多分類組合方法,利用SVM和決策樹相結(jié)合的方法構(gòu)造二叉樹多級SVM,從頂層開始,每一個包含多個類別的節(jié)點上的分類器將一個類別與其他類別分開從而實現(xiàn)了多類問題的分類。

        本體的構(gòu)建與重構(gòu)首先要確定概念實例集的類別關(guān)系,而后再基于分類關(guān)系形成本體的機構(gòu)框架,最后對實例、屬性等進行修復得到較為完善的本體關(guān)系結(jié)構(gòu)。本節(jié)重點描述基于SVM的有監(jiān)督學習的概念實例類別劃分過程。具體流程如下。

        1)樣本的選取:企業(yè)信息中已歸類的概念樣本,假設(shè)為N分類問題,訓練樣本為φ={X1,X2,...,XN},且各樹節(jié)點生成的最優(yōu)分類面是將一類與其他類分開。

        2)樣本預處理:企業(yè)中的信息各式各樣,其類別分布在多維空間,因此,需要選取適當?shù)暮撕瘮?shù), 將訓練樣本向特征空間H中映射。

        3)類間相對分離度計算:決策樹構(gòu)造中若分類錯誤越靠近樹根節(jié)點,則對其性能的影響就越大。引入類之 間的相對分離度,可先將容易分的類分離出來,然后再分不容易分的類,從而達到較好的性能。

        (2)將分離性測度按降序排列,設(shè)Fm1≥Fm2≥...≥FmN。

        4)SVM訓練:

        (1)設(shè)計數(shù)器k=1;

        (2)構(gòu)造子分類器SVMk的訓練集φ=∑1+∑2;其中:

        ∑1={(Xmk,+1)},∑2={(Y,-1)|y∈{φ-Xmk}};按兩類問題構(gòu)造分類器SVMk,計算過程如下:

        5)調(diào)整訓練集和計數(shù)器:

        其中,φ=φ-{Xmk},k=k+1。

        6)重復4)和5),直到構(gòu)造完第N—1個子分類器SVM N ?1。

        7)類別劃分及評價:依據(jù)訓練產(chǎn)生的規(guī)則,會產(chǎn)生一個新的分類結(jié)果,與樣本對比,評價其準確性,同時,未知類別的樣本可以通過學習規(guī)則,得到匹配的結(jié)果,其準確性與學習規(guī)則相一致。

        8)生成最優(yōu)或近優(yōu)決策樹:通過機器學習以及人為的輔助,提取的概念、樣本集便得到各自的分類結(jié)果,并以樹狀形式展示。

        2.2 基于K-Means的本體概念聚類

        對于無學習樣本的概念集,需要采用聚類的方式實現(xiàn)其類別劃分,服務(wù)與本體的構(gòu)建與重構(gòu),聚類過程與分類過程類似,區(qū)別只在于方法的選取,具體流程如下。

        1)訓練樣本的選取:

        選取企業(yè)信息中未歸類的概念樣本,訓練樣本為φ= {X1,X2,…,XN}。

        2)樣本預處理:企業(yè)中的信息各式各樣,其類別分布在多維空間,因此,需要選取適當?shù)暮撕瘮?shù),將訓練樣本向特征空間H中映射。

        3)聚類計算步驟

        (1)在隨機情況下,確定k個沃羅諾伊集K,其中k=1,…,K,L個樣本點的原樣本集的子集表示為Vk;

        (2)針對每一個樣本子集Vk,采用線性規(guī)劃下的支持向量機進行訓練和計算;

        (3)基于上一個步驟的結(jié)果,每個樣本都會產(chǎn)生k個距離值,通過對比數(shù)值并且進一步重新分類,刷新替換每個Vk樣本子集;

        (4)在上一步驟的過程中,若每個樣本Vk子集保持一致,則會出現(xiàn)聚類結(jié)果;否則轉(zhuǎn)到第二個步驟繼續(xù)訓練。

        4)聚類規(guī)則及結(jié)果:聚類過程中,機器會挖掘概念集之間的內(nèi)在聯(lián)系,產(chǎn)生聚類規(guī)則,并根據(jù)規(guī)則對樣本進行歸類,從而獲得聚類結(jié)果。另外,如若有已分類的樣本,可以二者對比,對聚類結(jié)果進行評價。

        5)生成最優(yōu)或近優(yōu)聚類樹:通過機器學習以及人為的輔助,提取的概念、樣本集便得到各自的聚類結(jié)果。

        3 算法設(shè)計與實驗

        3.1 基于SVM的本體概念分類實驗

        基于SVM的本體概念分類程序流程如圖2所示。

        圖2 基于SVM的本體概念分類程序流程圖

        基于支持向量機的概念分類,其關(guān)鍵就是SVM分類器的構(gòu)建。以下是其部分軟件源代碼:

        Public void buildClassifier (Instances instances) throws Exception {

        SVMTreeModelSelection modSelection=

        new SVMTreeModelSelection (m minNum0bj, instances);

        m root=new SVMTreeClassifierTree (modSelection);

        m root.buildClassifier (instances);

        }

        ModelSelection類是決定樹的模型類。ClassifierSplitModel對象的返回將由SVMTreeModelSelection類中的selectModel函數(shù)將根據(jù)系統(tǒng)指令執(zhí)行,ClassifierSplitModel本質(zhì)上則是怎樣分裂的模型。針對SVMTreeModelSelection類,其實由三個重要變量構(gòu)成:

        SVMTreeSplit [ ] currentModel;

        SVMTreeSplit bestModel = null;

        SVMTreeNosplit noSplitModel = null;

        ClassifierSplitModel被SVMTreeNoSplit和SVMTreeSplit繼承,當樣本均屬于同一個樣本時,系統(tǒng)不分裂,則noSplitModel對象被系統(tǒng)返回,若上述情況不發(fā)生,系統(tǒng)將針對第j個屬性,調(diào)currentModel[i].buildClassifier函數(shù),根據(jù)getErrors的情況,系統(tǒng)最終選擇具體的屬性為最好的分裂屬性。

        屬性值是缺失用公式表示為treeIndex=-1,通過對每個子結(jié)點分開算計算其數(shù)值,然后累加起來。在不是缺失情況下,子結(jié)點為空,此時與上述子結(jié)點的計算方法保持一致,若情況不發(fā)生,則繼續(xù)遞歸。當葉子結(jié)點發(fā)生下列情況:localModel返回的是ClassifierSplitModel對象。則進一步調(diào)用distributionForInstance,返回結(jié)果。

        系統(tǒng)從有類別定義的樣本中學習,得到樣本的分類規(guī)則:

        outlook = sunny

        |humidity <= 75: yes(2.0)

        |humidity > 75: no(3.0)

        outlook = overcast: yes(4.0)

        outlook = rainy

        |windy = TRUE: no(4.0)

        |windy = FALSE: yes(1.0)

        系統(tǒng)從樣本中學習了規(guī)則,系統(tǒng)會給出一個統(tǒng)計結(jié)果,用系統(tǒng)學習的規(guī)則對樣本重新分類,然后再與原有樣本比對,得到如下結(jié)果:

        a b <-- classified as

        7 2 | a = yes

        1 4 | b = no

        該結(jié)果表示:系統(tǒng)規(guī)則將9個原本類別為“ yes”的個體中的7個判為“yes”,而兩個誤判為“ no”,5個原本為“no”一個判為“no”而又一個誤判為“yes”,也就是說14個樣本個體,11個被正確判斷、3個誤判,即準確率為11/14。

        3.2 基于K-Means的本體概念聚類實驗

        基于K-Means的本體概念聚類程序流程如圖3所示。一共4個主要步驟:

        圖3 基于K-Means的本體概念聚類程序流程圖

        第一步,使用距離計算的最小平方法,統(tǒng)計從每個數(shù)據(jù)樣例到群集中心(隨機選中的數(shù)據(jù)行)的距離;第二部,通過計算,根據(jù)到每個群集中心的最短距離,將每個數(shù)據(jù)行分配給一個類集;第三步,通過每個類集的數(shù)的每列數(shù)據(jù)的平均數(shù)計算重心;第四步,統(tǒng)計計算所有數(shù)據(jù)樣例與上述步驟創(chuàng)建重心之間的距離。當群集及群集數(shù)保持不變時,類集的創(chuàng)建工作完成。如果發(fā)生變化,則返回到第三步驟,重新開始并重復計算,直到保持穩(wěn)定不再變化為止。

        分類中訓練一個分類器是用buildClassifier(),在聚類中學習一個Clusterer是用buildCluster()。分類中分類一個樣本是用classifyInstance,而在聚類中是用clusterInstance。它繼承自RandomizableCluster,而RandomizableCluster又繼承自 AbstactCluter,進入AbstactCluster,它有三個比較重要的函數(shù),buildCluster, clusterInstance, distributionForInstance。

        聚類分析后,系統(tǒng)也是得到兩類結(jié)果,一是樣本的最優(yōu)聚類中心;另一個則是樣本中每個個體的的類別結(jié)果。

        聚類中心即每一個類別的屬性均值,在學習前,人為的定義類別的數(shù)量,如聯(lián)軸器,我們已經(jīng)知道列舉的樣本中包含的常用的4種類型,因此,系統(tǒng)會定義4個聚類中心,而對于類別數(shù)量未知的情況,只能通過系統(tǒng)的多次學習,比較結(jié)果中聚類中心哪個更合理,從而確定最優(yōu)方案。

        結(jié)果中統(tǒng)計了樣本的所有屬性,給給出了集合的屬性均值以及類別數(shù)目,每個類集合展示了一種特征,專業(yè)人員根據(jù)經(jīng)驗分析,為每一個類別賦予定義:群集0—凸緣聯(lián)軸器,群集1—彈性柱銷聯(lián)軸器,群集2—彈性套柱銷聯(lián)軸器,群集3—梅花形彈性聯(lián)軸器。

        聚類中心給出了每個類別的屬性特性,系統(tǒng)學習的最終目的還是要得到每一個樣本個體的類別,通過判斷,得到詳細聚類結(jié)果如圖4所示。

        圖4 聚類結(jié)果

        圖中每一個點代表了群集的一個樣本個體,X軸表示類別,Y軸表示樣本號,經(jīng)過聚類訓練后,原本分散在空間中的樣本則有規(guī)則的堆積在一起,系統(tǒng)通過學習,發(fā)現(xiàn)了樣本之前的內(nèi)在關(guān)系,并通過這種關(guān)系進行聚類判斷。因此,可以得出,只要樣本的屬性間關(guān)系明確,便可以學習到準確率很高的聚類中心及結(jié)果。

        4 結(jié)束語

        在知識經(jīng)濟逐漸興起,信息技術(shù)飛速發(fā)展,商業(yè)競爭日益加劇的背景下,知識管理得到越來越多企業(yè)的重視。為了解決知識管理中出現(xiàn)各種信息通信和知識共享問題,原本用于語義Web的本體論也被引入到知識管理中。

        本文針對目前知識管理中本體特別是中文本體構(gòu)建自動化程度低以及重用度低的問題,結(jié)合企業(yè)生產(chǎn)應(yīng)用,提出了多分類支持向量機的本體設(shè)計方法和K-均值聚類的本體設(shè)計方法流程,分析了支持向量機及統(tǒng)計學的基本原理與應(yīng)用與K-均值的基本原理與應(yīng)用,實現(xiàn)了基于類間相對分類度的概念分類和基于類間相對分類度的概念聚類,并在此基礎(chǔ)上,構(gòu)建了本體關(guān)系框架,驗證了方法的可行性。

        [1] 李興春. 計算機信息檢索中的本體構(gòu)建研究[J]. 重慶文理學院學報, 2013, 3:87-91.

        [2] 張 娟. 基于本體的可重構(gòu)知識管理系統(tǒng)研究綜述[J].現(xiàn)代商貿(mào)工業(yè), 2009,21(19):59-60.

        [3] 張 祥,李 星,溫韻清,等. 語義網(wǎng)虛擬本體構(gòu)建[J]. 東南大學學報:自然科學版, 2015, 4:652-656.

        [4] Dibike Y B, Solomatine D, Velickov S, et al. Model Induction with Support Vector Machines: Introduction and Applications[J]. Journal of Computing in Civil Engineering, 2014, 15(3):208-216.

        [5] Ren H, Tian J, Wierzbicki A P, et al. Ontology Construction and Its Applications in Local Research Communities,Modeling for Decision Support in Network-Based Services[M]. Springer Berlin Heidelberg, 2012:279-317.

        [6] Xue S, Jing X, Sun S, et al. Binary-decision-tree-based multiclass Support Vector Machines[A]. 2014 14th International Symposium on Communications and Information Technologies (ISCIT)[C]. IEEE, 2014:85-89.

        [7] 任維武, 胡 亮, 趙 闊. 基于數(shù)據(jù)挖掘和本體的入侵警報關(guān)聯(lián)模型[J]. 吉林大學學報(工學版), 2015(3):899-906.

        [8] Balabantaray R C, Sarma C, Jha M. Document Clustering using K-Means and K-Medoids[J]. International Journal of Knowledge Based Computer System, 2015, 1(1).

        Researches on Ontology Construction and Reconstruction Based on Data Mining

        Duan Yanyu, Gong Qingge, Peng Zhensheng

        (Mangement Team of Postgraduate, Department of Information Engineering, Engineering University of PAP, Xi′an 710086, China)

        At present, ontology theory has attracted wide attention in the field of knowledge engineering. The construction of prefect and accurate domain ontology is getting more and more important, and at the same time, the update and integration of enterprise knowledge resource requires incessant evolution and merging of ontology. Aiming at the situation that process efficiencies and ontology integration is too slow, we use support vector machine classification and K- means clustering method to construct data processing. The thesis obtained specific information from the text data, and presented multiple-classification SVM and K-means clustering. Then, classification and clustering process was concluded for ontology construction and reconstruction, taking both discrete and continuous data sample as testing cases. The experimental results show that the proposed based on the ontology construction and reconstruction of data mining technology has good application effect.

        ontology construction and refactoring;text processing; support vector machines;K-means; classification;clustering

        2017-03-07;

        2017-03-15。

        段妍羽(1991-),女,山東海陽人,碩士,主要從事大數(shù)據(jù)、數(shù)據(jù)挖掘方向的研究。鞏青歌(1967-),女,陜西西安人,碩士,教授,主要從事虛擬現(xiàn)實和計算機仿真方向的研究。

        1671-4598(2017)08-0244-04

        10.16526/j.cnki.11-4762/tp.2017.08.063

        TQ028.1

        A

        猜你喜歡
        概念分類
        Birdie Cup Coffee豐盛里概念店
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        幾樣概念店
        分類討論求坐標
        學習集合概念『四步走』
        數(shù)據(jù)分析中的分類討論
        聚焦集合的概念及應(yīng)用
        教你一招:數(shù)的分類
        論間接正犯概念之消解
        涩涩鲁精品亚洲一区二区| 国产精品嫩草影院午夜| 26uuu欧美日本在线播放| 蜜桃在线高清视频免费观看网址| 免费av一区二区三区| 成人区人妻精品一熟女 | 亚洲精品久久久久久久不卡四虎| 少妇高潮喷水久久久影院| 亚洲精品一区二区三区播放| 中文字幕乱码亚洲三区| 宅男666在线永久免费观看| 久久婷婷综合色丁香五月| 久久青青草视频免费观看| 国产午夜免费一区二区三区视频| 日韩人妻无码一区二区三区久久| 亚洲欧美精品伊人久久| 91极品尤物在线观看播放| 亚洲av综合色一区二区| 亚洲精品久久久www小说| 福利片福利一区二区三区| 能看的网站中文字幕不卡av| 美女用丝袜脚玩我下面| 久久久久人妻一区精品色欧美| 免费看国产成年无码av| 日韩黄色大片免费网站| 天堂在线资源中文在线8| 久久久久国产一区二区三区| 免费大学生国产在线观看p| 国产av一区二区毛片| 日本最大色倩网站www| 亚洲中文欧美日韩在线人| 久久开心婷婷综合中文| 少妇人妻中文字幕hd| 中文字幕av在线一二三区| 男女男在线精品免费观看| 日本饥渴人妻欲求不满| 亚洲精品国产av成拍色拍| 噜噜噜色97| 国产麻豆久久av入口| 亚洲国产一区二区a毛片| 日本高清色惰www在线视频|