亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于FCA算法及中文特性的本體論構(gòu)建*

        2014-09-06 08:39:06卓月明

        卓月明

        (吉首大學(xué)軟件服務(wù)外包學(xué)院,湖南 張家界 427000)

        基于FCA算法及中文特性的本體論構(gòu)建*

        卓月明

        (吉首大學(xué)軟件服務(wù)外包學(xué)院,湖南 張家界 427000)

        本體論(Ontology)是語義網(wǎng)最重要的基礎(chǔ),可以用來描述特定領(lǐng)域(Domain)下的知識(shí).提出一個(gè)以形式概念分析FCA(Formal Concept Analysis)加上中文特性的半自動(dòng)化構(gòu)建本體論方法,該方法能快速地建構(gòu)出本體論的概念層及實(shí)例層,以達(dá)到知識(shí)的整合與分享,根據(jù)效率評(píng)估結(jié)果可知,本系統(tǒng)解決了網(wǎng)頁數(shù)據(jù)種類繁多、文字前處理不易等問題.

        本體論;語義網(wǎng);形式概念分析;中文特性

        隨著網(wǎng)絡(luò)的興起,網(wǎng)絡(luò)信息已成為人們獲得信息的主要來源之一.然而,網(wǎng)絡(luò)的信息過于繁雜,語義網(wǎng)的出現(xiàn)正是為了解決這個(gè)問題.對(duì)于語義網(wǎng),本體論(Ontology)是語義網(wǎng)最重要的基礎(chǔ),可以用來描述特定領(lǐng)域(Domain)下的知識(shí).通過本體論使得存在于全球信息網(wǎng)上的資源能夠明確地被定義,因此不只是人們可以藉由本體論了解并獲得網(wǎng)絡(luò)上的資源,機(jī)器也可以通過本體論的描述,自動(dòng)地存取或整合網(wǎng)絡(luò)上的相關(guān)資源.但語義網(wǎng)的推行成功與否,依賴著本體論是否能快速地被構(gòu)建及更新.大多數(shù)的自動(dòng)、半自動(dòng)構(gòu)建方式只適合使用在英文語系的國家,在中文語系的本體論構(gòu)建方法仍有許多不足之處尚待探討.筆者基于上述考慮,提出了一個(gè)半自動(dòng)構(gòu)建中文本體論的方法,以達(dá)到信息分享及利用的目的.

        1 相關(guān)研究

        1.1本體論基本定義及描述語言

        本體論(Ontology),也稱為實(shí)體論.在信息科技領(lǐng)域中,對(duì)本體論有許多不同的定義,最常被引用的定義如下:“An ontology is specification of a conceptualization.”[1]此定義表示本體論是某一概念的詳細(xì)說明.當(dāng)要使用本體論來描述一特定領(lǐng)域下的知識(shí)時(shí),本體論是由概念(Class 或Concept)、屬性(Slot、Property或Attribute)、實(shí)例(Instance)與關(guān)系(Relation)等元素組合而成的.

        目前已有許多的本體論描述語言(Ontology language)被提出,這些本體論描述語言皆以XML語法為基礎(chǔ)而發(fā)展出來,例如XOL(XML-based ontology-exchange language),OML(Ontology Markup Language),SHOE(Simple HTML Ontology Extensions),RDF/RDFS(Resource Description Framework Schema)及在RDF/RDFS的上層所發(fā)展出來的DAML+OIL(DARPA Agent Markup Language + Ontology Inference Language),它改進(jìn)了RDF/RDFS功能上的不足.

        1.2本體論構(gòu)建的相關(guān)技術(shù)

        1.2.1 本體論構(gòu)建方法 目前已有編輯本體論的工具被開發(fā)來幫助本體論的構(gòu)建,但是手動(dòng)的構(gòu)建本體論仍有不少困難.除了通過工具幫助構(gòu)建本體論外,本體論的建構(gòu)方式很多,在本體論學(xué)習(xí)(Ontology Learning)的領(lǐng)域中有許多方式可以幫助自動(dòng)構(gòu)建本體論,如信息檢索(Information Retrieval)、機(jī)器學(xué)習(xí)(Machine Learning)、數(shù)據(jù)挖掘(Data mining)、語言學(xué)(Linguistics)等.

        文獻(xiàn)[2]提出一種本體論學(xué)習(xí)方法,其步驟如下:抽取(Extract)→修剪(Prune)→精煉(Refine)→重復(fù)使用(Import/Reuse).

        研究中發(fā)現(xiàn),目前構(gòu)建本體論的方法大致可分為下面幾類:以文字聚類[3]為主、以字典[4]為主、以知識(shí)庫為主、以關(guān)系型法則[5]為主、以概要關(guān)系(Relational schemata)[6]為主.

        1.2.2 形式概念分析 1982年Rudolf Wille 提出形式概念分析(Formal Concept Analysis,F(xiàn)CA)[7],該分析法是一種從數(shù)據(jù)中取得概念結(jié)構(gòu)(Conceptual Structures)的方法,并且將這些取得的概念結(jié)構(gòu)以圖形化的方式表現(xiàn)出來,如概念階層圖,以探索資料的相依性.FCA常常應(yīng)用在概念的聚類(Conceptual Clustering)、數(shù)據(jù)分析、信息的檢索(Information Retrieval)、知識(shí)探索和本體論工程上.除此之外,F(xiàn)CA 也常常使用在文件分類系統(tǒng)的輔助上.

        在FCA中,概念(Concept)主要是由2個(gè)部分所組成:(1)“Extension”,該部分是概念的所有對(duì)象(Object)集合;(2)“Intension”,該部分是這些對(duì)象所包括的所有特性(Attributes).這可以從獲得的內(nèi)容(Data Table)中的所有概念了解并且介紹一個(gè)假設(shè)的階層.

        圖1 中文特性說明示意圖

        1.2.3 中文特性 中文特性中,開頭和結(jié)尾字一樣時(shí),這些字具有強(qiáng)烈的語義相似度(Semantic Similarity).但在研究中發(fā)現(xiàn)開頭字相同時(shí)語義相似度不如結(jié)尾相同時(shí)相似度高,例如張家界國際大酒店、張家界茶葉,同樣是張家界開始的文字,但卻不屬于同一個(gè)概念(Concept),一個(gè)是住宿概念中酒店的Instance,一個(gè)則是茶葉的一個(gè)Instance,兩者并沒有相同的特性.因此,只考慮以名詞為結(jié)尾且字相同時(shí)的狀況及動(dòng)詞相同的情況.以瘦西湖溫泉度假村和天頤溫泉度假村為例,它們的組合是瘦西湖、溫泉、度假村及天頤、溫泉、度假村,兩者皆以度假村為結(jié)尾,明顯可知2個(gè)都是屬于度假村而且都是溫泉度假村的一種,它的度假村名稱分別為“瘦西湖”和“天頤”,因此可以清楚地知道這2個(gè)有相同的特性.再者,可以看出一個(gè)字的結(jié)尾通常是這個(gè)字的概念層,而由結(jié)尾字往前進(jìn)行文字的組合,是概念層的子概念(溫泉度假村是度假村的一種),整個(gè)字則是這個(gè)概念的實(shí)例(Instance)層,如圖1所示.

        2 半自動(dòng)化構(gòu)建本體論系統(tǒng)架構(gòu)

        圖2 系統(tǒng)架構(gòu)

        半自動(dòng)化構(gòu)建本體論系統(tǒng)架構(gòu)如圖2所示,整個(gè)系統(tǒng)主要由3大模塊構(gòu)成.

        (1)數(shù)據(jù)格式轉(zhuǎn)換模塊.

        由于網(wǎng)頁的資料格式目前沒有固定的格式,在處理上較為不易,因此先將網(wǎng)頁上之格式去除,只取得文字部份,并將其轉(zhuǎn)換成XML格式檔案以提供領(lǐng)域詞匯處理模塊進(jìn)行處理.

        (2)領(lǐng)域詞匯處理模塊.

        此模塊將文字?jǐn)?shù)據(jù)經(jīng)由詞法分析(Lexical Analysis)、名詞與動(dòng)詞的抽取等處理并配合其他函式庫,得到具有代表性的詞匯(Lexical).共有下面幾個(gè)階段:詞匯分析、關(guān)鍵詞抽取、同義辭典、關(guān)系抽取與特性抽取.

        (3)本體論建構(gòu)模塊.

        將本體數(shù)據(jù)網(wǎng)頁處理成詞匯庫后,本體論建構(gòu)模塊將詞匯庫利用建構(gòu)算法產(chǎn)生本體論.筆者構(gòu)建的旅游領(lǐng)域的本體論如圖3所示(旅游一般包含住宿、交通、美食、景點(diǎn)等).整個(gè)構(gòu)建的算法過程如圖4所示.

        圖3 本體論架構(gòu)

        圖4 本體論建構(gòu)

        KF-IDF計(jì)算公式為

        其中docs(w,cat)表示文字w在特定目錄(Category)中有幾份文件出現(xiàn)w,cats(word)表示word在幾個(gè)目錄中出現(xiàn)過.

        3 結(jié)語

        筆者提出了基于FCA及中文特性的半自動(dòng)化的本體論算法,可以節(jié)省人力和物力,解決了網(wǎng)頁數(shù)據(jù)種類繁多,文字前處理不易等問題.在數(shù)據(jù)內(nèi)容不易取的特征值的情況下,使用FCA加上中文特性來構(gòu)建本體論,并使用KF-IDF替代TF-IDF來取得特定領(lǐng)域下的專有字詞,供本體論構(gòu)建的數(shù)據(jù)使用,輔助從網(wǎng)頁信息中半自動(dòng)構(gòu)建出本體論.

        [1] GRUBER T R.A Translation Approach to Portable Ontology Specications[J].Knowledge Acquisition,1993,5(2):199-220.

        [2] ALEXANDER MAEDCHE,JOERG UWE KIETZ,RAPHAEL VOLZ.A Method for Semi-Automatic Ontology Acquisition from a Corporate Intranet[EB/OL].[2014-04-12].http://www.ece.uc.edu/~mazlack/ECE.716.Sp2010/Semantic.Web.Ontology.Papers/kietz00method.pdf.

        [3] ALEXANDER MAEDCHE,STEFFEN STAAB,ANDREAS HOTHO.Ontology-Based Text Clustering[EB/OL].[2014-04-12].http://www.cs.cmu.edu/~mccallum/textbeyond/papers/hotho.pdf.

        [4] JORG UWE KIETZ,RAPHAEL VOLZ,ALEXANDER MAEDCHE.Extracting a Domain-Specific Ontology Learning from a Corporate Intranet[EB/OL].[2014-04-12].http://www.aclweb.org/anthology/W/W00/W00-0738.pdf.

        [5] ALEXANDER MAEDCHE,STEFFEN STAAB.Discovering Conceptual Relations from Text[EB/OL].[2014-04-12].http://www.ece.uc.edu/~mazlack/ECE.716.w08/Semantic.Web.Ontology.Papers/maedche00discovering.pdf.

        [6] PAOLA VELARDI,MICHELS MISSIKOFF,ROBERTO BASILI.Identification of Relevant Terms to Support the Construction of Domain Ontologies[EB/OL].[2014-04-12].http://dl.acm.org/citation.cfm?id=1118225.

        [7] AUAN THANH THO,SIU CHEUNG HUI,TRU HOANG CAO.Automatic Fuzzy Ontology Generation for Semantic Web[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(6):842-856.

        (責(zé)任編輯 陳炳權(quán))

        OntologyConstructionBasedonFCAandFeaturesofChinese

        ZHUO Yueming

        (Software & Outsourcing Institute,Jishou University,Zhangjiajie 427000,Hunan China)

        Ontology,the most important foundation of the semantic web,is used to describe the knowledge of a specific domain.In this study a methodology to construct ontology semi-automatically is proposed.By using the Formal Concept Analysis (FCA) algorithm and the specific features of Chinese language,the methodology builds both concept and instance layers of ontology quickly.Experiments have shown promising potential for the methodology in knowledge integrating and sharing.

        ontology;semantic Web;FCA;features of Chinese

        1007-2985(2014)06-0035-03

        2014-05-26

        卓月明(1970—),男,湖南慈利人,吉首大學(xué)軟件服務(wù)外包學(xué)院副教授,碩士,主要從事數(shù)據(jù)庫和智能計(jì)算研究.

        TP391.1

        A

        10.3969/j.issn.1007-2985.2014.06.009

        东京道一本热中文字幕| 激情亚洲一区国产精品久久| 中文字幕精品一区二区三区| 日本女优在线一区二区三区| 女人被弄到高潮的免费视频| 亚洲精品92内射| 国产亚洲av人片在线观看| 亚洲天堂99| 欧美乱妇高清无乱码在线观看| 国内精品自在自线视频| 推油少妇久久99久久99久久| 亚洲aⅴ无码国精品中文字慕| 久久国产精品免费一区六九堂| 日本福利视频免费久久久| 日本一区二三区在线中文| 日本女优中文字幕在线播放| 国产精品女同一区二区免费站 | 亚洲精品视频一区二区三区四区 | 999国内精品永久免费视频| 男女扒开双腿猛进入免费看污| 无码日韩AⅤ一区二区三区| 4hu44四虎www在线影院麻豆 | 国产一级片内射在线视频| 久久精品女人天堂av麻| 久久女人精品天堂av影院麻 | 看黄网站在线| 精品欧洲AV无码一区二区免费| av天堂手机一区在线| 99精品久久精品一区| 久久婷婷色香五月综合缴缴情| 老太脱裤子让老头玩xxxxx| 激情欧美日韩一区二区| 国产aⅴ丝袜旗袍无码麻豆 | 48久久国产精品性色aⅴ人妻| 狠狠的干性视频| 熟妇人妻av中文字幕老熟妇| 国产va精品免费观看| 天堂女人av一区二区| 蜜桃国产精品视频网站| 日韩乱码中文字幕在线| 亚洲av无码精品国产成人|