殷紅梅
(健雄職業(yè)技術(shù)學(xué)院,江蘇 太倉(cāng) 215411)
基于本體的綜合評(píng)價(jià)文本自動(dòng)生成系統(tǒng)研究
殷紅梅
(健雄職業(yè)技術(shù)學(xué)院,江蘇 太倉(cāng) 215411)
隨著信息技術(shù)的高速發(fā)展,信息處理已經(jīng)成為目前最重要的研究?jī)?nèi)容,如何從大量的相關(guān)信息中獲取我們需要的且相對(duì)準(zhǔn)確的信息已經(jīng)成為當(dāng)前社會(huì)的一大難題。本文針對(duì)這一問(wèn)題展開研究,通過(guò)對(duì)大量評(píng)語(yǔ)文本的分析,提出了一種基于本體的綜合評(píng)價(jià)文本自動(dòng)生成的方法,可以快速處理大量評(píng)語(yǔ)文本,從而自動(dòng)獲取相應(yīng)的綜合評(píng)價(jià)文本。
本體;信息抽取技術(shù);綜合評(píng)價(jià)
在日常生活中,我們對(duì)任何事物一般都有一個(gè)相對(duì)綜合的評(píng)價(jià)。這個(gè)綜合評(píng)價(jià)如何得來(lái)?主要是從日常的信息中提取歸納而來(lái)。這看上去是一個(gè)無(wú)形的過(guò)程,但目前許多企事業(yè)單位為了獲取有效的綜合評(píng)價(jià),通常會(huì)采取大量的調(diào)研,從多份調(diào)查表中提取信息來(lái)形成一個(gè)綜合的評(píng)價(jià)。這個(gè)過(guò)程目前大多都是經(jīng)過(guò)人工的數(shù)據(jù)采集和分類匯總,加上人類思維活動(dòng)來(lái)完成的,整個(gè)過(guò)程工作量大,通常只是形成一個(gè)評(píng)價(jià)結(jié)果,而且會(huì)摻雜著許多主觀因素,形成的綜合評(píng)價(jià)結(jié)果不夠客觀。如果由計(jì)算機(jī)去完成這個(gè)過(guò)程,通過(guò)對(duì)語(yǔ)義的分析理解和推理,形成一個(gè)相對(duì)客觀的評(píng)價(jià)文本,這無(wú)疑將會(huì)更利于我們客觀地了解事物各方面的情況,同時(shí)降低人們的工作量,提高工作效率。
2.1 本體
本體起源于一個(gè)哲學(xué)上的概念,所以從哲學(xué)的范疇來(lái)說(shuō),本體是客觀存在的一個(gè)系統(tǒng)的解釋或說(shuō)明,體現(xiàn)的是客觀現(xiàn)實(shí)的抽象本質(zhì)。近幾年來(lái),隨著信息技術(shù)需求的不斷增強(qiáng),計(jì)算機(jī)技術(shù)的發(fā)展日新月異,面對(duì)信息時(shí)代怎樣組織、管理和維護(hù)大量信息,并為用戶提供行之有效的服務(wù),已經(jīng)成為當(dāng)前一項(xiàng)緊迫的研究課題。為了達(dá)到這些要求,本體作為一種能在知識(shí)和語(yǔ)義層次上描述信息系統(tǒng)的建模工具,從被提出以來(lái)就引起了國(guó)內(nèi)外的關(guān)注,并在計(jì)算機(jī)的各個(gè)領(lǐng)域得到了大量的應(yīng)用。因此,我們將本體的概念引入信息抽取技術(shù)的領(lǐng)域,通過(guò)對(duì)特定領(lǐng)域的信息進(jìn)行抽取并整合,形成特定事物的綜合評(píng)價(jià)。如果能將這個(gè)思路通過(guò)計(jì)算機(jī)來(lái)實(shí)現(xiàn),這將是一項(xiàng)有意義而又具有挑戰(zhàn)性的工作。
2.2 基于本體的信息抽取技術(shù)
基于本體的信息抽取技術(shù)是一種把信息技術(shù)和本體結(jié)合起來(lái)實(shí)現(xiàn)信息抽取的一種技術(shù),它是當(dāng)前研究的一個(gè)熱點(diǎn)?;诒倔w的信息抽取技術(shù)通過(guò)研究描述本體的概念、關(guān)系以及層次結(jié)構(gòu)間的約束等來(lái)生成抽取規(guī)則,然后依據(jù)相應(yīng)的規(guī)則對(duì)輸入的文本信息進(jìn)行抽取。在信息抽取系統(tǒng)中,一般首先對(duì)要處理的文本先進(jìn)行常量和識(shí)別關(guān)鍵字等預(yù)處理,然后依據(jù)本體生成的相應(yīng)規(guī)則對(duì)預(yù)處理后的文本信息進(jìn)行匹配抽取,其次分析匯總抽取的結(jié)果,最后寫入對(duì)應(yīng)的數(shù)據(jù)庫(kù)。
2.3 模糊綜合評(píng)價(jià)的方法
在實(shí)際工作中,我們對(duì)一個(gè)事物的評(píng)價(jià)常常涉及很多方面。這樣對(duì)事物做出評(píng)價(jià)就需要依據(jù)多個(gè)因素,而不能只依據(jù)某一因素去評(píng)價(jià)事物,這就是綜合評(píng)價(jià)。模糊綜合評(píng)價(jià)先對(duì)多種模糊性因素進(jìn)行單一因素評(píng)價(jià),然后根據(jù)事先制定的規(guī)則集進(jìn)行模糊推論,最后根據(jù)一定的原則對(duì)評(píng)價(jià)結(jié)果進(jìn)行解釋。
(1)首先建立評(píng)語(yǔ)的領(lǐng)域本體,它包含了所描述領(lǐng)域的關(guān)系、概念、約束等信息。本文根據(jù)實(shí)際工作需要,構(gòu)建了一個(gè)簡(jiǎn)單的教師評(píng)語(yǔ)本體。
(2)通過(guò)本體解析器解析本體領(lǐng)域,將其中所包含的所有領(lǐng)域信息抽取出來(lái)形成一個(gè)本體框架。在本系統(tǒng)中是把這些信息寫入到數(shù)據(jù)庫(kù)。
(3)對(duì)評(píng)語(yǔ)源文本進(jìn)行預(yù)處理,利用語(yǔ)法分析來(lái)簡(jiǎn)化文本中的繁雜結(jié)構(gòu),特別是針對(duì)一些程度副詞和特殊句式抽取等常見(jiàn)問(wèn)題,提出相應(yīng)的處理辦法。
(4)運(yùn)行詞庫(kù)編輯模塊,本體關(guān)系概念的關(guān)鍵字都由它來(lái)管理,把這些也寫入數(shù)據(jù)庫(kù)。
(5)將預(yù)處理模塊得到的結(jié)果和字典編輯模塊的關(guān)鍵字進(jìn)行匹配,最后把匹配結(jié)果也寫入數(shù)據(jù)庫(kù)的本體框架中。
4.1 綜合評(píng)價(jià)體系結(jié)構(gòu)的構(gòu)建
構(gòu)建一個(gè)全面合理的評(píng)價(jià)系統(tǒng)需要進(jìn)行大量的調(diào)研,這將消耗大量的人力和物力。由此我們可以把之前創(chuàng)建的評(píng)語(yǔ)本體體系活用過(guò)來(lái),這樣就能很好地獲取評(píng)語(yǔ)文本的層次框架,也就獲取了綜合評(píng)價(jià)的評(píng)價(jià)指標(biāo)。這里我們以教師的評(píng)價(jià)體系為例,可以建立一個(gè)二級(jí)的綜合評(píng)價(jià)指標(biāo)體系。具體的體系結(jié)構(gòu)如下:
(1)教書育人
①敬業(yè)愛(ài)崗
②責(zé)任感
③教風(fēng)
(2)教學(xué)內(nèi)容
①教學(xué)理念
②知識(shí)更新
③理實(shí)一體
(3)教學(xué)態(tài)度
①工作熱情
②課前準(zhǔn)備
③課后輔導(dǎo)
(4)教學(xué)方法
①調(diào)動(dòng)學(xué)生的主動(dòng)性
②現(xiàn)代化教學(xué)方法的使用
③因材施教
(5)教學(xué)能力
①專業(yè)知識(shí)②語(yǔ)言表達(dá)
③教學(xué)方法的靈活運(yùn)用
④創(chuàng)新改革精神
4.2 詞語(yǔ)的量化
為使計(jì)算機(jī)能處理文本從而獲得文本的綜合評(píng)價(jià),這就要求計(jì)算機(jī)在處理評(píng)語(yǔ)文本的過(guò)程中能理解語(yǔ)義,為此我們可以人為地通過(guò)詞語(yǔ)的量化來(lái)達(dá)到目的。以有關(guān)“教學(xué)態(tài)度”詞匯表中的部分詞為例,其量化如表1所示:
表1 教學(xué)態(tài)度詞匯表
量化表完成后我們就可以對(duì)本體實(shí)例中對(duì)應(yīng)的屬性值進(jìn)行量化,并且很容易得到一個(gè)實(shí)體屬性的綜合隸屬度。得到綜合隸屬度之后,我們就需要找到一個(gè)能確切地描述該隸屬度的詞,這就需要完成“由值到詞”的轉(zhuǎn)換,但我們計(jì)算出的綜合隸屬度可能找不到完全適合的對(duì)應(yīng)詞,所以在具體處理過(guò)程中我們可以對(duì)指標(biāo)做一個(gè)定性的量化,可以把隸屬度范圍的區(qū)分為優(yōu)秀、良好、中等、較差四類,如表2所示:
表2 隸屬度等級(jí)表
其次為每一個(gè)量化的等級(jí)找到相近的詞語(yǔ),作值到詞的對(duì)應(yīng)。如表3所示。量化的工作完成后我們就可實(shí)現(xiàn)綜合評(píng)價(jià)文本的自動(dòng)生成。
表3 屬性參考詞表
4.3 綜合評(píng)價(jià)文本的自動(dòng)生成
基于模糊理論和結(jié)構(gòu)化文本獲取的基礎(chǔ),我們能夠很容易地獲取到綜合的結(jié)構(gòu)化評(píng)語(yǔ)文本,最后只需要把得到的綜合結(jié)構(gòu)化評(píng)語(yǔ)文本按照指定的模式進(jìn)行填充,就可以獲得一條客觀的綜合評(píng)語(yǔ)文本?,F(xiàn)以5個(gè)學(xué)生對(duì)同一教師的評(píng)語(yǔ)為例說(shuō)明實(shí)現(xiàn)過(guò)程,如表4所示:
表4 綜合評(píng)語(yǔ)自動(dòng)生成系統(tǒng)處理源數(shù)據(jù)
為了獲得一條綜合的評(píng)語(yǔ)文本,我們需要把每個(gè)學(xué)生寫的評(píng)語(yǔ)文本進(jìn)行結(jié)構(gòu)化,并寫入到對(duì)應(yīng)教師的數(shù)據(jù)庫(kù)表中,最終形成如圖1所示的結(jié)果:
圖1 教師數(shù)據(jù)表
我們通過(guò)對(duì)結(jié)構(gòu)化評(píng)語(yǔ)進(jìn)行解析,得出了每條評(píng)語(yǔ)的分項(xiàng)屬性隸屬度和綜合的隸屬度。再對(duì)照隸屬度等級(jí)表和屬性詞參考表,獲取分項(xiàng)屬性評(píng)價(jià)詞。從而定制綜合評(píng)價(jià)的框架文本,將評(píng)價(jià)詞填入對(duì)應(yīng)空缺中,獲得如圖2結(jié)果:
圖2 綜合評(píng)價(jià)自動(dòng)生成界面
本文結(jié)合基于本體的信息抽取技術(shù),建立了綜合評(píng)價(jià)的分析模型,提出了一種基于本體的綜合評(píng)價(jià)文本自動(dòng)生成的方法,并建立了一個(gè)從文本中獲取信息自動(dòng)生成綜合評(píng)價(jià)的演示系統(tǒng)。該系統(tǒng)能夠利用不同的學(xué)生的評(píng)語(yǔ),自動(dòng)生成對(duì)某一教師的綜合評(píng)價(jià),大大減輕了的傳統(tǒng)評(píng)價(jià)工作的工作量,也使的評(píng)價(jià)工作更為客觀合理。
[1]劉遷,焦慧,賈惠波.信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J].計(jì)算機(jī)應(yīng)用研究,2007,7,24(7):6-9.
[2]孫玉娣,張玉強(qiáng).基于本體的綜合評(píng)價(jià)自動(dòng)生成系統(tǒng)研究[J].情報(bào)雜志,2007,2.
[3]陳蘭.基于Ontology的信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D].電子科技大學(xué),2004,10.
[4]李向陽(yáng),苗壯.自由文本信息抽取技術(shù)[J].情報(bào)科學(xué),2004,22 (7):815-821,829.
[5]劉文彬,模糊綜合評(píng)價(jià)系統(tǒng)研究與實(shí)現(xiàn)[D].河北工業(yè)大學(xué),2003.
Research of Comprehensive EvaluationAutomatic Generation System Based on Ontology
Yin Hongmei
(Chien-Shiung Institute of Technology,Taicang 215411,Jiangsu)
tract】With the rapid development of information technology,information processing has become the most important research content.How to get what is necessary and relatively accurate information from a large amount of information has become a big problem in current society.Aiming at this problem and based on the analysis of lots of comment texts,this paper puts forward a kind of method for automatic generation of the comprehensive evaluation of text based on ontology,which can rapidly process large amount of texts,and automatically obtain the corresponding comprehensive evaluation of text.
words】ontology;information extraction;information extraction technology
殷紅梅,女,江蘇太倉(cāng)人,工程碩士,講師,研究方向:計(jì)算機(jī)應(yīng)用技術(shù)研究。