亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Intranet的知識庫系統(tǒng)匹配算法的研究與實現(xiàn)

        2010-07-25 08:44:28趙建華張同珍
        微型電腦應用 2010年9期
        關鍵詞:語義系統(tǒng)

        趙建華,張同珍

        0 引言

        隨著計算機技術的不斷發(fā)展,其應用進入了更為廣泛的非數(shù)值處理領域,而且在非數(shù)值處理的應用領域已經不限于數(shù)據(jù)處理和控制方面,而把計算機的應用進一步深入到知識處理和知識庫系統(tǒng)的建立,以及在人工智能領域中的應用。

        各種企業(yè)和研發(fā)機構在內部已經積累打了大量的文檔和知識庫,這些文檔的使用跨越了時空的限制,使用手段除了聯(lián)機查詢,還增加了遠程培訓、遠程廣播、點播、網(wǎng)上知識共享。使用方式的多樣性,造成使用人數(shù)急劇擴大,由此引發(fā)了一系列問題,例如客戶端在使用過程中勢必有很多疑難問題,如何應對如此大量客戶端的疑難問題,是目前Intranet知識庫系統(tǒng)實施中必須考慮的。

        目前常用的幾種利用網(wǎng)絡技術的方法,其中典型的有FAQs、BBS、Chatting和網(wǎng)上知識庫工具,有代表性的系統(tǒng)如IBM的FAQs、MIT的Chatting方式。比較以上幾種手段,F(xiàn)AQs和BBS方式對存在問題不能及時解答,Chatting方式要求有限數(shù)目的知識庫管理員全天候實時應答大量客戶端的問題,而知識庫工具兼顧了及時性和并發(fā)性,經過實踐驗證網(wǎng)上知識庫是目前解決這一問題的較好方案。

        1 知識庫系統(tǒng)

        1.1 知識庫的概念

        知識庫是事實、規(guī)則和概念的集合,從存儲知識的角度來看,以描述方法來存儲和管理知識的機構叫做知識庫。事實是對基本信息的描述,時處于不斷的變化中,事實在知識庫中是短期信息;規(guī)則是從專家們的經驗中抽出來的知識,是長期信息;概念分為信念和常識,信念會隨著時間動態(tài)變化,所以也是短期信息,常識一般是固定的概念,而且不隨時間變化,是一種長期信息。從知識的使用角度來看,知識庫是由知識和知識處理機構組成,知識庫形成一個知識域,該知識域中除了事實、規(guī)則和概念之外還包含各種推理、歸納、演繹等知識處理方法,知識域中的知識分為專業(yè)知識和常識知識。專業(yè)知識是從專家經驗中抽出來的知識,這種知識已被廣泛應用于各類專家系統(tǒng)和應用軟件之中;常識知識是相對于專業(yè)知識而言的,與專業(yè)知識相比常識知識范圍要大得多。

        1.2 工作原理

        知識庫的匹配系統(tǒng)是利用問題的普遍性和共性而提出的。系統(tǒng)建設時首先由有豐富經驗的技術人員將大量的常見問題保存在系統(tǒng)中,當客戶端隨機地通過網(wǎng)絡將問題提交給系統(tǒng)時,系統(tǒng)首先去理解這個問題,之后在知識庫中查找同樣的文檔或雖不同但相關的文檔提交給客戶端進行參考,而最終選出的文檔是否和客戶端的問題一致將由客戶來決定??蛻舳苏J為匹配一致時,該知識庫使用結束;客戶端認為匹配不一致時,系統(tǒng)可以認定知識庫中無相同的問題,該問題將會通過系統(tǒng)反饋給負責知識庫的知識庫管理員,知識庫管理員接到通知后,非實時地在系統(tǒng)中處理該問題,從而進一步完善知識庫。由于在Intranet中客戶端對問題的理解一般都有相似之處,提出的問題也大都相同,因此當知識庫初期建立得比較好時,客戶端提出的問題大都能落在知識庫中,由系統(tǒng)及時地給出滿意的匹配,大大減少了知識庫管理員的工作量,客戶端問題也能得到系統(tǒng)及時的響應。隨著系統(tǒng)使用時間的增加,知識庫將因知識庫管理員不斷回答新問題而自動擴大,系統(tǒng)將變得越來越實用和高效。

        1.3 問題的提出

        從知識庫的工作原理可以看出,如何準確地理解客戶端提出的問題,并能夠在庫中匹配到對應的問題,從而得到和提出的問題相符合的答案是系統(tǒng)的關鍵。目前正在使用的知識庫系統(tǒng)采用了多種問題匹配算法,如僅使用關鍵詞或完全使用自然語言理解,試驗證明效果并不理想,要么是問題匹配結果和實際差距太大,要么是系統(tǒng)過于復雜、低效,最終導致不實用。以下本文將首先分析影響問題匹配的各個因素,在實用、高效目標基礎上提出一種綜合考慮各種因素的新的問題匹配算法,最后給出利用該算法實現(xiàn)知識庫的系統(tǒng)設計方案。

        2 問題匹配相關因素

        問題的匹配和問題的諸多因素有關,首先是問題關鍵詞,其次語義詞、問題被問到的頻率和各關鍵詞在問題中的權重,這些都是影響問題匹配的因素。

        2.1 關鍵詞

        關鍵詞是從問題中抽取出來,能夠刻畫問題關鍵所在的若干個詞。對于客戶端提出的新問題,如果從新問題語句中抽取所有關鍵詞,將是一個非常耗時而分析結果并不十分理想的工作。因此問題可以從另外一個角度來考慮,知識庫系統(tǒng)可以為知識庫中的每個問題事先配備問題關鍵詞屬性,該關鍵詞可以作為新老問題匹配的關鍵因素,具體做法是對庫中每個問題(以下稱老問題)將其所有關鍵詞放入新問題中去匹配,匹配的結果有以下3種:1、老問題所有關鍵詞均在新問題中存在;2、老問題部分關鍵詞在新問題中存在;3、老問題無任何關鍵詞在新問題中存在。根據(jù)此3種狀態(tài),我們可以斷定,前兩種情況老問題和新問題有一定程度關聯(lián),最后一種情況新老問題完全無關。

        2.2 語義詞

        語義詞是從大量的問題語料中提出來的常用詞,有鮮明的語義內容,出現(xiàn)頻率很高,如“概念”、 “區(qū)別”、 “什么”等。在問題匹配中對語義詞進行匹配可以大體確定問題的語義,因此需要對語義詞特別考慮,語義詞的匹配結果對問題的匹配影響非常大。由于不同的人對問題的表述方式不盡相同,尤其反映在語義詞上,常常利用不同的詞用來體現(xiàn)相同的含義,如“區(qū)別”、“不同”,“差異”等。系統(tǒng)可以建立一個典型語義詞和該語義詞的同義詞表,專門用于匹配新老問題中的語義詞。在關鍵詞匹配時首先利用語義詞和語義同義詞庫匹配語義詞,在進行語義詞的比較時,即使不同,但屬于同義詞,仍可認定為語義詞相等。

        2.3 關鍵詞權重

        從關鍵詞比較結果可以看出,新老問題相關聯(lián)程度取決于匹配成功關鍵詞數(shù)量在總數(shù)中所占比例。事實上即使數(shù)量比例相同,由于在問題中各個關鍵詞所起的作用不同,即其權重不同,也會在問題理解上產生一定的作用,如果匹配成功的關鍵詞在問題中權重大,那么該老問題將更接近于新問題。因此有必要在老問題的關鍵詞標注時同時注明每個關鍵詞在問題中所占的權重,每個關鍵詞取值范圍為[0,1] ,如果有n個關鍵詞,其權重和為1。

        2.4 問題訪問頻度

        知識庫中內容的普遍性決定了問題理解在很大程度上的相似性,客戶端在使用過程中往往會產生大量的共同問題,這也是知識庫工具存在的必要性所在。投入實際應用的知識庫在一段時間的使用之后,哪些是熱點問題、哪些是非熱點問題,將通過問題被訪問到的次數(shù)即頻度而得到區(qū)分。在問題匹配程度相近的情況下,問題的高頻度為問題的最終匹配提供問題關聯(lián)程度的依據(jù)。

        上述四種因素在問題匹配中起到了不同的決定因素,綜合考慮這些因素,以下給出問題匹配算法。

        3 問題匹配算法

        3.1 算法

        可以把問題的匹配結果用匹配程度來描述,根據(jù)匹配程度可以將庫中老問題分為三類:無關問題、相關問題、相同問題。匹配程度最高且達到給定的相同問題閥值的問題定義為相同問題;匹配程度非最高但達到給定的相關問題閥值的,按照匹配程度的大小,依照遞減順序列為相關問題序列;匹配程度低于相關問題閥值的定義為無關問題。我們用以下公式計算問題匹配程度:

        其中Q i為庫中任意一個老問題,MG(Q i)為問題Q i的匹配程度,MG(Q i)∈[0,1] ,KP為語義詞匹配結果(1表示匹配成功,0表示匹配失?。?,k為庫中部分或全部關鍵詞匹配成功的老問題的個數(shù),m i為問題Q i中和新問題匹配成功的關鍵詞的個數(shù),ni為問題Q i所有關鍵詞的數(shù)目,W j為m i個關鍵詞中第j個關鍵詞的權重,fi為問題Q i曾匹配成功且被客戶端最終認定為相同問題的次數(shù),a、y和δ是0到1之間的常數(shù)因子,τ、ξ分別為用于區(qū)分相同問題、相關問題的閥值。

        3.2 問題匹配舉例

        根據(jù)前面的問題匹配算法(公式 1),向知識庫系統(tǒng)提交一個問題進行效果檢驗。提交星型模型和雪花模型有何不同,知識庫中有五個相關問題:星型模型和雪花模型有何不同、如何建立一個雪花模型、什么是雪花模型、什么是星型模型、如何建立一個星型模型,假設問題序號為1、2、3、4、5。按照上面的匹配算法,此時K=5。通常取a=0.3、y=0.6、δ=0.1,閥值τ=0.6、ξ=0.3其余各項參數(shù)和匹配結果如表一所示。

        根據(jù)表1所示匹配程度、閾值,可以得出相同問題為1,相關問題按照順序分別為 4、3。從以上給出的五個問題來看,顯然此結果和理想匹配結果吻合、并且將問題清晰地進行了聚類。

        表1 匹配程度結果

        圖1 IBM內部Intranet的知識庫檢索結果示例

        4 知識庫系統(tǒng)實現(xiàn)方案

        4.1 系統(tǒng)框架

        基于以上算法我們實現(xiàn)了一個Intranet知識庫系統(tǒng),該系統(tǒng)為B/S結構。服務器采用Windows 2000操作系統(tǒng)、DB2數(shù)據(jù)庫,編程語言為HTML、ASP。系統(tǒng)主要由用戶界面、問題匹配、知識庫分析等模塊組成,后臺輔有知識庫、語義詞庫、用戶記錄庫。

        系統(tǒng)總體框架如圖1:

        圖2 知識庫系統(tǒng)框架

        4.2 功能模塊

        用戶界面包括客戶端、知識庫管理員端??蛻舳颂峁┨峤粏栴}、察看匹配結果序列、答案確認的平臺,提供問提匹配模塊調用、問題匹配結果序列的管理和顯示;知識庫管理員端提供問題發(fā)送、問題回答的工作平臺;另外用戶界面還提供了新問題、知識庫記錄在知識庫中的記載、問題屬性的修改工作。

        問題匹配根據(jù)客戶端用戶界面提交的問題匹配調用,按照匹配算法并參照新問題到知識庫中進行問題匹配,匹配成功問題序列交用戶界面客戶端端,由它提交客戶端用戶,最終等待客戶端用戶進行答案確認。

        知識庫分析模塊根據(jù)知識庫中問題和客戶端提問記錄,進行問題關聯(lián)分析、客戶端學習特征分析,最終通過用戶界面提交給師生用戶個性化教學學習指導。

        知識庫主要存儲問題答案對、問題的所屬、頻度、相互關聯(lián)等。語義詞庫存儲語義詞、語義同義詞,其中語義詞作為主碼,一個語義詞帶有最多5個同義詞存儲字段。用戶記錄庫記錄用戶提問、知識庫管理員回答的工作日志,提供知識庫數(shù)據(jù)分析之用。

        4.3 知識庫過程

        客戶端利用客戶端用戶界面通過Intranet向系統(tǒng)提交問題,由系統(tǒng)調用問題匹配模塊對知識庫中每個問題按照問題匹配算法計算相對新問題的匹配程度,比較每個問題的匹配程度數(shù)值和相同問題閾值得出相同問題、參照相關問題閾值并按照匹配程度大小遞減順序得出相關問題,最后通過用戶界面將匹配結果發(fā)送給客戶端端,最終由客戶端從提供的答案中選出和提交問題吻合的答案。在答案確認時,如果推薦問題答案序列中存在和新問題實際符合的答案,則該問題訪問頻度數(shù)值增加1;如果不存在,則系統(tǒng)將問題作為新問題自動發(fā)往知識庫管理員端,知識庫管理員對該問題重新處理。新問題的添加和老問題的頻度屬性修改都屬于知識庫的維護工作。

        5 結論

        知識庫系統(tǒng)是存儲知識的實體,它是數(shù)據(jù)庫技術和人工智能相結合的產物。知識庫技術是知識型人工智能應用系統(tǒng)的基礎,它使計算機應用系統(tǒng)有了更多的智能,如智能搜索引擎的開發(fā)。知識庫是學習過程中必不可少的環(huán)節(jié),面對的問題是使用人數(shù)多、問題量大、時間隨機,一個實際可行的手段是建立一個網(wǎng)上知識庫系統(tǒng)。本文就知識庫系統(tǒng)如何更準確地理解客戶端提出的問題,分析了所有相關的因素,提出了一個新的問題匹配算法,出了基于該算法的知識庫系統(tǒng)實現(xiàn)系統(tǒng)方案。經過大量數(shù)據(jù)驗證,算法結果和理想值吻合程度很高,系統(tǒng)工作性能較好。

        [1] 楊勇等.知識庫系統(tǒng)原理[J] .華東地質學院學報,2001.4.

        [2] 申瑞民,李學軍.支持問題場景的多媒體自動答疑系統(tǒng)[J] .計算機工程與應用,1999.1.

        [3] 柳泉波,黃榮懷,何克抗.智能答疑系統(tǒng)設計與實現(xiàn)[J] .中國遠程教育,2000.83.

        [4] Fuketa, Masaoa; Mizofuchi. A fast method of determining weighted compound keywords from text databases.Information Processing and Management. Volume: 34,Issue: 4, July, 1998, pp. 431-442.

        [5] hoo, Christopher S G. Using cause-effect relations in text to improve information retrieval precision. Information Processing and Management. Volume: 37,Issue: 1, January 1, 2001, pp. 119-145.

        猜你喜歡
        語義系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        語言與語義
        基于PowerPC+FPGA顯示系統(tǒng)
        半沸制皂系統(tǒng)(下)
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        “上”與“下”語義的不對稱性及其認知闡釋
        認知范疇模糊與語義模糊
        “深+N季”組配的認知語義分析
        當代修辭學(2011年6期)2011-01-29 02:49:50
        富婆如狼似虎找黑人老外| 人人妻人人澡人人爽人人精品浪潮| 青娱乐极品视觉盛宴国产视频| 国产成人一区二区三区在线观看| 免费国产黄线在线播放| 精品国产一区二区三广区 | 国产精品国产三级国产av品爱 | 粗大的内捧猛烈进出在线视频| 亚洲av中文无码乱人伦在线咪咕| 国产一区二区三区免费av| 精品久久久久久无码专区 | 久久天天躁狠狠躁夜夜2020!| 熟女少妇丰满一区二区| 日本熟妇另类一区二区三区| 亚洲国产精品va在线看黑人| 精品五月天| 激情视频国产在线观看| 亚洲午夜狼人综合影院| 亚洲美腿丝袜 欧美另类| 国产乱人伦偷精品视频免| 激情免费视频一区二区三区| 国产精品久久久久久妇女| 青青草原综合久久大伊人| 日本一区二区三区激情视频| 日本免费一区二区久久久| 人人妻人人澡人人爽欧美一区双| 天天干成人网| 国产av一区二区凹凸精品| 久草手机视频在线观看| 中文字幕日韩一区二区不卡| 99视频在线国产| 91国内偷拍一区二区三区| 制服丝袜一区二区三区 | 国产成人精品自在线无码 | 手机色在线| 不卡视频在线观看网站| 免费va国产高清大片在线| 五月天欧美精品在线观看| 国产精品一区二区三区成人| 中文字幕人乱码中文字幕 | 亚洲av日韩片在线观看|