亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)庫漢語自然語言查詢技術(shù)研究

        2019-09-06 06:44:34王代星
        現(xiàn)代計算機(jī) 2019年22期
        關(guān)鍵詞:語義數(shù)據(jù)庫系統(tǒng)

        王代星

        (貴州大學(xué)教育教學(xué)評估中心、高等教育研究所,貴陽550025)

        0 引言

        計算機(jī)人機(jī)交互界面一直在朝著簡單、易用、智能、人性化方向發(fā)展,數(shù)據(jù)庫自然語言查詢技術(shù)也正是順應(yīng)這一趨勢,研究使用自然語言查詢數(shù)據(jù)庫的方法,從而擴(kuò)大數(shù)據(jù)庫用戶群體,方便廣大用戶使用,而無需掌握數(shù)據(jù)庫專業(yè)技術(shù)知識,擺脫數(shù)據(jù)庫形式化查詢語言的桎梏。本文著重從數(shù)據(jù)庫角度出發(fā),探討了數(shù)據(jù)庫漢語自然語言查詢技術(shù)的實現(xiàn)(以下簡稱自然語言查詢)。

        1 國內(nèi)外研究現(xiàn)狀

        計算機(jī)自然語言處理NLP(Natural Language Processing)早在上個世紀(jì)60 年代,國外就展開了研究,并在機(jī)器翻譯領(lǐng)域獲得了成功。數(shù)據(jù)庫自然語言查詢技術(shù)的研究也伴隨著自然語言處理而展開,在80 年代進(jìn)入高潮,前前后后開發(fā)了許多具有代表性的系統(tǒng)。如:60 年代美國B. Green 開發(fā)的基于關(guān)鍵字匹配技術(shù)的BASEBALL 系統(tǒng),允許用戶用限定的英語句子查詢數(shù)據(jù)庫內(nèi)記錄的美國全國棒球聯(lián)賽信息;1978 年美國國際人工智能研究所(SRI)C.Hendrix 等人設(shè)計的LIFER系統(tǒng),通過將分析程序與知識庫相分離的做法,設(shè)計出了自然語言查詢通用接口,在它的基礎(chǔ)上,美國成功地建立了一批專用接口;80 年代,美國人工智能公司(AIC)推出Intellect 英語人機(jī)接口系統(tǒng),F(xiàn)rey Associates公司推出Themis 人機(jī)接口系統(tǒng),加利福尼亞工學(xué)院推出ASK 系統(tǒng),日本日立公司推出HICALTS 英日、日英翻譯系統(tǒng)等,標(biāo)志著語言產(chǎn)業(yè)的形成,研究的重點也向通用系統(tǒng)轉(zhuǎn)移;在80 年代末,90 年代初,由于受到圖形用戶界面技術(shù)的沖擊,數(shù)據(jù)庫自然語言查詢研究跌入低谷,之后朝著兩個方向發(fā)展,一是將前期的系統(tǒng)引入實用階段,二是不斷地探索新的理論和方法,引入多模式界面和人工神經(jīng)網(wǎng)絡(luò)等技術(shù)。

        我國于上世紀(jì)70 年代末80 年代初開始漢語自然語言數(shù)據(jù)庫接口系統(tǒng)的研究,在借鑒國外研究成果的基礎(chǔ)上,根據(jù)漢語的特點,設(shè)計了一批專用接口和通用接口,主要采用關(guān)鍵詞匹配、句法模式匹配、語義語法、擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)(ATN)等技術(shù)。主流實現(xiàn)方式有基于數(shù)據(jù)庫E-R 漢語理解模型、類關(guān)系代數(shù)邏輯式中間語言轉(zhuǎn)換、以條件為中心的句型匹配以及多語句組合模板等方法,將通用知識庫與領(lǐng)域?qū)S弥R庫相分離,利用學(xué)習(xí)模塊獲取領(lǐng)域?qū)S弥R,以此達(dá)到一定程度的可移植性、通用性。但從整體來說,進(jìn)展緩慢,多數(shù)系統(tǒng)只停留在原型系統(tǒng)水平,未考慮向?qū)嵱孟到y(tǒng)轉(zhuǎn)化。

        2 基本術(shù)語約定

        從實體聯(lián)系模型出發(fā),數(shù)據(jù)庫邏輯模式與概念模式具有較為直接的對應(yīng),利用圖1 所示數(shù)據(jù)庫語義詞典,可以方便地進(jìn)行轉(zhuǎn)換,因此,在后文提到關(guān)系、屬性以及查詢要素時,不再嚴(yán)格區(qū)分邏輯模式和概念模式。為方便討論,將文中用到的部分術(shù)語在此作簡略解釋。

        目標(biāo)屬性:自然語言查詢結(jié)果所涉及的數(shù)據(jù)庫關(guān)系屬性。即查詢結(jié)果是滿足查詢條件的目標(biāo)屬性值的子集。

        條件屬性:自然語言查詢中對查詢結(jié)果的限定條件涉及的數(shù)據(jù)庫關(guān)系屬性。

        條件值:自然語言查詢條件部分的具體限定值。分字符串型、數(shù)值型和日期型三類。

        查詢要素:指一條自然語言查詢包含的目標(biāo)屬性、條件屬性、條件值以及排序?qū)傩?、分組屬性等要素。

        數(shù)據(jù)庫語義詞典:數(shù)據(jù)庫邏輯模式與概念模式映射工具。主要用于自然語言查詢要素切分、SQL 語言轉(zhuǎn)換。簡稱語義詞典。

        通用詞典:包括標(biāo)點、介詞、連詞、查詢詞、是詞、有詞、聚集詞、比較詞、數(shù)詞、量詞、疑問詞等,涉及自然語言查詢的通用詞匯,它們對句子的結(jié)構(gòu)分析、查詢要素之間的關(guān)聯(lián)分析具有特殊的意義,對不同類型的詞匯需要作相應(yīng)的處理。

        查詢要素切分:利用數(shù)據(jù)庫語義詞典和通用詞典,采用正向最大匹配或反向最大匹配方法從自然語言查詢句子中切分出查詢要素,必要時預(yù)先進(jìn)行數(shù)據(jù)庫探測查詢。要素切分的同時也完成了數(shù)據(jù)庫概念模式與邏輯模式的轉(zhuǎn)換。

        超關(guān)系:將目標(biāo)屬性所在的基本關(guān)系,以及從該關(guān)系出發(fā)通過主鍵和外鍵兩兩關(guān)聯(lián)的所有基本關(guān)系連成一個虛擬的大關(guān)系,稱之為一個超關(guān)系。

        條件值歸屬模糊:指自然語言查詢中未指明條件屬性的條件值可能歸屬超關(guān)系的幾個屬性的現(xiàn)象。系統(tǒng)需要采用探測查詢等技術(shù)才能消除這種模糊。

        探測查詢:即數(shù)據(jù)庫預(yù)查詢。指在查詢要素切分過程中,對條件值可能歸屬的超關(guān)系屬性進(jìn)行預(yù)查確認(rèn),消除歸屬模糊和排除領(lǐng)域動詞等無關(guān)詞匯。

        3 數(shù)據(jù)庫語義分析

        自然語言查詢有兩種實現(xiàn)方案:一是對數(shù)據(jù)庫管理系統(tǒng)進(jìn)行擴(kuò)充;二是在數(shù)據(jù)庫管理系統(tǒng)之上開發(fā)應(yīng)用接口。兩種方案都必須建立數(shù)據(jù)庫邏輯模式與概念模式的映射。本文采用的是第二種方案,通過建立如圖1 所示的數(shù)據(jù)庫語義詞典,完成模式轉(zhuǎn)換。該詞典從具體數(shù)據(jù)庫抽取出來而獨立于數(shù)據(jù)庫存在,一般與分析處理程序一起放入Web 服務(wù)器中,以實現(xiàn)多服務(wù)器、多數(shù)據(jù)庫的訪問??紤]到自然語言詞匯的豐富性和用戶用詞的個性,詞典中需要加入大量的同義詞。同時還需要包括許多輔助信息,例如:屬性的類型、域、量詞、單位;關(guān)系的主外鍵約束;超關(guān)系;數(shù)據(jù)庫服務(wù)器的連接方式等。詞典采用樹型結(jié)構(gòu),這種結(jié)構(gòu)與XML文檔結(jié)構(gòu)非常相似,用XML 文檔詞典實現(xiàn)平臺無關(guān)性。語義詞典的建立過程如下:

        (1)從數(shù)據(jù)庫的詞典中自動提取邏輯模式。

        (2)從系統(tǒng)ER 模型、需求分析文檔中的數(shù)據(jù)詞典、系統(tǒng)說明書等提取概念模式、同義詞。需要人工參與,由數(shù)據(jù)庫管理人員或系統(tǒng)開發(fā)人員手工添加。

        圖1 數(shù)據(jù)庫語義詞典

        4 漢語自然語言查詢的語言特征

        表示查詢的自然語言有祈使句和疑問句。祈使句只針對數(shù)據(jù)庫的內(nèi)容,而疑問句則分兩種情況,一種是對數(shù)據(jù)庫內(nèi)容提問,另一種是基于數(shù)據(jù)庫內(nèi)容進(jìn)行推理和判斷性要求提問。疑問句的后一種情形涉及人工智能領(lǐng)域的研究,需要知識庫的支持,本文不作討論。在現(xiàn)實中,人們的查詢請求基本上都是比較簡潔的單句,可簡化為短語結(jié)構(gòu),如:

        例1 查詢數(shù)據(jù)庫的課程號和學(xué)分

        簡化:數(shù)據(jù)庫的課程號和學(xué)分

        例2 張三住什么地方?或:張三的家庭地址在哪里?

        簡化:張三的家庭地址

        例3 查詢學(xué)號為98001 的學(xué)生姓名、性別

        簡化:學(xué)號為98001 的學(xué)生姓名、性別

        可編程實現(xiàn)這種簡化,因此本文只針對這種短語結(jié)構(gòu)進(jìn)行討論。查詢要素在自然語言查詢短語中主要有如下規(guī)律:

        (1)目標(biāo)屬性(組)名稱前一般都有關(guān)系名修飾,或?qū)嶓w關(guān)系的名稱屬性的某個值限定,如:

        例4 學(xué)生的姓名、年齡

        其中目標(biāo)屬性組“姓名、年齡”由其實體關(guān)系“學(xué)生”修飾。

        例5 張三的性別、年齡

        其中目標(biāo)屬性組“性別、年齡”由實體關(guān)系的名稱屬性“姓名”的值“張三”修飾。

        (2)當(dāng)條件值前無屬性名稱修飾時,一般都是名稱類屬性的值。如例5 中的“張三”。

        (3)實體關(guān)系名經(jīng)常單獨出現(xiàn),其后無屬性跟隨。取其默認(rèn)屬性組為目標(biāo)屬性,如:

        例6 張三選修的課程

        其中“課程”是實體關(guān)系,包含“編號、名稱、學(xué)分、先修課”等屬性。可以為其指定一組默認(rèn)屬性。

        (4)屬性名后無是詞、比較詞等與條件值關(guān)聯(lián)時,為目標(biāo)屬性。如例4、例5。

        (5)屬性名之后有是詞、比較詞等與條件值關(guān)聯(lián)時,屬性和條件值組合成查詢條件,如:

        例7 學(xué)號為95001 的學(xué)生姓名

        由此可知,雖然自然語言很不規(guī)范,但僅就表達(dá)查詢這一有限的自然語言集合來說,其用詞是有限的、句子結(jié)構(gòu)是有規(guī)律可循的,各查詢要素之間是有一定的固定搭配的。綜合運(yùn)用這些結(jié)構(gòu)信息,是自然語言查詢處理的依據(jù)之一。

        5 自然語言查詢要素切分

        查詢要素切分不同于分詞概念。分詞技術(shù)必須盡可能準(zhǔn)確地、徹底地把句子切分成語言的最小組成單位“詞”,而自然語言查詢分析只需要切分出查詢要素即可。例如“家庭地址”,在數(shù)據(jù)庫中它是一個獨立的概念,而不用細(xì)分為“家庭”和“地址”。對條件值的切分區(qū)別更為突出,例如公司名稱“聯(lián)華科技責(zé)任有限公司”、書名“高級數(shù)據(jù)庫技術(shù)與應(yīng)用”等,分詞結(jié)果則顯得畫蛇添足。因此,查詢要素切分的概念更適合于自然語言查詢處理。

        查詢要素切分使用的兩種漢字串切分方法:正向最大匹配法和反向最大匹配法,同時也是自然語言三種常用分詞技術(shù)中的兩種方法[1]。查詢要素切分交替使用正向和反向最大匹配方法,有利于效率的提高。每一輪匹配,當(dāng)語義詞典匹配、通用詞典匹配、探測查詢匹配都失敗時,才考慮舍棄一個字,再進(jìn)行剩余字串的匹配。

        算法5.1 查詢要素切分

        輸入:自然語言查詢字串、語義詞典、通用詞典

        輸出:目標(biāo)屬性、查詢條件(條件屬性=條件值)

        1.采用反向最大匹配法或正向最大匹配法或交替使用這兩種方法,查詢數(shù)據(jù)庫語義詞典,切分出關(guān)系、屬性,同時完成模式轉(zhuǎn)換,確定所屬超關(guān)系。

        2.采用同樣的方法,查詢通用詞典,切分出常用詞匯,結(jié)合第1 步的結(jié)果,判斷目標(biāo)屬性、條件屬性、以及與條件屬性關(guān)聯(lián)的條件值。

        3.采用同樣的方法,在超關(guān)系中進(jìn)行探測查詢,消除條件值歸屬模糊。

        4.若剩余的字串不空,重復(fù)上述過程,直到空串。

        5.輸出目標(biāo)屬性、查詢條件。

        6 探測查詢

        目前對條件值歸屬模糊或整個自然語言查詢的處理主要有以下幾種方法:

        (1)規(guī)范查詢用語。對查詢用的自然語言進(jìn)行一定的限制,要求用戶使用規(guī)范的句型格式。優(yōu)點是簡單、易于實現(xiàn),缺點是限制太多,要求用戶熟悉數(shù)據(jù)庫的概念模式。

        (2)人機(jī)交互確認(rèn)方式。對未登錄詞、專有名詞等系統(tǒng)無法解釋的詞匯,作出幾種可能的推測,由用戶進(jìn)一步選擇確認(rèn)。優(yōu)點是增強(qiáng)了人機(jī)互動,提高了分析處理的精確度,具有自學(xué)習(xí)功能。缺點是用戶必須熟悉數(shù)據(jù)庫的概念模式,必須清楚地知道他要查詢的內(nèi)容屬于哪一個實體或聯(lián)系的哪一個屬性。

        (3)句型模式匹配方式。分析、統(tǒng)計數(shù)據(jù)庫中關(guān)系與關(guān)系之間、關(guān)系與屬性之間、屬性與屬性之間、值與值之間、值與屬性之間可能存在的修飾關(guān)系,與自然語言句子結(jié)構(gòu)結(jié)合起來,歸納出若干特定的句型,然后將實際的查詢句子與這些句型模式匹配,取相似度最高的句型作為實際問題的解。這種方法查詢效率高,但實現(xiàn)起來麻煩,要歸納出一個龐大的數(shù)據(jù)庫的所有句型模式是非常困難的,普通的數(shù)據(jù)庫技術(shù)人員很難勝任這項工作,系統(tǒng)缺乏可移植性。

        實際上數(shù)據(jù)庫內(nèi)既然包含了我們想要知道的內(nèi)容,就完全可以利用這些內(nèi)容來幫助我們分析查詢。探測查詢正是基于這樣的思想。首先,數(shù)據(jù)庫內(nèi)的數(shù)據(jù)是有組織、有結(jié)構(gòu)的,作為一個整體,反映現(xiàn)實世界某個領(lǐng)域的客觀對象的信息,查詢也會緊緊圍繞這些信息進(jìn)行,這種緊密相關(guān)性正好映射一個超關(guān)系的概念。其次,數(shù)據(jù)庫內(nèi)的數(shù)據(jù)類型分成三類:數(shù)值型、日期型、字符串型,前兩種數(shù)據(jù)類型一般與“年月日”或量詞同時出現(xiàn),而字符串型數(shù)據(jù),在隱含條件屬性的情況下,都是現(xiàn)實客觀對象的名稱。第三,并行計算技術(shù)可以同時實現(xiàn)多個屬性的探測,提高查詢速度。最后,探測查詢不向用戶返回查詢結(jié)果,不占用網(wǎng)絡(luò)帶寬??傊?,對條件值歸屬模糊,在超關(guān)系內(nèi)按屬性分類進(jìn)行探測,是行之有效的。例如:

        例8 張三的家庭住址

        例9 工程項目管理的學(xué)分

        例10 張三的工程項目管理的考試成績

        分析例8:假設(shè)數(shù)據(jù)庫內(nèi)有學(xué)生、教師、課程三個實體關(guān)系,選課、授課兩個聯(lián)系關(guān)系,學(xué)生實體通過選課與課程實體關(guān)聯(lián),教師實體通過授課與課程實體關(guān)聯(lián),這五個關(guān)系構(gòu)成一個超關(guān)系R。首先,通過反向最大匹配,查找語義詞典,得知“家庭住址”是屬性student.address,同時由student 關(guān)系確定超關(guān)系R;其次,查找通用詞典,匹配出“的”字,得知前面的“張三”修飾student.address 屬性;第三,查找語義詞典和通用詞典,無法匹配“張三”,轉(zhuǎn)而進(jìn)行探測查詢;第四,“張三”屬字符串型數(shù)據(jù),是客觀對象的名稱,而超關(guān)系R 中含有三個實體名稱型屬性:student.sname, teacher.tname,course.cname,且句中沒有明確指出“張三”到底是學(xué)生、教師還是課程名稱,因此產(chǎn)生條件值歸屬模糊,需要分別對這三個屬性進(jìn)行探測查詢,依次或并行地執(zhí)行下面三條SQL 查詢語句:

        (1)select*from student where sname='張三'

        (2)select*from teacher where tname='張三'

        (3)select*from course where cname='張三'

        最后,根據(jù)探測查詢的結(jié)果,確定“張三”到底歸屬于哪一個屬性,并組合成查詢條件。探測查詢的輸出結(jié)果可能有4 種:①student.sname=‘張三’;②teacher.tname=‘張三’;③course.cname=‘張三’;④FALSE(無滿足條件的記錄)。例9、例10 的分析類似。

        探測查詢法立足于數(shù)據(jù)庫本身的內(nèi)容,解決條件值歸屬模糊,從而簡化了自然語言查詢的分析處理。缺點就是在采用最大匹配方法從自然語言句子中切分出條件值時,在匹配過程中,可能需要進(jìn)行多次探測查詢,從而占用過多的數(shù)據(jù)庫資源。

        7 數(shù)據(jù)庫自然語言查詢系統(tǒng)體系結(jié)構(gòu)

        綜上所述,得出如圖2 所示自然語言查詢系統(tǒng)體系結(jié)構(gòu)。自然語言字串經(jīng)過要素切分、探測查詢后,已經(jīng)由自然概念轉(zhuǎn)換成了數(shù)據(jù)庫邏輯模式,確定了超關(guān)系、目標(biāo)屬性、查詢條件,再經(jīng)SQL 轉(zhuǎn)換模塊組合成完整的SQL 語句,最后交底層數(shù)據(jù)庫管理系統(tǒng)執(zhí)行,并以XML 文檔格式向用戶返回查詢結(jié)果。

        SQL 轉(zhuǎn)換模塊主要有兩個功能:首先是超關(guān)系的簡化。超關(guān)系中存在很多冗余的基本關(guān)系,需要根據(jù)查詢要素,篩選出實體關(guān)系,再考察各實體關(guān)系之間是否需要聯(lián)系關(guān)系連接,從而確定FROM 子句和連接條件;其次將所有的查詢要素分別裝配成SQL 的子句,即SELECT子句、WHERE 子句(可能還有GROUP BY、ORDER BY子句),然后將它們組合成完整的SQL 語句。

        圖2 自然語言查詢系統(tǒng)體系結(jié)構(gòu)

        系統(tǒng)將通用詞典、語義詞典與分析處理模塊分離,只要語義詞典不同,就可實現(xiàn)對不同數(shù)據(jù)庫的訪問,從而提高系統(tǒng)的可移植性。探測查詢既是簡化系統(tǒng)設(shè)計、提高可移植性的關(guān)鍵,也是影響系統(tǒng)性能的瓶頸,因為對數(shù)據(jù)庫反復(fù)地進(jìn)行探測查詢,將浪費一定的系統(tǒng)資源、增加客戶查詢的等待時間。

        8 結(jié)語

        自然語言查詢技術(shù)具有廣闊的應(yīng)用前景。首先,擴(kuò)大了數(shù)據(jù)庫的使用群體,用戶可以避免學(xué)習(xí)數(shù)據(jù)庫形式化查詢語言,甚至不需要了解數(shù)據(jù)庫知識;其次,屏蔽了數(shù)據(jù)庫模式細(xì)節(jié),提高了系統(tǒng)的安全性;第三,可以基于自然語言查詢技術(shù)聯(lián)成松散的多數(shù)據(jù)庫網(wǎng)絡(luò)系統(tǒng),從而避免模式集成、數(shù)據(jù)轉(zhuǎn)換等繁瑣的工作,降低數(shù)據(jù)共享的成本;第四,可以基于自然語言查詢技術(shù),通過Internet 建立網(wǎng)上虛擬數(shù)據(jù)庫,并與網(wǎng)上搜索引擎集成起來,提供完美的網(wǎng)上搜索查詢服務(wù)。

        猜你喜歡
        語義數(shù)據(jù)庫系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機(jī)系統(tǒng)
        ZC系列無人機(jī)遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        語言與語義
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        国产成人喷潮在线观看| 国产精品国产三级国a| 精品久久综合日本久久综合网| 亚洲综合av永久无码精品一区二区| 丰满熟妇乱又伦| 亚洲AV无码久久精品国产老人| 中文字幕日韩一区二区不卡| 国产精品国产三级国产密月| 国偷自产一区二区免费视频| 黄视频国产| 一区二区三区国产偷拍| 一区二区三区人妻av | 亚洲av无码xxx麻豆艾秋| 狠狠狠色丁香婷婷综合激情 | 四虎精品影视| 一级午夜理论片日本中文在线| 精品亚洲麻豆1区2区3区| 久久久久久久久蜜桃| 亚洲AV无码精品色欲av | 国产成人精品日本亚洲i8| 国产h视频在线观看| 最近日韩激情中文字幕| 大香蕉久久精品一区二区字幕| 蜜桃av噜噜一区二区三区9| 99精品人妻少妇一区二区| 国产在线网址| 日本av第一区第二区| 伊人久久大香线蕉av波多野结衣| 亚洲精品中文字幕无码蜜桃| 国产精品成人av电影不卡| 内射爆草少妇精品视频| 亚洲av无码成人网站在线观看| 欧美日韩在线观看免费| 日本久久一级二级三级| 国模gogo无码人体啪啪| 中文字幕乱码人妻一区二区三区 | 青青草视频在线视频播放| 免费黄片小视频在线播放| 欧美一区二区三区激情| 国产欧美日韩不卡一区二区三区 | 国产日产综合|