亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數據庫查詢系統(tǒng)中自然語言理解技術應用

        2023-12-31 00:00:00王燕鳳
        科技創(chuàng)新與應用 2023年18期

        摘" 要:自然語言理解技術(NLU)是當下人工智能領域的熱門研究課題,在幫助計算機準確理解人類語言,以及真正實現(xiàn)機器的智能化發(fā)揮重要作用。該文基于自然語言理解技術設計數據庫查詢系統(tǒng),首先介紹數據庫查詢系統(tǒng)中使用到的關鍵技術,例如自動分詞技術、消歧處理算法、目標短語提取技術等。隨后使用Jbuilder10開發(fā)工具和Java編程語言設計數據庫查詢系統(tǒng),并對其自動分詞和語句查詢功能展開驗證。結果表明,在輸入的116條語句中,正確分詞率達到92.2%,查詢正確率達到80.2%,達到設計預期。

        關鍵詞:數據庫查詢系統(tǒng);自然語言理解技術;自動分詞;查詢目標;智能化

        中圖分類號:TP391" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2023)18-0023-04

        Abstract: Natural language understanding (NLU) technology is a hot research topic in the field of artificial intelligence, which plays an important role in helping computers understand human language accurately and realizing the intelligence of machines. This paper designs a database query system based on natural language understanding technology. Firstly, it introduces the key technologies used in the database query system, such as automatic word segmentation, disambiguation processing algorithm, target phrase extraction technology and so on. Then, the database query system is designed by using Jbuilder10 development tools and Java programming language, and its automatic word segmentation and sentence query functions are verified. The results show that among the 116 sentences entered, the correct word segmentation rate is 92.2%, and the query accuracy rate is 80.2%, which meets the expectations for the design.

        Keywords: database query system; natural language understanding (NLU) technology; automatic word segmentation; query target; intelligence

        早在20世紀50年代,美國的IBM公司就開展了計算機語言處理的研究,目前國際上關于自然語言理解的研究成果雖然豐碩,但是研究對象以英語、法語等語種為主,相比之下國內關于漢語的自然語言處理研究則起步較晚。近年來,清華大學的黃昌寧教授、東北大學的姚天順教授等在計算機語言學領域展開了大量的探索,取得了可喜的研究成果。將自然語言理解技術應用到數據庫查詢系統(tǒng)中,必須要解決漢語語句特有的歧義切分問題、多動詞聯(lián)用問題、句子詞序問題等眾多難題。本文以自動分詞、歧義處理等方面作為切入點,對數據庫查詢系統(tǒng)中自然語言理解技術展開了探討。

        1" 數據庫查詢系統(tǒng)中常用的自然語言理解技術

        1.1" 自動分詞技術

        由于中文文本中的字詞之間沒有類似于英語的空格,因此數據庫查詢系統(tǒng)在分析中文文本時首要任務就是自動分詞。目前常用的自動分詞技術有機械分詞法、統(tǒng)計分詞法等,但是在具體應用中均存在一定的缺陷。例如機械分詞法的切詞速度較慢,而統(tǒng)計分詞法只適合一些普通文本的分詞等。本文在設計數據庫查詢系統(tǒng)時,基于自然語言理解技術提出了“最大正向匹配算法+尾部歧義處理+回溯分詞算法”的復合式自動分詞技術,其實現(xiàn)方式如下。

        讀入待處理語句后,使用最大正向匹配算法對該語句做常規(guī)切分,切分后得到若干詞;使用尾部歧義處理進行詞的歧義檢查,根據檢查結果找出最大交集型歧義字段。判斷該字段是否為空,如果不為空則依據“歸右原則”處理交集型歧義。在完成第一次最大正向匹配分詞后,記錄分詞結果,同時繼續(xù)查詢待處理語句的其他部分,直到發(fā)現(xiàn)語法或語義錯誤,則返回重新匹配(回溯算法),達到對詞匯準確切分的效果。

        1.2" 消歧技術

        消歧又稱歧義字段切分,在數據庫查詢系統(tǒng)中應用消歧技術能顯著提升切分精度。根據構成形式的不同,將歧義字段分為2種常見類型,即交集型歧義和組合型歧義。假設字段為XYZ,并且存在XY∈P、YZ∈P,此時字段XYZ即為交集型歧義;假設字段為XY,并且存在XY∈P,A∈P、Y∈P,此時字段AB即為組合型歧義[1]。這里的XYZ、ZY為字串,P表示分詞庫。在中文文本中,超過90%的字串都屬于交集型歧義,本文重點討論這類字串的分詞與消歧處理,其流程如圖1所示。

        在分詞的尾部歧義處理中,查找最大交際字段是關鍵操作。本文選擇函數findIntersection實現(xiàn)這一功能。該函數有3個輸入參數,分別是sne、pos1、al,程序設計如下

        string findIntersection(int posl,string sen,arraylist al){

        //posl:從句子中的當前位置查找最大交集字段

        //ssen:進行句子分詞

        //al:分詞使用到的分詞知識庫

        int pso2=pos1+1

        //找出從pso1開始的最大匹配}

        1.3" 中間語言生成技術

        1.3.1" 生成查詢目標

        結合目標短語的特征,可以將查詢目標分成4種類型,即屬性目標、實體默認目標、全值目標和聚集目標。這里以屬性目標為例,簡要分析其處理流程。

        屬性目標的結構:目標短語=P(屬性)。由于屬性目標在數據庫中對應的實體數量是不同的,可能是一個,也可能是多個,可借助于實體數組來消除歧義[2]。原理是從實體數組中按照順序取出實體,并判斷該實體的所有屬性與目標短語的屬性有無交集,實體的提取與交集驗證流程如圖2所示。

        例如需要查詢的語句為“顯示香蕉的單價。”目標短語=單價(P),參考數據庫表知識庫可知屬性“單價”對應的表只有“產品”,故查詢目標=產品.單價,將查詢目標加入查詢目標數組即可。如果需要查詢的語句為“顯示購物超市的電話。”目標短語=電話(P),這時數據庫表知識庫中屬性“電話”對應的表有“供應商”和“訂單”,根據上文分析需要使用實體數組來排除歧義?!百徫锍小睂膶傩?“供應商名稱”,實體=“供應商”。把條件短語中的實體“供應商”加入實體數組。從實體數組中取出實體后,獲取屬性allp,判斷allp與“電話”之間有無交集。如果有,則確定“電話”對應的實體為“供應商”,將“查詢目標=供應商.電話”加入查詢目標數組。

        1.3.2" 生成查詢條件

        條件段是查詢語句的重要組成部分,通常將查詢語句中除了查詢目標、查詢動詞以外的其他部分統(tǒng)稱為條件段。從構成上看,條件段包括一個分組段,以及若干條件語句。在自然語言理解技術中,常見的查詢條件有2類,分別是值條件、聚集條件[3]。值條件的結構:條件短語=V,查詢條件為數據庫某一屬性的值。例如,條件短語為“找出香蕉的單價。”這里的“香蕉”就是“產品名稱”這個屬性的值,故屬于值條件。同樣的,某個屬性的值也可能包含若干個,在實際分析中必須要排除歧義。屬性值條件的分析流程如圖3所示。

        仍然以語句“找出香蕉的單價”為例,按照圖3所示流程首先要通過檢索分詞知識庫的方式,確定“香蕉”的屬性為“產品名稱”,確定屬性后再通過數據庫表知識庫確定“香蕉”對應的實體,分別有“產品”和“銷售商”2種。為了進一步驗證該實體到底屬于哪種類型,引入了實體數組的查詢條件作為輔助判斷的依據。結果顯示,查詢條件“單價”對應的實體為“產品”。這樣就能確定“香蕉”的實體為“產品”,將條件“產品.產品名稱=香蕉”,以及實體和條件類型加入到查詢條件數組中,完成本次屬性值條件分析。

        聚集條件的結構:條件短語=PE。查詢結果以聚集函數的形式表示,以例句“查找單價最高的產品?!睘槔?,“單價最高”就是一個聚集函數。其實現(xiàn)方式:選定條件短語后,利用分詞知識庫尋找P對應的實體E;如果兩者為“一對一”關系,則直接將P、E加入到查詢條件數組中;如果兩者為“一對多”關系,則使用實體數組消除歧義,程序為

        where E.P

        in(select fun(E.P)

        from E)

        1.3.3" 中間語言

        中間語言(MQL)是自然漢語轉化成SQL語句的中間過渡形式,本文在設計數據庫查詢系統(tǒng)時,主要基于2個標準選擇中間語言:其一是中間語言能準確、完整地表達漢語句子的語義;其二是中間語言易于轉化為SQL語句。本文所用中間語言的核心部分為各種類型的數組,例如分詞數組、實體數組、查詢條件數組等。

        在中文語句經過自動分詞處理后,系統(tǒng)自動剔除分詞中無法識別的內容,將其他的部分存儲到句子分詞數組中,數組中的每個詞都占據著一個獨立的節(jié)點,數據結構見表1。

        實體數組本質上是一個由實體構成的數組隊列,由2部分構成:其一是產生句子分詞數組時,能夠直接從查詢語句中提取出來的實體;其二是在分析查詢條件屬性時,分析出來的實體[4]。實體數組的數據結構相對來說比較簡單,通常用char entity[]表示實體名,用char defaultp[]表示默認屬性名。除此之外,像查詢目標數組、查詢條件數組及分組數組等,也都有相應的數據結構,不再一一贅述。

        2" 基于自然語言理解技術的數據庫查詢系統(tǒng)功能驗證

        2.1" 軟件功能設計

        本文使用Jbuilder10開發(fā)工具和Java編程語言開發(fā)了基于自然語言的數據庫查詢系統(tǒng)。用戶在登錄該系統(tǒng)后,可以在文本輸入界面輸入中文文本,由系統(tǒng)基于自然語言理解技術對輸入文本進行分析,并將查詢結果轉換成標準的MQL查詢語句,在系統(tǒng)的人機交互界面上顯示[5]。為了驗證系統(tǒng)功能的實現(xiàn)情況,本次實驗中挑選了2個例句。

        例句1:找出家家悅的電話。

        例句2:找出價格高于面粉并且供應商城市為河南的產品、價格和庫存量。

        2.2" 系統(tǒng)實驗結果

        對于例句1,系統(tǒng)對該語句進行自動分詞處理后,得到結果“找出(S)家家悅(V)的(V)電話(P)”。從數據庫表知識庫中匹配出目標短語“電話(P)”和條件短語“家家悅(V)”。同時,該語句中的查詢目標是“電話”,對應的目標實體是“供應商”,由此可得查詢條件為“供應商名稱=家家悅”,條件實體=供應商。查詢語句為

        sllect 供應商.電話

        from 供應商

        where 供應商.供應商名稱=家家悅

        在系統(tǒng)的查詢界面上,顯示查詢到的所有電話號碼。

        對于例句2,經過自動分詞和生成中間語言,能夠識別出查詢目標有3個,即產品名稱、單價、庫存量。該語句中的目標實體為“產品”,查詢條件有2條。

        1)產品.單價gt;面粉,根據查詢結果此處的面粉單價為7.5(元)。

        2)供應商.省份=河南。

        查詢結果以表格形式顯示,見表2。

        在系統(tǒng)功能驗證中,共挑選了116條中文語句,該系統(tǒng)可以正確分詞的有107條,正確率為92.2%。觀察發(fā)現(xiàn),該系統(tǒng)對普通查詢語句的分詞效果,以及對交集型歧義字段的處理結果較好。在MQL語句查詢中,查詢到的語句數量為93條,正確率為80.2%。這時因為該系統(tǒng)對常規(guī)的單表查詢、簡單嵌套查詢有很好的適用性,而對于比較復雜的多層嵌套查詢容易出現(xiàn)條件無法識別的情況。從整體上來看,本文設計的數據庫查詢系統(tǒng)基本上能夠滿足大多數語句的查詢需要,達到了設計預期。

        3" 結束語

        為了更好地滿足數據信息的存儲需求,數據庫的容量越來越大,用戶在檢索和查詢數據時需要花費的時間也相應的增加,如何從數據庫中更加快速、準確地提取出用戶需要的信息,成為數據庫設計中必須要考慮的問題。本文基于自然語言理解技術設計的數據庫查詢系統(tǒng),可以做到對查詢語句的自動分詞和歧義消除,并通過提取目標短語、條件短語,以及生成查詢目標、查詢條件等方式,可以快速、精確地找到符合要求的語句,并且在系統(tǒng)界面上直觀呈現(xiàn)。從系統(tǒng)功能的初步驗證來看,該系統(tǒng)對自然語句的分詞準確率和查詢準確率較高,將會顯著優(yōu)化數據庫的使用體驗。

        參考文獻:

        [1] 趙猛,陳珂,壽黎但,等.基于樹狀模型的復雜自然語言查詢轉SQL技術研究[J].軟件學報,2022,33(12):4727-4745.

        [2] 潘璇,徐思涵,蔡祥睿,等.基于深度學習的數據庫自然語言接口綜述[J].計算機研究與發(fā)展,2021,58(9):1925-1950.

        [3] 保海軍.基于機器學習的中文數據庫自然語言檢索系統(tǒng)[J].寧夏師范學院學報,2021,42(10):82-89.

        [4] 袁志祥,任冬冬,洪旭東.結合數據庫結構及內容的問句理解方法研究[J].計算機工程,2021,47(3):71-76,82.

        [5] 張芃捷.基于自然語言處理的期刊新媒體智能編作交互系統(tǒng)研發(fā)與應用[J].中國傳媒科技,2021(12):146-148.

        日本精品啪啪一区二区| 少妇饥渴偷公乱a级无码| 香蕉久久一区二区不卡无毒影院| 国产成人精品999视频| 亚洲第一av导航av尤物| 永久无码在线观看| 日本最新一区二区三区免费看| 女同亚洲一区二区三区精品久久| 亚洲最大中文字幕熟女| 国产精品a免费一区久久电影| 久久99精品国产99久久6尤物| 甲状腺囊实性结节三级| 日本二区三区视频在线观看| 色久悠悠婷婷综合在线| 欧美丰满熟妇bbbbbb| 国产乱子伦在线观看| 男人深夜影院无码观看| 日本国产精品高清在线| av在线观看一区二区三区| 在线 | 一区二区三区四区| 亚洲精品久久久久高潮| 日本啪啪一区二区三区| 成人做爰黄片视频蘑菇视频| 日日摸夜夜添夜夜添高潮喷水| 天天弄天天模| 亚洲精品美女自拍偷拍| 日本免费三片在线播放| av中文字幕一区不卡| 欧美乱妇高清无乱码在线观看| 久久人妻公开中文字幕| 亚洲一区二区三区99区| 中美日韩在线一区黄色大片| 亚洲中文字幕无码天然素人在线| 超碰97人人做人人爱少妇| 爱v天堂在线观看| 久久一区二区av毛片国产| 国产国语亲子伦亲子| 午夜不卡久久精品无码免费| 天天摸天天做天天爽天天舒服| 在线观看一区二区蜜桃| 麻豆蜜桃av蜜臀av色欲av|