亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        陶瓷與教育領(lǐng)域的知識(shí)圖譜構(gòu)建和智能問答應(yīng)用研究

        2023-10-12 06:35:12彭駿捷宋光華章義來
        關(guān)鍵詞:智能用戶系統(tǒng)

        聶 宇,黃 娜,李 超,彭駿捷,宋光華,章義來

        (1.景德鎮(zhèn)陶瓷大學(xué) 信息工程學(xué)院,江西 景德鎮(zhèn) 333403;2.廣東松發(fā)陶瓷股份有限公司,廣東 潮州 521031;3.景德鎮(zhèn)藝術(shù)職業(yè)大學(xué),江西 景德鎮(zhèn) 333000)

        0 引言

        信息技術(shù)的高速發(fā)展,促進(jìn)了智能問答系統(tǒng)在各領(lǐng)域的運(yùn)用。智能問答系統(tǒng)分為兩類,一類是專門性問答,另一類是一般性問答。通常情況下,用戶能夠自由提問并且獲得他們理想的解答。專門領(lǐng)域的問答系統(tǒng),對(duì)于用戶的提問只能做淺層分析回復(fù),有時(shí)甚至?xí)霈F(xiàn)回答的內(nèi)容與問題不相關(guān)的情況。如果用戶在其他方面提出了疑問,系統(tǒng)就無法解答。

        當(dāng)前,人們大多習(xí)慣通過搜索引擎獲取知識(shí),但是傳統(tǒng)關(guān)鍵字組合匹配技術(shù)并不能準(zhǔn)確獲得用戶需要的結(jié)果。而智能問答系統(tǒng)是基于大量語料數(shù)據(jù),經(jīng)過自然語言處理和數(shù)學(xué)模型計(jì)算后,能夠和人類進(jìn)行對(duì)話的綜合性知識(shí)系統(tǒng),可以在理解用戶語義的情況下,獲取用戶所需的準(zhǔn)確數(shù)據(jù)。

        在陶瓷與教育領(lǐng)域,通過大數(shù)據(jù)技術(shù)的不斷深入應(yīng)用,已經(jīng)匯聚了大量和陶瓷教育相關(guān)的數(shù)據(jù)。但是這類數(shù)據(jù)在表達(dá)、組織管理及存儲(chǔ)方法等方面并不完全一致,因?yàn)槿鄙俳y(tǒng)一的數(shù)據(jù)處理標(biāo)準(zhǔn),所以很難充分反應(yīng)每一種數(shù)據(jù)之間的聯(lián)系。

        隨著互聯(lián)網(wǎng)中智能服務(wù)的不斷迭代升級(jí),知識(shí)圖譜已經(jīng)被廣泛地應(yīng)用在智能問答、智能搜索和個(gè)性化推薦等領(lǐng)域中[1,2]。以知識(shí)圖譜為基礎(chǔ)的智能問答研究,從分析方法上來看目前主要可以分為兩種類型:一是以語義為基礎(chǔ)的方法,二是以檢索為基礎(chǔ)的方法。以語義為基礎(chǔ)的方法主要是將問題轉(zhuǎn)化成更有邏輯的形式之后再使用結(jié)構(gòu)化的查詢語句在知識(shí)圖譜中獲取到合適的答案。具有邏輯形式注釋的語料庫被Zettlemoyer[3]與Kwiatkowski[4]采用并且進(jìn)行監(jiān)督訓(xùn)練。Liang等[5]提出將正則表達(dá)式替換為基于依賴組合語義的結(jié)構(gòu)化查詢。后者通常更側(cè)重于有效地提取題目或者答案的特征和正確答案的順序。針對(duì)這一問題,張克亮等[6]以本體三元組(BET)為中心設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向航空領(lǐng)域的問答系統(tǒng)(AMS),在實(shí)際的應(yīng)用中,該系統(tǒng)均有良好的表現(xiàn),取得了預(yù)期的效果。Yao等人在文獻(xiàn)[7]中利用依賴性分析刻畫問題的問句得到了關(guān)系圖,并且定位到了一定范圍內(nèi)的關(guān)系和實(shí)體。通過比較所得主體圖和問句生成的圖,對(duì)所有節(jié)點(diǎn)沿著圖進(jìn)行排序和運(yùn)算,獲得正確答案。

        本文將從陶瓷與教育領(lǐng)域的數(shù)據(jù)入手,通過構(gòu)建知識(shí)圖譜開展研究,以知識(shí)圖譜技術(shù)為陶瓷與教育領(lǐng)域的智能問答應(yīng)用提供有效的數(shù)據(jù)支撐。

        1 語料庫和知識(shí)圖譜構(gòu)建

        目前我國(guó)教育行業(yè)數(shù)據(jù)十分豐富,有較多的成熟數(shù)據(jù)集可用,因此,可以快速便捷地導(dǎo)入Neo4j圖數(shù)據(jù)庫形成知識(shí)圖譜,實(shí)體與實(shí)體之間的關(guān)系可以借助知識(shí)圖譜直觀展現(xiàn)出來。

        然而,陶瓷類的數(shù)據(jù)沒有成熟可用的數(shù)據(jù)集,因此,本實(shí)驗(yàn)將通過爬蟲技術(shù)在互聯(lián)網(wǎng)中獲取陶瓷類相關(guān)數(shù)據(jù),以統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)格式構(gòu)建陶瓷類數(shù)據(jù)集,并最終用于陶瓷領(lǐng)域的知識(shí)圖譜的研究和建設(shè)。

        1.1 數(shù)據(jù)來源

        本研究采用多種搜索引擎(包括“百度”“必應(yīng)”“搜狗搜索”),經(jīng)過對(duì)多種搜索結(jié)果的比較,最后確定國(guó)學(xué)詩詞為教育類知識(shí)圖譜數(shù)據(jù)源。

        陶瓷類數(shù)據(jù),則選取“了了亭”網(wǎng)站的數(shù)據(jù)為陶瓷類語料庫數(shù)據(jù)源?!傲肆送ぁ笔蔷暗骆?zhèn)陶瓷藝術(shù)專業(yè)網(wǎng)站,在當(dāng)代陶瓷收藏界享有盛名。本文所建設(shè)的陶瓷類語料庫包括“陶瓷工藝”“陶瓷美術(shù)”“陶瓷歷史”等內(nèi)容。

        1.2 數(shù)據(jù)獲取

        本文主要采用爬蟲技術(shù)對(duì)“了了亭”網(wǎng)站的“陶瓷工藝”“陶瓷美術(shù)”“陶瓷歷史”三個(gè)專欄進(jìn)行定向數(shù)據(jù)獲取,并將數(shù)據(jù)存儲(chǔ)成不同的CSV文件以便后續(xù)構(gòu)建不同語料庫時(shí)使用。

        在對(duì)頁面進(jìn)行解析和數(shù)據(jù)提取之后,對(duì)所獲取的數(shù)據(jù)進(jìn)行格式化處理。表1顯示從“了了亭”網(wǎng)站上得到的一些“陶瓷歷史”資料情況,這些資料全面而詳實(shí),為陶瓷語料庫建設(shè)提供了有力支撐。

        1.3 數(shù)據(jù)清洗

        本文爬蟲所獲取到的陶瓷類數(shù)據(jù),還包含有一些與問答不相關(guān)的語氣詞和形容詞等,這些內(nèi)容對(duì)問答系統(tǒng)數(shù)據(jù)邏輯和答案生成有不利影響。為了確保項(xiàng)目爬取到的數(shù)據(jù)信息是比較客觀且高質(zhì)量的,就需要通過編程進(jìn)一步進(jìn)行數(shù)據(jù)清洗,以剔除掉那些效果不佳甚至是起到消極效果的詞,減少此問答系統(tǒng)中不穩(wěn)定的部分,主要處理的非法字符示例如表2所示。

        表2 非法字符處理示例

        1.4 圖譜構(gòu)建

        在完成數(shù)據(jù)獲取和語料庫建立后,進(jìn)一步開始構(gòu)建知識(shí)圖譜。

        本文獲取到的國(guó)學(xué)詩詞教育類數(shù)據(jù)量比較大,通過對(duì)教育類數(shù)據(jù)的分析后發(fā)現(xiàn),得到的數(shù)據(jù)大致分為詩歌、作者、簡(jiǎn)介、內(nèi)容以及其他實(shí)體類型。在完成實(shí)體分析后,進(jìn)一步完成實(shí)體間的關(guān)系的填充,形成可用于圖譜構(gòu)建的三元組數(shù)據(jù)。該系統(tǒng)所構(gòu)造的三元組數(shù)據(jù)量大,共包含43007種實(shí)體和52802種關(guān)系,為知識(shí)圖譜的構(gòu)建提供了豐富的數(shù)據(jù)。

        本文采用Neo4j圖形數(shù)據(jù)庫來管理三元組數(shù)據(jù),當(dāng)數(shù)據(jù)保存到Neo4j數(shù)據(jù)庫中時(shí)可通過自身端口對(duì)數(shù)據(jù)執(zhí)行增、刪、改、查等操作。如表3所示,統(tǒng)計(jì)了部分知識(shí)圖譜的數(shù)據(jù)量。

        表3 知識(shí)圖譜數(shù)據(jù)量

        2 智能問答系統(tǒng)構(gòu)建

        2.1 BiLSTM-CRF命名實(shí)體識(shí)別算法

        (1)BiLSTM模塊

        LSTM(Long-Short Term Memory),也就是長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),它是RNN中的一種變體,能夠處理RNN中出現(xiàn)的梯度爆炸現(xiàn)象,非常適合時(shí)序數(shù)據(jù)建模。在LSTM中加入三種結(jié)構(gòu),分別為:記憶門、遺忘門和輸出門;其中記憶門確定信息是否被儲(chǔ)存,遺忘門確定信息是否忘記,而輸出門則用來判斷當(dāng)前的狀態(tài)。

        因?yàn)長(zhǎng)STM模型具有單向結(jié)構(gòu),它對(duì)句子建模過程中不能編碼從右側(cè)到左側(cè)或從后面到前面的信息,所以對(duì)上下文語境及語義信息處理并不理想。所以我們采用了BiLSTM(Bi-directional Long Short Term Memory) 雙向長(zhǎng)短期記憶網(wǎng)絡(luò),它能夠較好地捕捉雙向依賴關(guān)系,并通過處理每一個(gè)詞序列采用前向LSTM和后向LSTM,使每一個(gè)時(shí)刻特征具有前向依賴關(guān)系和后向依賴關(guān)系。

        (2)CRF模塊

        CRF(Conditional Random Field)是條件隨機(jī)場(chǎng)的英文縮寫,它可以通過相鄰標(biāo)簽之間的關(guān)系得到最佳預(yù)測(cè)序列[8],就BiLSTM-CRF算法模型來說,CRF的功能就是通過BiLSTM預(yù)測(cè)輸出序列使得目標(biāo)函數(shù)達(dá)到最優(yōu)化。

        在本論文所做BIO標(biāo)注時(shí),BiLSTM輸出序列對(duì)每一個(gè)字都預(yù)測(cè)最大概率標(biāo)簽并獲得非歸一化概率分布,然而允許存在單字詞概率最優(yōu)和全句概率偏差等問題,利用CRF對(duì)其約束之后就可以獲得全句最優(yōu)標(biāo)簽預(yù)測(cè),特征轉(zhuǎn)移概率是CRF所學(xué)習(xí)的。

        對(duì)輸入序列為X=(X1,X2...Xn),預(yù)測(cè)輸出序列為Y=(Y1,Y2...Yn)的分?jǐn)?shù)可表示為公式1,即轉(zhuǎn)移概率與狀態(tài)概率相加:

        此處用A來代表轉(zhuǎn)移矩陣,P來代表BiLSTM的輸出得分矩陣。標(biāo)簽序列Y的概率值通過softmax得到:

        CRF網(wǎng)絡(luò)各節(jié)點(diǎn)分別表示預(yù)測(cè)值,根據(jù)BiLSTM所輸出預(yù)測(cè)序列,搜索網(wǎng)絡(luò)中概率最大路徑,對(duì)輸出命名實(shí)體進(jìn)行標(biāo)簽標(biāo)記識(shí)別,完成命名實(shí)體識(shí)別。因此訓(xùn)練以最大化概率為目的P(y|X),可以用如下所示的對(duì)數(shù)似然來達(dá)到。

        通過維比特算法進(jìn)行預(yù)測(cè)解碼獲得解的最優(yōu)路徑:

        y*=argmaxscore(x,y′)

        (4)

        2.2 TextCNN關(guān)系識(shí)別算法

        在命名實(shí)體識(shí)別工作結(jié)束后,關(guān)系識(shí)別是對(duì)各實(shí)體之間關(guān)聯(lián)的關(guān)系屬性和知識(shí)圖譜上相應(yīng)關(guān)系屬性的匹配識(shí)別操作。比如,問一句:“李白有什么詩歌?”確定實(shí)體標(biāo)簽“李白”后,從知識(shí)圖譜上查找實(shí)體的關(guān)系屬性為“介紹”“詩”等。本論文中把TextCNN模型用到關(guān)系識(shí)別中,不同于RNN和其他序列模型,TextCNN具有簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu),但是引入已訓(xùn)練的詞向量仍然可以取得非常理想的結(jié)果,并且具有非??斓挠?xùn)練速度。首先提取語句上下文特征,然后送入TextCNN網(wǎng)絡(luò)中做卷積運(yùn)算,得到問句序列與候選關(guān)系屬性兩者的語義向量[9],再做相似度計(jì)算可得關(guān)系并識(shí)別結(jié)果。TextCNN的構(gòu)造比較簡(jiǎn)單,訓(xùn)練量較快。如下所示為TextCNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

        圖1 TextCNN網(wǎng)絡(luò)結(jié)構(gòu)圖

        上圖輸入為使用預(yù)訓(xùn)練詞向量(Word2Vector或glove)法獲得的Embeddinglayer。每個(gè)詞向量采用無監(jiān)督方式進(jìn)行訓(xùn)練。

        以往提及CNN,一般都被視作CV領(lǐng)域并應(yīng)用于計(jì)算機(jī)視覺方向上的作品,但Yoon Kim對(duì)CNN輸入層進(jìn)行了部分變形進(jìn)而提出文本分類模型TextCNN。

        2.3 架構(gòu)設(shè)計(jì)

        智能問答的系統(tǒng)架構(gòu)如圖2所示,系統(tǒng)整體自頂向下依次為應(yīng)用層、邏輯層以及數(shù)據(jù)層。

        圖2 系統(tǒng)架構(gòu)設(shè)計(jì)

        (1)數(shù)據(jù)層

        數(shù)據(jù)層為整個(gè)智能問答系統(tǒng)提供了數(shù)據(jù)支撐[10],其主要由以下幾個(gè)步驟構(gòu)建:首先利用爬蟲獲取數(shù)據(jù),隨后通過命名體識(shí)別和知識(shí)抽取完成教育領(lǐng)域知識(shí)圖譜的構(gòu)建并保存在Neo4j圖數(shù)據(jù)庫中,其中陶瓷領(lǐng)域語料庫采用TXT文件保存為實(shí)體詞典,并通過命名實(shí)體識(shí)別進(jìn)行問句中的實(shí)體關(guān)系標(biāo)識(shí)任務(wù)。

        (2)邏輯層

        邏輯層以知識(shí)圖譜為主線,結(jié)合問答流程相關(guān)算法向應(yīng)用層提供對(duì)外服務(wù)的API接口。當(dāng)系統(tǒng)獲得前端發(fā)送過來的問題之后,需要先解析問題的語義,當(dāng)理解了用戶的意圖與目標(biāo)之后,再?gòu)闹R(shí)圖譜上檢索出相應(yīng)的回答,然后將其回傳至用戶。這一層的主要API接口簡(jiǎn)介:

        (A)自然語言自動(dòng)問答

        功能說明:在獲取到用戶的提問數(shù)據(jù)后,進(jìn)行問句分析,之后查詢Neo4j數(shù)據(jù)庫內(nèi)容,最后返回答案。假如未獲得回答,返回預(yù)設(shè)的回復(fù)模板。

        (B)問句分析

        功能說明:在獲取到用戶的提問數(shù)據(jù)后,先識(shí)別實(shí)體,再獲取所指向的屬性或者關(guān)系,最后基于實(shí)體以及關(guān)系/屬性構(gòu)建對(duì)應(yīng)的Cypher詢問語句并得到回答。

        (3)應(yīng)用層

        主要是前端Web頁面,這是智能問答系統(tǒng)的入口,其中功能模塊為問答服務(wù)、語音播報(bào)、默認(rèn)提問。

        2.4 智能問答系統(tǒng)展示

        本文搭建了一個(gè)簡(jiǎn)易的智能問答系統(tǒng)頁面,后端使用Python 3.7 +Flask開發(fā),前端采用VueJS 3開發(fā),基于MySQL 8數(shù)據(jù)庫,在Ubuntu 22.04環(huán)境下部署構(gòu)建。通過對(duì)話界面中的輸入框,可以完成提問操作。系統(tǒng)在找到用戶提問的答案后,會(huì)直接回傳答案并顯示在頁面上,而且因?yàn)榕c語音合成模塊連接,所以該系統(tǒng)會(huì)以文字與語音兩種形式來呈現(xiàn)答案。圖3所示是一個(gè)問答的例子,例如輸入一個(gè)問句“康熙彩的意思是什么?”網(wǎng)頁返回的回答是“古彩,硬彩”,從而讓用戶獲得了一個(gè)理想的回答。

        圖3 問答系統(tǒng)示例

        3 結(jié)論

        智能問答系統(tǒng)提供了高效、準(zhǔn)確的知識(shí)獲取解決方案。相比于傳統(tǒng)的搜索引擎作為知識(shí)獲取載體,顯然更貼近人類的溝通方式,這給大家獲取信息提供了新的便利。

        (1)本文根據(jù)筆者的創(chuàng)新性想法,對(duì)基于知識(shí)圖譜的智能問答系統(tǒng)有關(guān)技術(shù)與理論展開研究。

        (2)本文對(duì)基于深度學(xué)習(xí)的實(shí)體識(shí)別進(jìn)行研究,并結(jié)合BiLSTM-CRF模型設(shè)計(jì)實(shí)體識(shí)別算法。本研究采用BiLSTM-CRF充分挖掘上下文信息并對(duì)問句中選實(shí)體進(jìn)行定位。

        (3)本文對(duì)基于TextCNN關(guān)系識(shí)別技術(shù)進(jìn)行研究,結(jié)合余弦相似度進(jìn)行計(jì)算,選擇出合適的候選屬性。

        (4)結(jié)合本文的有關(guān)算法模型在知識(shí)圖譜智能問答系統(tǒng)的基礎(chǔ)上進(jìn)行設(shè)計(jì)與實(shí)現(xiàn),實(shí)際使用情況表明,以知識(shí)圖譜為載體的智能問答系統(tǒng)能夠滿足用戶對(duì)信息獲取的要求,本研究獲得了理想的結(jié)果。

        智能問答技術(shù)涉及信息檢索、自然語言處理等多門學(xué)科,屬于綜合研究范疇。但以知識(shí)圖譜為基礎(chǔ)的智能問答系統(tǒng)尚處初步研究階段,許多方面有待完善。今后還將繼續(xù)拓展知識(shí)圖譜的內(nèi)容,不斷優(yōu)化智能對(duì)話系統(tǒng),并通過歷史數(shù)據(jù)分析,提升問答系統(tǒng)綜合性能。

        猜你喜歡
        智能用戶系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機(jī)系統(tǒng)
        ZC系列無人機(jī)遙感系統(tǒng)
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        高清av一区二区三区在线| 国产 字幕 制服 中文 在线| 国产性一交一乱一伦一色一情| 国产成人综合久久久久久| 风韵丰满妇啪啪区老老熟女杏吧| 日本一区二区免费高清| 久人人爽人人爽人人片av| 四川丰满少妇被弄到高潮| 欧美色图50p| 日韩精品视频av在线观看| 性高朝久久久久久久3小时| 亚洲色无码国产精品网站可下载| 亚洲熟妇无码久久精品疯| 亚洲视频一区二区蜜桃| 性av一区二区三区免费| 中文字幕乱码亚洲精品一区| 成年人黄视频大全| 亚洲天堂av社区久久 | 久久综网色亚洲美女亚洲av| 国产一区二区亚洲一区| 久久精品99国产精品日本| 国精品无码一区二区三区在线| 国产美女一级做a爱视频| 人妖与人妖免费黄色片| 午夜dv内射一区二区| 欧美日韩国产精品自在自线| 亚洲男人天堂2019| 综合无码综合网站| 亚洲中文字幕高清在线视频一区| 无码爽视频| 亚洲一区精品无码色成人| 啊v在线视频| 天堂免费av在线播放| 极品少妇小泬50pthepon| 国产亚洲欧美成人久久片| 丰满人妻被猛烈进入中文字幕护士| 插上翅膀插上科学的翅膀飞| 成人白浆超碰人人人人| 成人国产午夜在线视频| 男女性搞视频网站免费| 久久精品国产亚洲av久五月天|