亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

意圖識(shí)別在圖書館應(yīng)用的研究和實(shí)現(xiàn)

2022-06-21 02:09:56孫萍

內(nèi)蒙古科技與經(jīng)濟(jì) 2022年8期

孫萍

(平頂山學(xué)院圖書館，河南平頂山 467000)

OPAC檢索和FAQ在線服務(wù)是幫助讀者了解圖書館、利用圖書館資源的關(guān)鍵服務(wù)，長期以來這兩項(xiàng)服務(wù)相互獨(dú)立，尤其是FAQ服務(wù)，只能提供最簡單的目錄檢索功能。隨著NLP(Natural Language Processing)技術(shù)的發(fā)展，人們研究出了基于詞向量近似度計(jì)算的算法模型，F(xiàn)AQ開始向具有人機(jī)交互對(duì)話功能的智能客服演變，并在極少數(shù)圖書館得到了應(yīng)用。

如何將OPAC和智能客服結(jié)合在一起，使之能準(zhǔn)確識(shí)別讀者的意圖并執(zhí)行相應(yīng)的操作，比如讀者提問：“圖書館幾點(diǎn)開門”，或者“圖書館有沒有深度學(xué)習(xí)的書”。系統(tǒng)能準(zhǔn)確識(shí)別前者為FAQ咨詢，返回相應(yīng)的幫助信息，而后者為資料檢索需求，返回OPAC檢索結(jié)果。解決這個(gè)問題將有助于為讀者提供更加友好智能的服務(wù)，并有助于整合圖書館數(shù)據(jù)，提供簡潔單一的服務(wù)入口。

1 意圖識(shí)別的發(fā)展以及在圖書館的應(yīng)用研究

1.1 意圖識(shí)別的發(fā)展

意圖識(shí)別的研究起源于搜索引擎，搜索引擎必須能夠準(zhǔn)確地理解用戶的搜索意圖。隨著蘋果公司人機(jī)對(duì)話系統(tǒng)Siri的推出，為人們指明了人機(jī)對(duì)話的應(yīng)用前景。如今，各種人機(jī)交互系統(tǒng)如雨后春筍一樣，Google Now、微軟小娜、小米小愛等等，已經(jīng)深入人們的生活。而所有這些系統(tǒng)的核心技術(shù)之一，就是意圖識(shí)別，其準(zhǔn)確性決定著人機(jī)交互的質(zhì)量和用戶體驗(yàn)。

1.2 意圖識(shí)別在圖書館的應(yīng)用研究現(xiàn)狀

雖然以深度學(xué)習(xí)和自然語言處理為代表的人工智能研究近幾年得到了較大的進(jìn)展，人工智能技術(shù)在很多行業(yè)得到了廣泛的應(yīng)用，出現(xiàn)了以自動(dòng)駕駛、智能助理為代表的典型技術(shù)應(yīng)用，但是在目前的圖書館界，人工智能的應(yīng)用幾乎還是空白，圖書館的辦公系統(tǒng)經(jīng)過這么多年的迭代，本質(zhì)上還是針對(duì)傳統(tǒng)業(yè)務(wù)模式、基于關(guān)系數(shù)據(jù)庫開發(fā)的MIS應(yīng)用，針對(duì)AI在圖書館應(yīng)用的研究，也少之又少。筆者以CNKI數(shù)據(jù)庫為對(duì)象，以“圖書館”“人工智能”“意圖識(shí)別”作為主題詞，統(tǒng)計(jì)了近十年圖書館AI研究論文和其他研究論文之間的數(shù)據(jù)分布。

從表1可以看出，2011年—2020年，以圖書館專業(yè)人工智能技術(shù)為研究對(duì)象的論文數(shù)量在整體論文中占比很少，在2019年之前，論文數(shù)不足百篇，占比不到0.5%，從2019年開始迎來爆發(fā)性增長，達(dá)到533篇，占比1.6%。2020年雖然數(shù)量略有下降，為513篇，但是總體占比達(dá)到2%。

表1 圖書館研究論文和圖書館人工智能研究論文數(shù)量統(tǒng)計(jì)

在這1 500多篇關(guān)于圖書館人工智能研究的論文當(dāng)中，涉及意圖識(shí)別地到目前為止只有3篇[1-3]，表明這項(xiàng)極有應(yīng)用價(jià)值的研究目前還處于萌芽階段。

1.3 圖書館意圖識(shí)別研究的難點(diǎn)

1.3.1 自然語言的靈活性和模糊

自然語言的靈活性和模糊性一直是阻礙意圖識(shí)別的一大障礙，有的語言具有明確的意圖，比如“我明天早上8點(diǎn)從平頂山開車去北京”，這句話里面的行為主體、時(shí)間、出發(fā)地、目的地和出行方式都很明確，這句話如果變成“明天早上8點(diǎn)開車去北京”，雖然省略了行為主體和出發(fā)地，但是人們也可以理解，計(jì)算機(jī)通過語義槽填充算法，可以還原這個(gè)句子默認(rèn)的行為主體是“我”，出發(fā)地是“我”當(dāng)前所在的“平頂山”。但是并不是所有的自然語言都可以通過語義槽填充方式來獲取其意圖，很多句子的意圖不明顯甚至是指向其他互不相干的意圖。再比如圖書館的讀者在人機(jī)交互界面的提問是“我的書丟了”。其真實(shí)語義是尋求幫助，計(jì)算機(jī)從單純的字面分析很難得出這樣的結(jié)論。再比如“圖書館有沒有計(jì)算機(jī)類的書”和“圖書館有沒有老人與海這本書”，這是兩個(gè)極為相似的語句，即便是人工識(shí)別其意圖，也可能將其意圖識(shí)別為尋求FAQ幫助，但是實(shí)際上，前者包含的信息過于寬泛，可以認(rèn)為其意圖是尋求幫助，而后者信息則較為具體，可以認(rèn)為其意圖是OPAC數(shù)據(jù)檢索。

1.3.2 評(píng)價(jià)標(biāo)準(zhǔn)主觀

很多時(shí)候，同一句話，不同的人會(huì)有不同的理解，就像我們經(jīng)常所說的，一千個(gè)人眼中有一千個(gè)哈姆雷特，不同的算法、甚至是不同的數(shù)據(jù)標(biāo)記方法都會(huì)產(chǎn)生不同的識(shí)別結(jié)果，所謂“言者無心，聽者有意”其實(shí)也反映了這個(gè)問題。因此，評(píng)價(jià)的主觀性決定了意圖識(shí)別的準(zhǔn)確率不可能達(dá)到100%的準(zhǔn)確性。

1.3.3 樣本數(shù)據(jù)量不足

對(duì)于大部分部門來說，其業(yè)務(wù)較為簡單，因此可用于研究的業(yè)務(wù)數(shù)據(jù)也很少。比如對(duì)于高校圖書館來說，其涉及的業(yè)務(wù)范圍基本上和“借書證”“書籍借還”“規(guī)章制度”“資源使用”等內(nèi)容相關(guān)，即便是研究人員窮舉讀者所有可能遇到的問題，所生成的FAQ數(shù)據(jù)量還是不足以作為研究對(duì)象，這也是限制意圖識(shí)別研究的一個(gè)原因。

1.4 利用深度學(xué)習(xí)判斷意圖的可行性

研究和實(shí)踐表明，經(jīng)驗(yàn)知識(shí)有助于我們對(duì)未知情況的判定，比如下棋，每一步對(duì)弈就是建立在已有經(jīng)驗(yàn)知識(shí)基礎(chǔ)上做出的新的判斷。又比如一個(gè)非圖書館專業(yè)的研究者，對(duì)于諸如“圖書館幾點(diǎn)開門”這樣的問題，仍然可以準(zhǔn)確判斷出其意圖是一個(gè)服務(wù)咨詢性質(zhì)的問題，而非一個(gè)圖書檢索需求。

而有監(jiān)督計(jì)算機(jī)深度學(xué)習(xí)正是基于這個(gè)原理：機(jī)器通過監(jiān)督性學(xué)習(xí)，從而在大量數(shù)據(jù)訓(xùn)練的基礎(chǔ)上，具備一定的分類(判斷)能力，比如基于神經(jīng)網(wǎng)絡(luò)的情感分析系統(tǒng)[4-6]，經(jīng)過學(xué)習(xí)后可以準(zhǔn)確預(yù)測文章的情感。

通過分析，發(fā)現(xiàn)基于神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的意圖識(shí)別和情感分析都是在已有知識(shí)(語料)的基礎(chǔ)上，判斷出有限結(jié)果：即分類的過程，二者具有一定的相似性。因此利用深度學(xué)習(xí)進(jìn)行意圖識(shí)別是可行的。

2 基于深度學(xué)習(xí)的意圖識(shí)別研究與實(shí)踐

2.1 影響意圖識(shí)別算法的因素

2.1.1 模型的影響

不同結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)有其不同的特征和擅長處理的數(shù)據(jù)對(duì)象，比如卷積神經(jīng)網(wǎng)絡(luò)更適合處理數(shù)據(jù)量較大的圖像數(shù)據(jù)，常用于圖像數(shù)據(jù)的識(shí)別和分類；循環(huán)神經(jīng)網(wǎng)絡(luò)適合處理有序數(shù)據(jù)，比如一段文字、一段音樂，用于學(xué)習(xí)序列模型，并預(yù)測輸出的序列。

神經(jīng)網(wǎng)絡(luò)的深度對(duì)識(shí)別模型的結(jié)果也有一定的影響，一般來說較深的模型能夠更好地?cái)M合訓(xùn)練數(shù)據(jù)并得到較高的測試結(jié)果，但是也會(huì)顯著增加系統(tǒng)的時(shí)間復(fù)雜度和空間復(fù)雜度，另外，誤差在反向傳遞的過程中，超過三層后的節(jié)點(diǎn)，誤差對(duì)其權(quán)重的影響就變得很小。

2.1.2 樣本數(shù)據(jù)的影響

分類樣本數(shù)據(jù)量對(duì)比懸殊是影響識(shí)別的主要因素，對(duì)于本研究來說，用于訓(xùn)練的書目數(shù)據(jù)有35萬多條，而問答類型的數(shù)據(jù)，能搜集到的僅有3萬多條，數(shù)據(jù)數(shù)量對(duì)比懸殊，采用通常的數(shù)據(jù)混合、打亂再訓(xùn)練的方法，雖然仍然可以得到穩(wěn)定的誤差下降：基于樣本數(shù)據(jù)的訓(xùn)練準(zhǔn)確率可以達(dá)到90以上，但是測試數(shù)據(jù)的準(zhǔn)確率卻在30%以下，顯然，這樣的模型不具備任何應(yīng)用價(jià)值。

2.1.3 分詞粒度的影響

分詞粒度的大小通過以下幾個(gè)方面影響意圖的理解：①首先影響語義的識(shí)別，比如“蘇東坡”，如果分詞為“蘇”“東”“坡”，顯然破壞了原有的語義，因此，過小的粒度不僅無助于理解語義，在實(shí)際搜索應(yīng)用中，也會(huì)影響搜索結(jié)果，增加無關(guān)噪音結(jié)果。②影響詞向量的近似度，詞向量的粒度也影響隱藏馬爾可夫模型的統(tǒng)計(jì)計(jì)算結(jié)果。進(jìn)而影響詞向量的近似度。因此，分詞時(shí)候的詞向量粒度應(yīng)合理、科學(xué)，尤其是應(yīng)當(dāng)加強(qiáng)命名實(shí)體數(shù)據(jù)詞袋的建設(shè)。

2.2 各個(gè)因素的優(yōu)化

2.2.1 采用BP網(wǎng)絡(luò)模型

本研究的述模型框架，如圖1所示。

圖1 意圖識(shí)別系統(tǒng)結(jié)構(gòu)框架

從圖1可知，本研究采用BP神經(jīng)網(wǎng)絡(luò)，之所以選用BP神經(jīng)網(wǎng)絡(luò)：①因?yàn)锽P神經(jīng)網(wǎng)絡(luò)具有任意復(fù)雜的模式分類能力和優(yōu)良的多維函數(shù)映射能力，具有廣泛的適用性。②同CNN相比，BP神經(jīng)網(wǎng)絡(luò)沒有卷積和池化層，因此也不會(huì)降低本來就稀疏的文檔向量的維度，不會(huì)引起數(shù)據(jù)特征的丟失。③BP網(wǎng)絡(luò)更具有彈性，層數(shù)以及中間的節(jié)點(diǎn)數(shù)可以根據(jù)問題的規(guī)模設(shè)定。

2.2.2 小批數(shù)據(jù)量對(duì)等的方法

針對(duì)圖書數(shù)據(jù)和問答數(shù)據(jù)數(shù)量對(duì)比懸殊的情況，筆者采用小批量數(shù)據(jù)對(duì)等的方法來解決這個(gè)問題，總體思路為：根據(jù)小批量問答數(shù)據(jù)的條數(shù)，將大批量的書目數(shù)據(jù)分割為數(shù)目大致相等的若干組，分別與小批量問答數(shù)據(jù)亂序混合訓(xùn)練，經(jīng)過驗(yàn)證，該方法優(yōu)于通常的不分批亂序訓(xùn)練方法?；跍y試數(shù)據(jù)的識(shí)別的準(zhǔn)確率達(dá)到98.6%，而基于平頂山學(xué)院圖書館有限FAQ數(shù)據(jù)的實(shí)測準(zhǔn)確率為100%。

2.2.3 分詞、詞向量和文檔向量維度的規(guī)范方法

2.2.3.1 中文分詞的實(shí)現(xiàn)。本模型采用Jieba分詞，最新的Jieba分詞不僅支持利用PaddlePaddle深度學(xué)習(xí)框架分詞，同時(shí)支持傳統(tǒng)的詞袋分詞，利用這個(gè)特征，我們可以在數(shù)據(jù)處理階段提取責(zé)任者、出版社、出版地等數(shù)據(jù)，并以此構(gòu)造命名實(shí)體數(shù)據(jù)詞袋，提高分詞的準(zhǔn)確性，控制分詞的粒度。

2.2.3.2 詞向量。神經(jīng)網(wǎng)絡(luò)利用文檔向量作為訓(xùn)練數(shù)據(jù)，從而在不斷的學(xué)習(xí)過程中、獲取一組能夠較為完美擬合所有數(shù)據(jù)的參數(shù)，實(shí)現(xiàn)識(shí)別或判斷的功能。而文檔向量的質(zhì)量與構(gòu)成文檔的詞向量有關(guān)，因此，系統(tǒng)實(shí)現(xiàn)的重點(diǎn)在于詞向量的生成以及文檔向量的構(gòu)造。

雖然神經(jīng)網(wǎng)絡(luò)通常采用浮點(diǎn)張量作為訓(xùn)練數(shù)據(jù)，理論上低緯數(shù)張量也可以表示大量的樣本數(shù)據(jù)，但是實(shí)踐經(jīng)驗(yàn)表明，維數(shù)的高低對(duì)于神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率有較大的影響，究其原因，筆者認(rèn)為，維數(shù)過低的張量在表示大量樣本數(shù)據(jù)的時(shí)候，會(huì)降低樣本數(shù)據(jù)之間的離散度，弱化樣本數(shù)據(jù)數(shù)字特征之間的區(qū)別。而過高維數(shù)的數(shù)據(jù)則又會(huì)增加運(yùn)算量，必須采用適當(dāng)?shù)奶卣魈崛》椒ń档途S度，比如卷積神經(jīng)網(wǎng)絡(luò)。因此采用合理的維數(shù)表示詞向量十分重要，本系統(tǒng)采用Word2Vect計(jì)算詞向量，維數(shù)設(shè)置為200，具有較好的識(shí)別效果和較低的計(jì)算量。

2.2.3.3 文檔向量的合成。咨詢問題和書目數(shù)據(jù)具有不同數(shù)量的詞向量，顯然，這樣的數(shù)據(jù)必須統(tǒng)一到相同維度和維數(shù)才可以被神經(jīng)網(wǎng)絡(luò)處理，本系統(tǒng)采用簡單平均算法計(jì)算文檔向量。

2.3 系統(tǒng)的演化和學(xué)習(xí)機(jī)制

深度神經(jīng)網(wǎng)絡(luò)的智能化基于大數(shù)據(jù)的學(xué)習(xí)，而再多的有限數(shù)據(jù)也不可能涵蓋所有的問題，比如筆者在最初設(shè)計(jì)系統(tǒng)的時(shí)候，考慮采用騰訊AILAB開源的詞向量工具，限于開發(fā)平臺(tái)硬件配置，采用其100萬詞向量精簡版本，理論上可以覆蓋90%以上的常用分詞，對(duì)于業(yè)務(wù)簡單的圖書館來說足夠用，但是實(shí)際使用中發(fā)現(xiàn)很多分詞匹配不到對(duì)應(yīng)的詞向量。

同樣道理，Wrod2Vect基于有限的書目數(shù)據(jù)和百度知道數(shù)據(jù)生成的詞向量也不可能在實(shí)際應(yīng)用中適用于新詞匯，因此，系統(tǒng)必須具備學(xué)習(xí)演化的能力。

系統(tǒng)的學(xué)習(xí)演化還體現(xiàn)在對(duì)新問題的學(xué)習(xí)方面：對(duì)于讀者的問題，如果系統(tǒng)沒有遇到并收錄，則將之作為訓(xùn)練數(shù)據(jù)保存，并在適當(dāng)?shù)臅r(shí)候重新學(xué)習(xí)。

2.4 系統(tǒng)的表現(xiàn)

根據(jù)訓(xùn)練樣本數(shù)據(jù)在系統(tǒng)中50次迭代訓(xùn)練過程中損失的表現(xiàn)，實(shí)驗(yàn)針對(duì)測試數(shù)據(jù)的識(shí)別準(zhǔn)確度達(dá)到98.6%。表明本系統(tǒng)模型對(duì)于意圖識(shí)別具有良好的適用性，可用于圖書館智能客服系統(tǒng)，準(zhǔn)確判斷讀者的意圖。

3 結(jié)束語

新技術(shù)從產(chǎn)生到應(yīng)用從來不是一帆風(fēng)順的事情，涉及技術(shù)成熟度、業(yè)務(wù)需求等，甚至需要我們大膽思維、敢于想象、勇于實(shí)踐。

本文闡述的“利用神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)讀者意圖識(shí)別”的方法，首次提出并探討了整合圖書館OPAC業(yè)務(wù)和智能客服業(yè)務(wù)的觀點(diǎn)，并驗(yàn)證了利用人工神經(jīng)網(wǎng)絡(luò)準(zhǔn)確分析讀者意圖的可行性，并在模型構(gòu)建、數(shù)據(jù)處理、數(shù)據(jù)向量化等方面做了較為細(xì)致的研究，對(duì)有興趣整合圖書館業(yè)務(wù)，或者挖掘圖書館智能化服務(wù)的業(yè)界同人具有一定的借鑒意義。