亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BM25、文本Embeddings與交叉編碼器的民航客服知識庫檢索研究

        2023-05-06 18:51:30鄭少帥翁境鴻蔣小洋
        無線互聯(lián)科技 2023年24期
        關(guān)鍵詞:文本模型

        鄭少帥 翁境鴻 蔣小洋

        摘要:隨著民航經(jīng)濟(jì)的發(fā)展和人民生活水平的提高,旅客出行的服務(wù)要求越來越高,而當(dāng)前傳統(tǒng)的民航客服知識庫檢索普遍存在檢索準(zhǔn)確率以及效率低的問題,已經(jīng)不能滿足旅客的服務(wù)需求。文章通過結(jié)合Best Match 25算法、文本Embeddings和交叉編碼器對知識庫進(jìn)行檢索,高效檢索出符合座席意圖的答案,進(jìn)而提升民航客服知識庫查找效率,縮短座席通話查詢時長,提升旅客服務(wù)體驗,助力實現(xiàn)民航客服數(shù)字化、智能化轉(zhuǎn)型。

        關(guān)鍵詞:民航客服;Best Match 25算法;文本Embeddings;交叉編碼器;座席意圖

        中圖分類號:TP3? 文獻(xiàn)標(biāo)志碼:A

        0 引言

        隨著民航經(jīng)濟(jì)與人工智能技術(shù)的不斷發(fā)展,目前傳統(tǒng)的民航客服系統(tǒng)已經(jīng)不能滿足民航業(yè)務(wù)的需要。其中,知識庫作為連通知識加工輸出和知識應(yīng)用的樞紐,可用于改變傳統(tǒng)的知識獲取方式,防止座席因在線問答時需要翻閱通告而浪費時間。而目前民航客服知識庫沒有很好地承擔(dān)起作為知識中心的作用,知識查找難、知識搜索效率低,并且當(dāng)前民航客服知識庫算法匹配得到的結(jié)果往往不是座席想要的答案,需要再花費大量時間尋找想要的答案,影響旅客問題回復(fù)的及時率,用戶體驗感較差,這也說明當(dāng)前的知識庫搜索功能已經(jīng)不能滿足座席對知識的應(yīng)用需求。因此,民航客服知識庫亟須通過更精準(zhǔn)的算法提高座席的檢索準(zhǔn)確率,進(jìn)而高效幫助旅客解決問題。

        針對傳統(tǒng)的民航客服知識庫檢索普遍存在準(zhǔn)確率不高、座席意圖識別能力差等問題,本文提出一種結(jié)合Best Match 25算法[1]、文本Embeddings[2]和交叉編碼器(Cross-Encoders)[3]的民航客服知識庫檢索模型。實驗結(jié)果表明,該模型的檢索準(zhǔn)確率以及平均耗時都優(yōu)于其他模型,有效縮短座席通話查詢時長,進(jìn)而提升民航客服智能化服務(wù)水平及用戶體驗,助力實現(xiàn)民航客服數(shù)字化轉(zhuǎn)型。

        1 算法介紹

        1.1 BM25算法

        BM25 是基于概率檢索模型[4]提出的算法,可以用來評價文檔與搜索詞之間的關(guān)系。其中,BM是Best Match的縮寫,25代表已經(jīng)進(jìn)行到第25次迭代。

        BM25的一般公式:

        Score(Q,d)=∑niWiR(qi,d)

        其中,Q為Query;qi為Query中的分詞Q;d為文檔;W為切詞權(quán)重;R為切詞和文檔的相關(guān)性。BM25的計算主要由幾個部分組成。

        (1)Query中每個分詞的重要性;

        (2)Query中每個分詞和文檔之間的相關(guān)性;

        (3)Query中每個單詞與Query的相關(guān)性 (只有當(dāng)Query很長時才會使用)。

        1.2 文本Embeddings

        Word Embeddings技術(shù)是一種采用機(jī)器學(xué)習(xí)方法將單詞映射到實數(shù)低維向量的技術(shù)。本文采用text2vec-base-chinese模型來生成文本的Embedding,利用CoSENT方法訓(xùn)練,基于nghuyong/ernie-3.0-base-zh用人工挑選后的中文STS數(shù)據(jù)集[5]訓(xùn)練得到,并在中文各NLI測試集評估中達(dá)到較好的效果。

        1.3 交叉編碼器(Cross-Encoders)

        交叉編碼器模型對于輸入和候選標(biāo)簽之間的相似性評分函數(shù)沒有任何假設(shè)。相反,輸入和候選標(biāo)簽的連接作為新的輸入傳遞給非線性函數(shù),該函數(shù)根據(jù)其所需的任何依賴關(guān)系對它們的匹配進(jìn)行評分。例如向交叉編碼器中輸入2個句子,模型會輸出一個介于0到 1的值,表示這2個句子的相似性,輸出值越大則表明這2個句子越接近。

        2 算法優(yōu)化

        2.1 傳統(tǒng)檢索方式分析

        2.1.1 BM25算法檢索分析

        BM25算法是目前信息索引領(lǐng)域中主流的計算搜索詞與文檔相似度得分的算法之一,被廣泛地應(yīng)用于搜索引擎、信息檢索等領(lǐng)域,具有快速、可解釋性強等優(yōu)點[6]。

        但是BM25算法也存在不足,該算法只是基于文本進(jìn)行比較,如果存在大量同義詞則無法得到一個滿意的結(jié)果。由于民航業(yè)務(wù)復(fù)雜,客服對同一術(shù)語的叫法較多,容易出現(xiàn)使用同義詞的場景,因此單獨使用BM25算法并不能很好地滿足民航客服這一場景。

        2.1.2 文本Embeddings檢索分析

        文本Embeddings與傳統(tǒng)的文本表示方法相比,能夠提供更好的語義信息。同時Word Embeddings技術(shù)可以解決傳統(tǒng)詞向量維度過高的問題,并且解決了向量稀疏的問題,因此降低了模型的訓(xùn)練難度[7]。

        文本Embeddings相比于BM25,還可以實現(xiàn)基于語義的相似度匹配,在實際的生產(chǎn)應(yīng)用中有著更廣闊的應(yīng)用場景。文本Embeddings還可以基于開源模型進(jìn)行微調(diào),產(chǎn)生更適合細(xì)分行業(yè)的模型,進(jìn)一步提升準(zhǔn)確率。

        但是由于在民航客服場景中,客服容易出現(xiàn)使用短文本來進(jìn)行搜索,而短文本具有詞少低頻、特征稀疏和表述隨意等特點,單純地使用文本Embeddings來進(jìn)行聚類的效果較差[8]。因此,單獨使用文本Embeddings進(jìn)行檢索的正確率仍然無法滿足需求。

        2.1.3 交叉編碼器檢索分析

        交叉編碼器通過把文本相似度轉(zhuǎn)化成一個分類問題,對要比較的2個句子進(jìn)行拼接,將拼接好的句子傳遞給模型,由模型來判斷要比較的2個句子的相關(guān)性。

        交叉編碼器的優(yōu)點在于有較高的準(zhǔn)確度。但是其最大的缺點是交叉編碼器模型輸出的結(jié)果只能反映輸入文本對是否相似,無法針對每個輸入生成獨立的句子語義表示,因此無法將編碼結(jié)果應(yīng)用于其他下游任務(wù)。在實際的使用中,用戶每輸入一次問題,都需要把用戶輸入的問題與所有的知識庫文檔段落進(jìn)行比較,效率非常低,因此單獨使用交叉編碼器無法應(yīng)用于實際生產(chǎn)中。

        2.2 組合優(yōu)化

        BM25算法的特點在于查詢速度快,無法識別語義相近的詞。而文本Embeddings可以查詢語義相近的段落,但是在短文本的情況下準(zhǔn)確度不足。交叉編碼器的準(zhǔn)確度最高,但是由于不產(chǎn)生句子嵌入,因此查詢效率低。根據(jù)上面幾種算法的特性,本文將上述3種算法組合并實現(xiàn)了一個知識庫檢索系統(tǒng)。該系統(tǒng)的核心思想在于利用BM25算法和文本Embeddings的高性能特點,從知識庫文檔段落中進(jìn)行預(yù)篩選,縮小交叉編碼器需要比較的段落數(shù)量,最后用交叉編碼器高準(zhǔn)確率的特點來進(jìn)行檢索,從而得到最終的檢索結(jié)果。組合算法實現(xiàn)過程如圖1所示。

        2.2.1 BM25算法的使用

        首先將準(zhǔn)備好的知識庫文檔拆分成段落,將這些段落用Jieba庫進(jìn)行分詞并生成實例。用戶提問時,在分詞后的知識庫文檔段落中搜索最接近的n個段落,搜索出來的n個段落作為下一步文本Embeddings的檢索知識庫。

        2.2.2 文本Embeddings技術(shù)的使用

        首先將準(zhǔn)備好的知識庫文檔拆分成段落,將這些段落使用文本通過量化模型轉(zhuǎn)化為向量,并將這些向量存儲到Qdrant向量數(shù)據(jù)庫中。用戶提問時,先設(shè)定第一步BM25算法查詢到的n個段落,再從Qdrant向量數(shù)據(jù)庫中查詢出n個段落對應(yīng)的向量記作q。然后將用戶輸入的問題轉(zhuǎn)化為向量,使用余弦相似度從q中查找出語義最接近的x個段落。將搜索出來的x個段落作為下一步交叉編碼器的檢索知識庫。

        2.2.3 交叉編碼器的使用

        此時經(jīng)過上面2步的過濾,交叉編碼器需要比較的段落已經(jīng)大大減少,因此比較段落與用戶提問所需的耗時也大幅度減少。在這一步,使用交叉編碼器模型將用戶輸入的問題與第二步查詢出來的x個段落一一比較,找到與用戶輸入的問題含義最接近的y個段落。最后查詢出來的y個段落就是該知識庫檢索系統(tǒng)得到的最終結(jié)果。

        本文提出的知識庫檢索系統(tǒng),利用了BM25以及文本Embeddings耗時短的特點,大幅度減少了交叉編碼器需要比較的段落數(shù)量。在保留了交叉編碼器正確率高的特點的同時,又大幅度減少了其比較段落所需的耗時,讓其在實際生產(chǎn)應(yīng)用中更有落地空間。

        3 實驗

        3.1 實驗環(huán)境

        為了證明第2節(jié)組合優(yōu)化的有效性,本章節(jié)使用了BM25算法、文本Embeddings、交叉編碼器以及3種檢索方式組合使用進(jìn)行比較分析。其中文本Embeddings使用的是text2vec-base-chinese模型,用于將用戶輸入的問題以及文本段落轉(zhuǎn)化為向量。交叉編碼器使用的是cross-encoder/mmarco-mMiniLMv2-L12-H384-v1模型,用于計算用戶輸入和文本段落之間的相似度得分。

        本文實驗數(shù)據(jù)來源于航司內(nèi)部客服知識庫的業(yè)務(wù)以及產(chǎn)品文檔,將這些文檔拆分為段落形式,作為實驗的知識庫數(shù)據(jù)。樣本共包含1 000個段落,并且準(zhǔn)備150個測試問題以及每個問題對應(yīng)的正確答案,作為實驗的用戶輸入數(shù)據(jù)。

        3.2 評價指標(biāo)

        為了評估本系統(tǒng)檢索相似段落的性能,本文采用了正確率以及平均耗時作為評價指標(biāo),定義為:

        正確率=TP/N

        平均耗時=TN/N

        其中,TP為系統(tǒng)檢索最相似的3個段落中包含正確答案的樣本總數(shù);TN為系統(tǒng)檢索所有問題所消耗的總時長,s;N為測試問題樣本總數(shù)量。

        3.3 實驗結(jié)果

        每種檢索方式分別依次輸入準(zhǔn)備好的150個問題,判斷輸出的結(jié)果是否包含正確答案,記錄正確率以及查找答案所消耗的時間。結(jié)果如表1所示。

        可以看出,本文提出的組合BM25算法、文本Embeddings與交叉編碼器的民航客服知識庫檢索系統(tǒng)在回答的正確率上相較BM25算法、文本Embeddings這2種方式有了一個較大的提升,可以達(dá)到86.67%,并且在耗時方面也沒有太多的額外開銷。而與交叉編碼器相比,雖然正確率下降了6%,但是在耗時方面,組合使用的方式只需0.74s,相比單獨使用交叉編碼器少了40.76s。

        本文提出的檢索系統(tǒng)充分利用了BM25算法和文本Embeddings的可預(yù)處理、耗時短的特點,盡可能地減小了交叉編碼器需要比較的文本數(shù)量,并結(jié)合了交叉編碼器準(zhǔn)確率高的特點,在大幅度提升準(zhǔn)確率的同時也減少了查找所需的時間。

        4 結(jié)語

        本文提出一種結(jié)合BM25算法、文本Embeddings和交叉編碼器(Cross-Encoders)的知識庫檢索問答研究模型,并進(jìn)行模擬實驗與分析。針對3個不同的算法設(shè)置對照實驗,將檢索的準(zhǔn)確率以及平均耗時作為指標(biāo)進(jìn)行評估。實驗結(jié)果表明,本文的組合模型相比于單獨的算法模型在結(jié)果上能短時間內(nèi)取得較高的檢索準(zhǔn)確率,即在平均耗時為0.74s的情況下準(zhǔn)確率可以高達(dá)86.67%,解決了傳統(tǒng)民航客服知識庫檢索效率低、準(zhǔn)確率低的問題,同時也證明研究方向是可取的。在下一步的研究工作中,將考慮對各個模型的算法參數(shù)進(jìn)行調(diào)整以及優(yōu)化。同時,嘗試更多的相似度計算算法,并通過實驗對比分析,研究出更高效、準(zhǔn)確的知識庫檢索方法,不斷提升旅客自助服務(wù)的品質(zhì),保障旅客的忠誠度以及用戶黏性,推動民航客服實現(xiàn)“十四五”時期數(shù)字化轉(zhuǎn)型[9]。

        參考文獻(xiàn)

        [1]王賀,遲呈英,戰(zhàn)學(xué)剛.基于BM25-RoBERTa的法律案例檢索研究[J].電腦編程技巧與維護(hù),2023(3):74-75,130.

        [2]牛悅.自聚合短文本的主題模型優(yōu)化問題研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2022.

        [3]戚小莎,曾靜,吉根林.雙交叉注意力自編碼器改進(jìn)視頻異常檢測[J].南京師大學(xué)報(自然科學(xué)版),2023(1):110-119.

        [4]張宇,袁野,王國仁.一個基于概率潛語義分析的多模態(tài)多媒體檢索模型[J].小型微型計算機(jī)系統(tǒng),2015(8):1665-1670.

        [5]蘇錦鈿,洪曉斌,余珊珊.基于多模型集成的語義文本相似性判斷[J].華南理工大學(xué)學(xué)報(自然科學(xué)版),2022(4):1-9.

        [6]李杰坷.基于深度學(xué)習(xí)的法律案例檢索方法及應(yīng)用[D].深圳:中國科學(xué)院大學(xué),2022.

        [7]張沖.基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D].南京:南京大學(xué),2016.

        [8]崔壯壯.基于Word Embedding的短文本聚類算法研究及應(yīng)用[D].哈爾濱:哈爾濱工業(yè)大學(xué),2019.

        [9]趙巍.“十四五”中國民航兩大主題:復(fù)蘇與發(fā)展[J].大飛機(jī),2022(6):57-61.

        (編輯 王雪芬編輯)

        Research on civil aviation customer service knowledge base retrieval based on BM25,

        text vector method and cross encoder

        Zheng? Shaoshuai, Weng? Jinghong, Jiang Xiaoyang

        (Xiamen Airlines Co., Ltd., Xiamen 361006, China)

        Abstract: With the development of civil aviation economy and the improvement of peoples living standards, the service requirements for passenger travel are becoming higher and higher. However, the traditional civil aviation customer service knowledge base retrieval generally has low retrieval accuracy and efficiency, which can no longer meet the service needs of passengers. This article combines the Best Match 25 algorithm, text Embeddings, and Cross-Encoders to search the knowledge base, efficiently searching for answers that match the intentions of the seat, thereby improving the efficiency of civil aviation customer service knowledge base search, shortening the call query time of the seat, improving the passenger service experience, and laying a solid foundation for the digital and intelligent transformation of civil aviation customer services.

        Key words: civil aviation customer services; Best Match 25; text Embeddings; Cross-Encoder; seat intention

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        欧美大肥婆大肥bbbbb| 日本免费一区二区在线看片| 国产小视频在线看不卡| 在线视频观看免费视频18| 91免费播放日韩一区二天天综合福利电影 | 初尝黑人嗷嗷叫中文字幕| 亚洲AV无码AV色| 中文字幕人妻久久久中出| 在线看无码的免费网站| 红杏亚洲影院一区二区三区| 一区二区三区国产97| 狂插美女流出白浆视频在线观看| 三年的高清电影免费看| 乌克兰少妇xxxx做受6| 最新福利姬在线视频国产观看| 一区二区三区四区亚洲免费 | 国产在线视欧美亚综合| 久久午夜一区二区三区| 婷婷成人丁香五月综合激情| 丰满岳乱妇久久久| 1234.com麻豆性爰爱影| 亚洲一区二区三区偷拍视频 | 中文字幕熟妇人妻在线视频| 国产永久免费高清在线观看视频| 一本大道久久a久久综合| 久久国产精品免费久久久| 久久久久亚洲精品无码系列| 亚洲国产精品久久亚洲精品| 九九久久精品大片| 日产一区日产2区日产| 亚洲 卡通 欧美 制服 中文| 亚洲成年网站在线777| 久久狠狠髙潮曰十八女人| 婷婷色综合视频在线观看| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 中文字幕亚洲综合久久| 国产三级不卡一区不卡二区在线 | 精品人人妻人人澡人人爽牛牛| 中文人妻av大区中文不卡| 91精品国产福利在线观看麻豆| 亚洲综合欧美在线一区在线播放|