亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多源數(shù)據(jù)的檔案知識問答服務(wù)研究

        2020-12-10 00:41:04徐彤陽滕琦
        檔案管理 2020年6期

        徐彤陽 滕琦

        摘? 要:本文通過探析檔案目前知識服務(wù)現(xiàn)狀,提出基于檔案大數(shù)據(jù)智能問答系統(tǒng)是處理檔案大數(shù)據(jù)的最佳選擇,針對檔案多源數(shù)據(jù)的需求,構(gòu)建了基于多源數(shù)據(jù)的檔案知識服務(wù)智能問答模型。智能問答服務(wù)系統(tǒng)的建立為用戶提供高效的檔案問答環(huán)境,提升檔案館的資源利用率,擴大檔案信息資源共建共享。

        關(guān)鍵詞:多源數(shù)據(jù);檔案知識服務(wù);智能問答

        Abstract:Through analyzing the current situation of archives knowledge service, it is proposed that the intelligent question-and-answer system based on archives big data is the best choice for processing archives big data. According to the requirements of archives multi-source data, an intelligent question-and-answer model of archives knowledge service based on multi-source data is constructed. The establishment of intelligent question-and-answer service provides users with an efficient file question-and-answer environment, improves the resource utilization rate of archives, and expands the co-construction and sharing of file information resources.

        Keywords:Multi-source data; Archives knowledge service; Intelligent question and answer

        1 引言

        大數(shù)據(jù)時代,網(wǎng)絡(luò)方式成為用戶滿足個體需求的主要渠道。[1]面對井噴式的檔案信息,用戶經(jīng)常需要查閱大量資料,整合閱讀信息,提煉所需知識。為了促進平臺的發(fā)展,滿足用戶咨詢的需求,有必要提供更加優(yōu)質(zhì)的檢索服務(wù)。

        智能化的發(fā)展,“智能+檔案”[2]為檔案工作優(yōu)化和檔案服務(wù)升級提供了技術(shù)支撐?;诖笠?guī)模的檔案數(shù)據(jù)準(zhǔn)確提取相應(yīng)信息,解決用戶精準(zhǔn)檢索的難題已經(jīng)成為未來發(fā)展的核心方向。

        智能問答系統(tǒng)隨之出現(xiàn),基于自然語言處理(natural language processing,NLP)技術(shù),深入理解用戶意圖,精準(zhǔn)回答用戶需求,準(zhǔn)確、簡潔的方式更接近于用戶的語言習(xí)慣。像蘋果的siri等問答機器人屬于通識型智能助手,是基于常用問題集的問答系統(tǒng)(FAQ),靈活性差,針對領(lǐng)域性問題難免會出錯,精確度降低。

        自動問答不限于一般通識型知識問答,進一步向智慧化深度問答演化。智能問答系統(tǒng)的研究目前主要集中在基于深度學(xué)習(xí)與基于知識圖譜的研究方向。深度學(xué)習(xí)使問答更加精準(zhǔn)地理解用戶查詢意圖,知識圖譜使問答返回的結(jié)果更加精確化,符合用戶的檢索需求。

        智能問答利用自然語言對話,讓用戶感受到檔案資源的查詢與檢索便捷性和準(zhǔn)確性。利用檔案館知識服務(wù)構(gòu)建智能問答,充分挖掘和利用檔案資源價值,方便、快捷地解決用戶關(guān)于日常服務(wù)、歷史檔案等問題,是滿足用戶需求的未來發(fā)展方向。

        2 探析傳統(tǒng)檔案服務(wù)問題

        2.1 檔案知識庫不完備。檔案多以非結(jié)構(gòu)化的形式存放,如辦公自動化系統(tǒng)應(yīng)用形成的各式電子檔案,檔案館存放的紙質(zhì)文件夾等,非結(jié)構(gòu)化的電子檔案相互獨立、兼容性差,共享度低、數(shù)據(jù)冗余,造成信息孤島現(xiàn)象。[3]如何有效地利用檔案數(shù)據(jù)是目前亟待解決的問題。[4]

        2.2 檔案利用率低。通過網(wǎng)絡(luò)檢索檔案信息,檢索速度慢,資料來源廣泛,收集不夠全面。

        檔案基于關(guān)鍵詞的檢索模式檢索精度低,無法了解用戶的真正查詢意圖,檢索全面性與準(zhǔn)確性較低,也無法對檔案知識進行深入的挖掘,對檢索結(jié)果不進行處理與反饋,也不方便該問題的二次檢索。

        檔案館(室)提供的檔案利用率也較低。檔案館已公開的資料,用戶也必須持有合法證件,造成了檔案參考咨詢的服務(wù)限制;有些用戶甚至不了解檔案館(室)保存了哪些可以利用的資源。

        提高檔案利用率最直接的方式就是最大限度地豐富數(shù)據(jù)庫,實現(xiàn)檔案信息管理數(shù)字化,輔以智能問答幫助用戶以符合人類問答的方式迅速解決問題,打破用戶檔案利用的屏障,從而更好地為用戶提供知識服務(wù)。

        2.3 檔案咨詢不便捷。檔案館的工作人員需要具備檔案業(yè)務(wù)知識和相應(yīng)的科學(xué)文化知識。但是,由于館中專業(yè)人員的缺乏,管理人員履行職責(zé)的同時,往往沒有多余的時間去應(yīng)對用戶檔案咨詢需求。用戶提問可能是以往用戶疑問的同類型的問題,館員需要對該問題做出多次解答。

        用戶也可能提問專業(yè)性知識,館員只解釋個人疑問,造成專業(yè)指導(dǎo)浪費。館員也未對主要的問答問題進行統(tǒng)計與整理,導(dǎo)致問答咨詢信息集成困難。智能問答的出現(xiàn),減輕了館員的工作壓力,提高了館員的工作效率,增強了服務(wù)效果,幫助館員有充分時間掌握專業(yè)技能與研究能力,以保證數(shù)字檔案文件真實完整。

        檔案館傳統(tǒng)的參考咨詢處于被動服務(wù)的階段,而網(wǎng)絡(luò)咨詢服務(wù)的建設(shè)仍處于發(fā)展階段。檔案咨詢是一項檔案的基本服務(wù),將參考咨詢服務(wù)列入檔案網(wǎng)站首頁,隨著用戶咨詢問題的深入,檔案館館員已經(jīng)不能快速地回答問題。借助于檔案智能問答,解決用戶的大量需求,幫助用戶快速定位有用信息,提升了用戶的咨詢效率。

        2.4 用戶需求不準(zhǔn)確。大數(shù)據(jù)時代,用戶處于一個需求導(dǎo)向、隨時隨地的泛在的信息環(huán)境,用戶對檔案需求較高,涵蓋了生活、工作、學(xué)習(xí)各個方面。有人將數(shù)字檔案用戶的需求歸結(jié)為檔案資源獲取、分析解決問題、用戶需求定位等三方面。[5]

        用戶表達咨詢需求時,將用戶的提問劃分為本能需求、信息需求、表達需求、折中需求等四階段。[6]為用戶提供高質(zhì)量的檔案知識服務(wù),必須及時、準(zhǔn)確地了解與把握用戶的需求。

        檔案知識服務(wù)是以用戶需求為中心,面向問題解決的,主動的服務(wù)方式。[7]智能問答的出現(xiàn),將多數(shù)據(jù)源的檔案信息整合,滿足多主體用戶共同的需求,大大提高了用戶滿意度。[8]

        3 智能問答系統(tǒng)的關(guān)鍵技術(shù)

        本文提出的模型是一個基于多源數(shù)據(jù),通過知識庫實現(xiàn)輕量級答案搜索,幫助用戶獲得準(zhǔn)確檔案信息的系統(tǒng),而不是反饋用戶提問的冗長答案信息。

        典型的智能問答系統(tǒng)包括問句理解、信息檢索和答案生成三大模塊,每階段處理特定的問題。

        智能問答系統(tǒng)包含物理層、數(shù)據(jù)層、技術(shù)層、檢索層和應(yīng)用層。各層之間相互獨立,易于擴展,分別承擔(dān)后臺管理、數(shù)據(jù)獲取、知識組織、匹配答案、用戶交互等功能。

        3.1 本體。采用本體建模的方式,對檔案知識從概念、屬性、關(guān)系上進行詞性標(biāo)注與句法分析,構(gòu)建檔案領(lǐng)域知識模型。一種可行的基于本體的問答系統(tǒng)是將語言處理與語義處理相結(jié)合的聯(lián)合方法[9]。本體使用Protégé工具創(chuàng)建,通過Jena框架執(zhí)行搜索,檢索精度有所提高。

        3.2 檔案知識庫。智能問答系統(tǒng)通過知識庫為用戶提供的準(zhǔn)確的答案。整合知識庫,提高信息利用率。檔案知識庫涉及多個方面,優(yōu)化檔案類目,有效分類信息。對知識庫內(nèi)容的更新與補充,問答數(shù)據(jù)的不斷增加,給語料庫容量帶來了不小的挑戰(zhàn)。

        從檔案內(nèi)容視角,發(fā)掘檔案知識單元之間的關(guān)聯(lián),將不同類型的知識單元關(guān)聯(lián)聚合,形成供用戶參考咨詢的知識網(wǎng)絡(luò),實現(xiàn)資源的深度挖掘。

        構(gòu)建檔案智能問答系統(tǒng)應(yīng)用的實際需求,需要考慮檔案館(室)的館藏、檔案文獻、歷史參考咨詢數(shù)據(jù)集、互聯(lián)網(wǎng)上碎片化信息等四類數(shù)據(jù)資源。[10]

        將多源檔案數(shù)據(jù)存儲在知識庫中,用戶輸入的自然語言屬于非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化的知識圖譜作為問答系統(tǒng)的知識庫,知識以三元組的形式存儲,關(guān)聯(lián)檔案實體概念,能夠快速獲取正確答案。

        處理流程包括底層數(shù)據(jù)的構(gòu)建、數(shù)據(jù)清洗、分詞與詞性標(biāo)注、利用機器學(xué)習(xí)方法進行檔案實體識別與實體關(guān)系標(biāo)注、利用Neo4j進行存儲和呈現(xiàn)、利用開源的Spark技術(shù)進行實時動態(tài)更新等。

        3.3 智能檔案知識問答的應(yīng)用流程。用戶輸入問題后,將問題通過問題分析模塊分類處理,利用相似度匹配問題集,尋找答案,若問答庫中無模板,即從檔案知識庫中提取答案,存儲進問答庫,輸出答案。

        3.3.1 問題分析

        (1) 問題分類。對于給定的問題,智能問答系統(tǒng)在于識別問題類型,預(yù)期答案的格式。

        文本采用統(tǒng)計學(xué)習(xí)的方式,一般問題的分類采用貝葉斯分類器。鄰近算法(KNN)僅適合小樣本的文本分類,支持向量機(SVM)算法小樣本性能最優(yōu),克服了特征表示的維數(shù)災(zāi)難。一般利用源分類法中的隱含信息集成層次化的檔案數(shù)據(jù),加強了信息集成利用,利于用戶檢索所需的信息。[11]

        據(jù)此,將基于檔案的智能問答系統(tǒng)能夠處理的問題分為是/否型、定義型、列表型等三類。

        (2) 時間推理。檔案中重要數(shù)據(jù)大部分以時間節(jié)點來記錄。識別問題中的時間是問題焦點的一個重要環(huán)節(jié)。如果問題中含有任何包含時間信號,如問題中出現(xiàn)時間范圍或具體日期,則由時間推理模塊進行處理。

        TimeML[12]是一種用于自然語言文本中注釋時間信息,如時間表達、事件及其關(guān)系的方案。當(dāng)用戶自然語言提出含有時間表達的問題時,答案必須滿足時間限制。

        與時間描述有關(guān)的問題一般分為時間有關(guān)、時間描述的事件有關(guān)、時間序列相關(guān)或期間有關(guān)三類。為了證明包含問題中描述時間的答案合理性,需要一種時態(tài)推斷方法。

        (3) 重復(fù)問題。重復(fù)問題的集成節(jié)省了數(shù)據(jù)庫的資源與多次回答相似語義問題時間。當(dāng)用戶向系統(tǒng)提出問題時,系統(tǒng)自動判斷問題是否重復(fù),利用余弦相似度度量計算用戶問題與存儲在數(shù)據(jù)庫中問題之間的相似性。若重復(fù)直接返回已保存的答案;若無重復(fù),則調(diào)用檔案知識庫,抽取問題答案,并將問題答案存儲在數(shù)據(jù)庫中。

        3.3.2 問題匹配。簡單的文本相似度匹配已無法滿足目前的用戶需求。從相似度的角度,考慮基于問題的文字與語義相似度的融合算法提高問題匹配的準(zhǔn)確度,實驗證明顯著降低了誤報率和漏報率。[13]一種基于一般詞匯和領(lǐng)域詞匯的詞匯相似度算法,加強了詞匯匹配領(lǐng)域的準(zhǔn)確性。[14]

        但是都忽略了問句與關(guān)系細粒度相關(guān)性的研究,提出基于Bi-LSTM+CRF進行序列化標(biāo)注,單詞嵌入用于輸入的句子與所有意圖之間的相似性排序。HanLP不僅能夠分詞,還可以標(biāo)注單詞的詞性。用戶輸入特定領(lǐng)域的術(shù)語,或者常見的拼寫錯誤,不使用預(yù)先訓(xùn)練分類器。

        用戶輸入問題文本,對輸入的自然語言進行問題分析,完成分詞、詞性標(biāo)注、實體識別與實體消歧的工作,分類問題文本,通過構(gòu)造標(biāo)準(zhǔn)的SPAQRL查詢查詢生成模板與問題類別,并返回相應(yīng)的結(jié)果,轉(zhuǎn)化為用戶易于理解的形式。

        3.3.3 問答檢索。智能問答的核心就是對問句進行理解,給出符合的答案。用戶發(fā)出查詢請求時,智能問答系統(tǒng)進行解析與推理,根據(jù)用戶提問采用NLP的分詞能力對描述問題智能分解,根據(jù)預(yù)先建立候選問題集,計算問題的相似度,查找相似度符合的問題-答案,對集合中相匹配的知識,將對應(yīng)的結(jié)果直接輸出給用戶。問題重構(gòu)將用戶恰當(dāng)或不恰當(dāng)?shù)膯栴}轉(zhuǎn)換為自然問題,指定到相關(guān)領(lǐng)域。用戶的每次提問,問題集都會自動更新,寫入數(shù)據(jù)庫,若用戶的提問與以往記錄相符,省略了再次組織與匹配答案的過程,直接將對應(yīng)好的答案提交給用戶。

        傳統(tǒng)問答系統(tǒng)通過計算文本相似度進行匹配,忽略了內(nèi)容的句法結(jié)構(gòu)與語義信息,而基于深度證據(jù)評分融合算法,對文本進行預(yù)處理,在文本比較評分之間挖掘更深層的文本特征,提高問答匹配的準(zhǔn)確率。[15]基于深度學(xué)習(xí)的智能問答可以實現(xiàn)用戶聊天內(nèi)容上下文語義分析功能,與用戶進行實時互動,模糊或有歧義的問題,系統(tǒng)交互式引導(dǎo)用戶明確問題,使系統(tǒng)更深入地了解用戶提問,更準(zhǔn)確地回復(fù)用戶。

        3.3.4 用戶評價反饋。根據(jù)用戶的問答實例,提取有價值的內(nèi)容實體,補充圖譜內(nèi)容,豐富語義信息,使問答系統(tǒng)更貼合人的思維模式。同時,為相似內(nèi)容問題提供語義模板,以便所有用戶的再次檢索,減少了人工服務(wù)的次數(shù)。

        強化學(xué)習(xí)(RL)的策略,機器學(xué)習(xí)與用戶評價相結(jié)合,實現(xiàn)智能問答的自動改進,以及未登陸問題的發(fā)現(xiàn)與學(xué)習(xí)。建立多渠道的反饋機制,利用深度學(xué)習(xí)優(yōu)化模型,提升咨詢效率,改善咨詢體驗。

        基于上述討論,利用IDEA的開發(fā)平臺,以spring框架為主體,即可搭建一個小型的智能問答系統(tǒng)。

        4 總結(jié)與展望

        智能問答技術(shù)應(yīng)用到各個領(lǐng)域,如電商、醫(yī)療等中的多個場景。在個人助手領(lǐng)域,智能問答技術(shù)增強了搜索設(shè)備的執(zhí)行力,提升了檢索效率。

        4.1 智能問答的發(fā)展。如何消除用戶與計算機之間的交流障礙,提高計算機的查全率與查準(zhǔn)率一直是智能問答系統(tǒng)的關(guān)鍵。目前,交互問答主要回答事實類問題,直接從數(shù)據(jù)庫提取答案片段;而分析類問題的問答需要用戶的參與,若要正確理解對話信息,必須考慮信息語義層和功能層的構(gòu)建效果,擴大或縮小問題的范圍,以便精確問題的回答。

        智能問答中加入圖片、視頻等多媒體信息,人機互動可視化能更生動地展示檔案信息。針對用戶輸入的自然語言檢索詞,系統(tǒng)自動糾正用戶詞中的錯別字,給出建議的推薦詞予以繼續(xù)問答。未來檔案知識服務(wù)是基于場景的個性化智能問答的定制,更主動地了解與用戶交互。

        4.2 檔案服務(wù)的發(fā)展。檔案的開放必須遵守國家檔案管理的相關(guān)法律、法規(guī)和政策,同時,檔案數(shù)字化對網(wǎng)絡(luò)安全性提出了更高的要求,需加強保密檔案的安全防范措施。大數(shù)據(jù)時代,從海量的檔案數(shù)據(jù)中挖掘潛在價值的信息,實現(xiàn)檔案服務(wù)創(chuàng)新。

        檔案資源知識價值的需求增多。移動端的檔案服務(wù)利用用戶碎片化時間,不用專門去當(dāng)?shù)亓私庑枨蟮臋n案信息,更符合現(xiàn)在的潮流傾向。用戶個性化的檔案推薦服務(wù),可以讓用戶獲得額外受益的檔案資源。[16]檔案推薦服務(wù),主動地提供檔案信息資源的線索,以用戶的歷史閱覽信息為分析數(shù)據(jù),加強信息預(yù)測,符合用戶的訪問習(xí)慣。

        數(shù)字檔案以新的方式開發(fā)利用,促進了檔案服務(wù)轉(zhuǎn)向數(shù)據(jù)服務(wù)與知識服務(wù)。[17]

        4.3 檔案知識的發(fā)掘。檔案大數(shù)據(jù)對于知識的新穎、深度的挖掘,揭示知識數(shù)據(jù)之間的關(guān)聯(lián),使檔案成為有價值的知識,從而更好地為用戶服務(wù)。知識圖譜所表示的知識是結(jié)構(gòu)化數(shù)據(jù),相互之間的轉(zhuǎn)化必然存在模糊性。檔案信息資源應(yīng)該與時俱進,檔案知識庫的建立與后期的持續(xù)更新與維護,缺乏了對檔案知識的不斷探索,發(fā)布新問答模板與更新之間存在時間延遲,一種新的實時處理新問答對以維護檔案知識庫方法考慮到未來研究。

        智能問答系統(tǒng)在實現(xiàn)涵蓋多個領(lǐng)域、添加更多的語義規(guī)則方面有很大的發(fā)展空間。推進這些技術(shù)的應(yīng)用,能夠不斷實現(xiàn)效率高、針對性強、用戶體驗好的檔案服務(wù)。

        參考文獻:

        [1]楊強,張靜文,朱瀅.基于網(wǎng)絡(luò)問答平臺的公眾檔案需求研究[J].辦公室業(yè)務(wù),2012(13): 84-85.

        [2]曹航,王靜.“智能+”視野下檔案管理變革趨勢初探[J].中國檔案,2019(11): 72-73.

        [3]王志宇,趙淑梅.非結(jié)構(gòu)化電子檔案數(shù)據(jù)管理探析[J].檔案學(xué)通訊,2014(05): 54-58.

        [4]胡振榮.歷史檔案數(shù)字化著錄存在的問題與對策研究[J].檔案學(xué)研究,2017(02): 91-95.

        [5]王毅,魏扣.優(yōu)化用戶體驗的數(shù)字檔案資源服務(wù)策略研究[J].檔案學(xué)通訊,2017(01): 64-69.

        [6]王勤.咨詢對話是聯(lián)結(jié)民生與檔案的紐帶[N].中國檔案報,2016-10-13(03).

        [7]張斌,郝琦,魏扣.基于檔案知識庫的檔案知識服務(wù)研究[J].檔案學(xué)研究,2016(03): 51-58.

        [8]孫莉.檔案數(shù)字資源協(xié)同服務(wù)實現(xiàn)機制的探討[J/OL].山西檔案.

        http://kns.cnki.net/kcms/detail/14.1162.G2.20191108.1133.002.html

        [9]Albarghothi A,Khater F,Shaalan k.Arabic Question Answering Using Ontology[J].Procedia Computer Science,2017,117:183-191

        [10]趙彥昌,毛麗敏.“互聯(lián)網(wǎng)+”環(huán)境下檔案信息資源建設(shè)若干問題研究[J].檔案學(xué)研究,2017(04): 31-35.

        [11]Wei Wei,Gao Cong,Xiaoli Li,et al.Integrating Community Question and Answer Archives[A]. Proceedings of the Twenty-Fifth AAAI Conference on Artificial Intelligence[C]2011:1255-1260.

        [12]James Pustejovsky,José M. Casta?o,Robert Ingria,et al. TimeML: Robust Specification of Event and Temporal Expressions in Text[A]. 2003 AAAI Spring Symposium[C]2003年.

        [13]Hua HU and Shi-zheng ZHU.Design of Intelligent Question Answering System Based on Semantic Web[A].2017 3rd International Conference on E-commerce and Contemporary Economic Devepment[C],2017.

        [14]Yongqiu Liu.Research and Design of Intelligent Question Answering System[A].2019 2nd International Conference on Mechanical Engineering,Industrial Materials and Industrial Electronics[C]2019.

        [15]Xiabing Zhou,Binglin Wu,and Qinglei Zhou.A Depth Evidence Score Fusion Algorithm for Chinese Medical Intelligence Question Answering System[J].Journal of Healthcare Engineering,2018:1-8

        [16]王蘭成,劉曉亮.檔案社會化媒體信息服務(wù)系統(tǒng)的開發(fā)與實現(xiàn)[J].中國檔案,2019(11): 64-66.

        [17]趙躍.大數(shù)據(jù)時代檔案數(shù)據(jù)化的前景展望:意義與困境[J].檔案學(xué)通訊,2019(05): 52-60.

        (作者單位:山西財經(jīng)大學(xué)? ? 來稿日期:2020-08-10)

        51久久国产露脸精品国产| 极品美女调教喷水网站| 2021亚洲国产精品无码| 一品二品三品中文字幕 | 亚洲熟妇在线视频观看| 精品人妻久久av中文字幕| 中文字幕一区在线直播| 久久久久亚洲av无码麻豆| 亚洲欧美日韩精品高清| 精品视频在线观看一区二区有| 一本之道日本熟妇人妻| 国产a国产片国产| 亚洲国产中文在线二区三区免| 水蜜桃一二二视频在线观看免费| 男女性行为免费视频网站| 国产尤物精品视频| 99久久国语露脸精品国产| 欧美h久免费女| 亚洲av乱码一区二区三区人人| 正在播放强揉爆乳女教师| 人与嘼av免费| 亚洲视频一区二区久久久| 中文字幕漂亮人妻在线| 亚洲综合在线一区二区三区| 正在播放国产多p交换视频| 国产成人激情视频在线观看| 亚洲国产色一区二区三区| av在线一区二区精品| 亚洲无av在线中文字幕| 精品爆乳一区二区三区无码av | 日本不卡一区二区三区在线| 国产美女主播视频一二三区| 97成人碰碰久久人人超级碰oo| 日本精品一区二区三本中文| 免费人妻精品一区二区三区| 日韩人妻无码一区二区三区久久| 色窝窝在线无码中文| av天堂手机在线免费| 麻豆国产一区二区三区四区| 国产内射999视频一区| 99综合精品久久|