亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于神經(jīng)網(wǎng)絡(luò)與排序?qū)W習(xí)的智能文本挖掘

        2018-10-21 13:43:14李海闊白強(qiáng)康蕓瑋
        科技信息·中旬刊 2018年5期

        李海闊 白強(qiáng) 康蕓瑋

        摘要:隨著電子書(shū)閱讀的增加,人們往往需要從大量文本中抽取部分有用信息?;谖谋拘畔z索問(wèn)題,首先對(duì)文本進(jìn)行預(yù)處理,通過(guò)連續(xù)空間詞向量模型生成了文本詞向量,并利用剪支卷積神經(jīng)網(wǎng)絡(luò)建立了問(wèn)句向量的生成模型,之后通過(guò)長(zhǎng)短期記憶卷積神經(jīng)網(wǎng)絡(luò)對(duì)問(wèn)題完成分類,再利用文檔列表法讓計(jì)算機(jī)通過(guò)排序?qū)W習(xí)對(duì)剩下的數(shù)據(jù)進(jìn)行訓(xùn)練打分。最后通過(guò)不斷訓(xùn)練調(diào)整得到訓(xùn)練結(jié)果最好的參數(shù),將該參數(shù)下的打分函數(shù)投入到測(cè)試數(shù)據(jù)計(jì)算結(jié)果,并通過(guò)閾值計(jì)算和歸一化處理最終得到所有測(cè)試數(shù)據(jù)的標(biāo)簽輸出,最終答案檢索的排名第一的準(zhǔn)確率為65%以上,排名第二的答案準(zhǔn)確率達(dá)到80%以上,一定程度上能夠達(dá)到輔助閱讀的作用。

        關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);排序?qū)W習(xí);文本檢索;閾值

        引言

        日常生活中人們要閱讀大量的txt文本,其內(nèi)容可能是小說(shuō)、教程、文集、詞典等。很多情況下我們只是需要從文本中查找某一些片段來(lái)解決我們的問(wèn)題。比如,通過(guò)查找法律文獻(xiàn)中的一些段落來(lái)解決我們的法律疑惑,這時(shí)并不需要精讀整個(gè)法律文獻(xiàn)。因此我們希望智能閱讀技術(shù)能夠在這方面提供一些幫助。為此需將自然語(yǔ)言類的文本材料和相關(guān)問(wèn)題轉(zhuǎn)化成計(jì)算機(jī)可識(shí)別語(yǔ)言,再通過(guò)對(duì)問(wèn)題的分類和分析,實(shí)現(xiàn)計(jì)算機(jī)對(duì)自然語(yǔ)言問(wèn)題[1-2]的讀取和理解,然后建立可靠模型對(duì)相關(guān)文本材料進(jìn)行智能檢索[3-4],最終穩(wěn)定地實(shí)現(xiàn)計(jì)算機(jī)對(duì)正確答案的準(zhǔn)確定位,以滿足用戶的實(shí)際需求。

        1 詞向量與問(wèn)句向量

        在進(jìn)行所有操作前,首先對(duì)所有文本內(nèi)容尤其是問(wèn)題進(jìn)行分詞、去停頓詞處理以及詞性標(biāo)注等預(yù)處理工作。

        由于計(jì)算機(jī)不能直接識(shí)別自然語(yǔ)言,因此將文本內(nèi)容轉(zhuǎn)化成計(jì)算機(jī)可識(shí)別語(yǔ)言是必要的也是關(guān)鍵的一步。詞向量技術(shù)就是一種將單詞表征成為多維空間向量的方法,本文所采用的詞向量生成方法主要是由Mikolov等人提出的連續(xù)空間詞向量技術(shù)[5],該模型有效的避免了向量稀疏性和高維性等問(wèn)題,具體方法是,首先隨機(jī)初始化訓(xùn)練樣本中出現(xiàn)過(guò)單詞的向量,其次從訓(xùn)練樣本中的第一個(gè)單詞開(kāi)始,用訓(xùn)練單詞的上下文單詞的向量更新訓(xùn)練單詞的向量。

        由于需要對(duì)文本進(jìn)行檢索,因而對(duì)于問(wèn)句也需要生成對(duì)應(yīng)的向量。相比于圖像和語(yǔ)音識(shí)別領(lǐng)域,在自然語(yǔ)言處理中卷積神經(jīng)網(wǎng)絡(luò)不需要表征那么復(fù)雜的信息,語(yǔ)句用淺層網(wǎng)絡(luò)表示即可。采用的問(wèn)句向量生成模型對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了剪支處理,只保留了輸入層、卷積層、采樣層和輸出層四層卷積神經(jīng)網(wǎng)絡(luò)[6]。問(wèn)句向量生成模型的訓(xùn)練目標(biāo)下所示:

        式中:為由卷積神經(jīng)網(wǎng)絡(luò)生成的問(wèn)句向量;為與向量屬于同一類的抽樣向量; 為不屬于向量所屬類的抽樣向量。

        問(wèn)句向量由采樣層經(jīng)過(guò)全連接神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換得到,采樣層變換到傳輸層的函數(shù)[]。

        式中:表示輸出向量;表示采樣層向量;表示加權(quán)變換時(shí)的權(quán)值信息。

        2 答案檢索

        2.1 排序?qū)W習(xí)

        進(jìn)行答案檢索前,采用的是一種基于長(zhǎng)短期記憶卷積神經(jīng)網(wǎng)絡(luò)(LSTM-MFCNN)的方法[7]對(duì)問(wèn)題進(jìn)行聚類,以減少候選答案的選擇空間。排序?qū)W習(xí)[8]是指在排序生成和排序整合中用于構(gòu)建排序模型的機(jī)器學(xué)習(xí)方法,旨在使用機(jī)器學(xué)習(xí)的方法,根據(jù)有標(biāo)簽的數(shù)據(jù)解決排序問(wèn)題。

        對(duì)此針對(duì)性地采用了文檔列表方法進(jìn)行排序。將每個(gè)查詢對(duì)應(yīng)的搜索結(jié)果列表作為一個(gè)訓(xùn)練樣例,通過(guò)優(yōu)化最優(yōu)評(píng)分函數(shù)F,對(duì)應(yīng)新的查詢,評(píng)分F對(duì)每個(gè)文檔打分,然后根據(jù)得分由高到低排序,產(chǎn)生最終的結(jié)果,對(duì)于訓(xùn)練集中的數(shù)據(jù),通過(guò)排序?qū)W習(xí)對(duì)每個(gè)問(wèn)題所對(duì)應(yīng)的不同文檔中的各個(gè)段落不斷進(jìn)行打分,通過(guò)不斷調(diào)整參數(shù)最終得到各段落的打分結(jié)果與段落0、1標(biāo)簽匹配程度最高的評(píng)分函數(shù)F,用于測(cè)試階段對(duì)測(cè)試數(shù)據(jù)的打分排序操作。

        2.2 參數(shù)訓(xùn)練

        通過(guò)排序?qū)W習(xí)對(duì)文檔進(jìn)行評(píng)分之后,需要評(píng)定問(wèn)題的答案是否位于該行,因而需要確定評(píng)分的閾值以完成對(duì)文檔行的標(biāo)記,即評(píng)分大于等于閾值,標(biāo)記為1;評(píng)分小于閾值,標(biāo)記為0。閾值的計(jì)算公式如下:

        式中:為i個(gè)問(wèn)題對(duì)應(yīng)的評(píng)分閾值,為第i個(gè)問(wèn)題最高分,為i個(gè)問(wèn)題最低分,為權(quán)重且。

        顯然對(duì)于不同的問(wèn)題,閾值選取并不相同,但要求使得整體的準(zhǔn)確率較高,即:

        因而需要對(duì)進(jìn)行確定。評(píng)估指標(biāo)F1為:

        式中:為預(yù)測(cè)標(biāo)簽為的材料數(shù),為真實(shí)標(biāo)簽為1的材料數(shù)。

        3 結(jié)果展示

        本文數(shù)據(jù)源于2018年第六屆泰迪杯數(shù)據(jù)挖掘競(jìng)賽官網(wǎng)。

        3.1 參數(shù)訓(xùn)練結(jié)果

        對(duì)文本進(jìn)行處理后,通過(guò)排序?qū)W習(xí)對(duì)問(wèn)題進(jìn)行檢索,進(jìn)而可對(duì)應(yīng)生成各個(gè)passage的評(píng)分,同時(shí)還必須對(duì)對(duì)應(yīng)passage進(jìn)行標(biāo)記,對(duì)于上優(yōu)化模型,通過(guò)訓(xùn)練集中的3萬(wàn)條問(wèn)題,通過(guò)排序?qū)W習(xí)生成評(píng)分,進(jìn)而導(dǎo)入到優(yōu)化模型,訓(xùn)練得到L值與F1的關(guān)系如下圖。

        顯然根據(jù)圖像,當(dāng)L位于0.5-0.6之間時(shí)評(píng)價(jià)指標(biāo)F1能夠達(dá)到最大,具體計(jì)算求得L=0.55,F(xiàn)1max=0.54。

        3.2 結(jié)果分析

        針對(duì)問(wèn)題的文檔進(jìn)行評(píng)分,顯然按照評(píng)分進(jìn)行排序,評(píng)分越高,則其為正確答案概率就越高,則理應(yīng)作為最佳推薦結(jié)果,但實(shí)際上在排序中發(fā)現(xiàn),當(dāng)某些文檔評(píng)分最高時(shí),其卻往往不對(duì)應(yīng)為正確答案,進(jìn)而討論排名處于前三的為正確答案的比率,如下圖所示。

        排名前三的累積答案準(zhǔn)確率如下圖。

        顯然,由圖可知排名為第一的對(duì)應(yīng)答案準(zhǔn)確率為65%以上,在排名前二答案中答案準(zhǔn)確率超過(guò)80%,對(duì)于問(wèn)題基本能夠滿足要求。

        4 結(jié)語(yǔ)

        結(jié)合數(shù)據(jù),確定得分結(jié)果與標(biāo)簽最佳匹配狀態(tài)下的最優(yōu)參數(shù),從而得到所有測(cè)試數(shù)據(jù)的標(biāo)簽輸出。結(jié)果表明:得分最高的答案是正確解的比例達(dá)到 56.3%;得分前三包含正確解的概率達(dá)到83.8%,得分前五包含正確解的概率達(dá)到 92.9%。最終得到訓(xùn)練集的F1值為 0.54。對(duì)于文本存在多選答案的情況,能夠起到較好的閱讀輔助作用。

        參考文獻(xiàn):

        [1] 高明霞,劉椿年. 基于約束的自然語(yǔ)言問(wèn)題到OWL的語(yǔ)義映射方法研究[J]. 電子學(xué)報(bào),2007,35(8):1598-1602.

        [2] 張琪玉. 關(guān)于自然語(yǔ)言檢索問(wèn)題[J]. 圖書(shū)館論壇,2004,24(6):211-213.

        [3] 郭慶琳,樊孝忠. 自然語(yǔ)言理解與智能檢索[J]. 信息與控制,2004,33(1):120-123.

        [4] 晏創(chuàng)業(yè),張玉峰. 智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索[J]. 中國(guó)圖書(shū)館學(xué)報(bào),2002,28(3):49-51.

        [5] 胡學(xué)鋼,董學(xué)春,謝飛. 基于詞向量空間模型的中文文本分類方法[J]. 合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,30(10):1261-1264.

        [6] 邢超. 智能問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 北京交通大學(xué),2015:6-28.

        [7] 謝逸,饒文碧,段鵬飛,等. 基于CNN和LSTM混合模型的中文詞性標(biāo)注[J].武漢大學(xué)學(xué)報(bào)(理學(xué)版),2017,63(3):246-250.

        [8] 李超,柴玉梅,南曉斐,等. 基于深度學(xué)習(xí)的問(wèn)題分類方法研究[J]. 計(jì)算機(jī)科 ,2016,43(12):115-119.

        作者簡(jiǎn)介:

        李海闊,男,1997,四川南充人,主要從事應(yīng)用數(shù)學(xué)研究,15328079311,LHKfromswpu@163.com

        午夜高清福利| 97久人人做人人妻人人玩精品| 一本色道无码道dvd在线观看| 玩弄放荡人妻一区二区三区| 国产精品毛片99久久久久| 国产内射一级一片内射高清视频1| 中文人妻av久久人妻水蜜桃| 午夜亚洲av永久无码精品| 成人无码视频在线观看网站| 青青草成人原视频在线播放视频| 性高朝久久久久久久3小时| 中文成人无字幕乱码精品区| 精品囯产成人国产在线观看| 男的和女的打扑克的视频| 亚洲中文字幕日产无码| 少妇人妻偷人精品免费视频| 99热成人精品国产免| 精品色老头老太国产精品| 亚洲gay片在线gv网站| 人妻在线日韩免费视频| 亚洲一区区| 蜜桃精品视频一二三区| 成人精品视频一区二区| 亚洲国产毛片| 东京道一本热码加勒比小泽| 国产极品裸体av在线激情网| 久久www免费人成人片| 日韩精品成人无码AV片| 99精品人妻少妇一区二区三区| 艳妇臀荡乳欲伦69调教视频| 99精品电影一区二区免费看| 亚洲精品日本久久久中文字幕| 日本一区二区不卡精品| 99在线精品免费视频九九视| 天天插视频| 成人大片在线观看视频| 乱中年女人伦av一区二区| 久久久男人天堂| 在线视频播放观看免费| 久久久亚洲av波多野结衣| 又黄又爽又高潮免费毛片|