亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏文問(wèn)句分類及關(guān)鍵詞提取

        2020-02-03 08:22:00洛桑嘎登仁增多杰索南尖措才讓叁智布加
        電子技術(shù)與軟件工程 2020年6期
        關(guān)鍵詞:文本方法模型

        洛桑嘎登 仁增多杰* 索南尖措 才讓叁智 布加

        (1.西藏大學(xué)信息科學(xué)技術(shù)學(xué)院 西藏自治區(qū)拉薩市 850000 2.國(guó)家電網(wǎng)西藏電力有限公司 西藏自治區(qū)拉薩市 850000)

        藏文自然語(yǔ)言處理經(jīng)歷了幾十年的發(fā)展,現(xiàn)在已從原來(lái)的編碼研究等基礎(chǔ)研究慢慢步入詞法分析、句法分析階段。藏文問(wèn)句預(yù)處理的研究,可以應(yīng)用于藏文問(wèn)答系統(tǒng)的設(shè)計(jì),藏文輿論熱點(diǎn)話題的追蹤、藏文文本主題挖掘等研究。文本在原有研究基礎(chǔ)上研究了。本文在原有的研究基礎(chǔ)上主要實(shí)現(xiàn)了基于知識(shí)融合的藏文分詞標(biāo)注,基于疑問(wèn)詞的藏文問(wèn)句分類和基于TextRank 的藏文關(guān)鍵詞提取研究。藏文問(wèn)句的分詞標(biāo)注研究主要參考文獻(xiàn)[9][10]的內(nèi)容實(shí)現(xiàn)。關(guān)鍵詞提取主要方法有用語(yǔ)料訓(xùn)練關(guān)鍵詞提取模型,依據(jù)模型對(duì)需要提取的文檔進(jìn)行關(guān)鍵詞提取[1][2];無(wú)監(jiān)督提取無(wú)需對(duì)語(yǔ)料標(biāo)注,通過(guò)對(duì)候選詞集使用一定的算法機(jī)制將關(guān)鍵詞按重要性排序,主流的方法包括基于詞頻統(tǒng)計(jì)TF-IDF 模型[3][4]、基于主題LDA 模型[5][6]。

        1 問(wèn)句分詞標(biāo)注

        藏文詞匯以音節(jié)為基本單位,自動(dòng)分詞就是需要將連續(xù)的藏文音節(jié)序列組合成詞序。藏文的詞性標(biāo)注任務(wù)是為藏文文本中的每一個(gè)詞都標(biāo)記上一個(gè)恰當(dāng)?shù)脑~類標(biāo)記符,確定每個(gè)詞的名詞、動(dòng)詞、形容詞或其他詞類屬性。藏文除了自身獨(dú)特的語(yǔ)法特點(diǎn)還兼具漢藏語(yǔ)系的孤立語(yǔ)言特征和蒙古語(yǔ)、維吾爾語(yǔ)等黏著語(yǔ)特征,因而,結(jié)合藏文語(yǔ)言特征開展的分詞標(biāo)注研究,對(duì)其他少數(shù)民族語(yǔ)言的分詞標(biāo)注研究也具有很好的參考價(jià)值。本文采用條件隨機(jī)場(chǎng)統(tǒng)計(jì)模型進(jìn)行藏文分詞標(biāo)注,并利用藏文自身語(yǔ)言特征,采用知識(shí)融合的方式對(duì)基于條件隨機(jī)場(chǎng)模型的分詞標(biāo)注結(jié)果進(jìn)行校正,并實(shí)現(xiàn)了一個(gè)基于web 的藏文分詞標(biāo)注系統(tǒng),能自動(dòng)進(jìn)行大規(guī)模藏文文本的自動(dòng)采集、XML 格式轉(zhuǎn)換及藏文分詞和詞性標(biāo)注。本文通過(guò)基于條件隨機(jī)場(chǎng)(Conditional Random Fields,CRFs)的方法實(shí)現(xiàn)了藏文的分詞標(biāo)注任務(wù),具體實(shí)現(xiàn)參見文獻(xiàn)[8]。該文在文獻(xiàn)8 的基礎(chǔ)上,增加了命名實(shí)體識(shí)別模塊,以提高藏文自動(dòng)分詞與詞性標(biāo)注的準(zhǔn)確率。

        文本采用基于CRFs 的藏文命名實(shí)體識(shí)別方法。標(biāo)注集采用“BIEO”的標(biāo)注方法,具體如下,對(duì)于如下的藏文句子:

        Sentence 代表輸入的原始文本內(nèi)容,Target 表示經(jīng)過(guò)CRFs 標(biāo)注的結(jié)果,從上面的標(biāo)注結(jié)果可以識(shí)別出,??????????? 這個(gè)人名和 ????????這個(gè)地名。

        圖1:TextRank 詞匯圖

        命名實(shí)體識(shí)別有助于提高分詞的準(zhǔn)確性,尤其是對(duì)未登錄詞的識(shí)別。

        2 問(wèn)句分類

        問(wèn)句的分類是根據(jù)問(wèn)句的答案類型對(duì)問(wèn)句進(jìn)行分類,它是問(wèn)句分析最重要的功能之一。目前大多數(shù)這類問(wèn)答系統(tǒng)都利用答案類型來(lái)指導(dǎo)后續(xù)步驟,尤其是答案抽取策略,例如對(duì)于問(wèn)人物的問(wèn)題,答案抽取會(huì)利用人物的各種特征來(lái)提取答案候選集合。本文通過(guò)疑問(wèn)詞來(lái)確定問(wèn)句的類型,雖然這樣的方式具有一定的魯棒性,但是對(duì)于絕大數(shù)常見的問(wèn)題這種方法簡(jiǎn)單時(shí)效。如表1 所示。

        3 問(wèn)句關(guān)鍵詞提取

        3.1 基于詞匯圖原理的關(guān)鍵詞提取方法

        TextRank 算法是一種用于文本的基于圖的排序算法。該算法可以表示為一個(gè)有向有權(quán)圖G=(V,E),如圖1 所示。

        其中V 代表點(diǎn)的集合,E 代表邊的集合。圖中任意兩點(diǎn)Vi,Vj之間的權(quán)重為Wij。對(duì)于一個(gè)給定的點(diǎn)Vi,In(Vi)為指向該點(diǎn)的點(diǎn)集合,Out(Vi)為點(diǎn)Vi 指向的點(diǎn)集合。TextRank 的公式定義如下:

        3.2 算法實(shí)現(xiàn)

        本文通過(guò)TextRank 算法是實(shí)現(xiàn)關(guān)鍵詞的提取,具體實(shí)現(xiàn)步驟如下:

        表1:常見的藏文問(wèn)題分類

        第一步,把藏文文本按照分句符分成一個(gè)獨(dú)立的句子;

        第二步,每個(gè)句子按照上述方法進(jìn)行分詞和詞性標(biāo)注;

        第三步,從詞性標(biāo)注結(jié)果中保留名詞(包括命名實(shí)體)、動(dòng)詞、形容詞登等實(shí)詞的詞性,過(guò)濾掉語(yǔ)氣詞、標(biāo)點(diǎn)符號(hào)、格助詞等虛詞;

        第四步,以窗口大小為5 構(gòu)建有向圖,并計(jì)算詞語(yǔ)的共現(xiàn)概率;

        第五步,根據(jù)概率的排序結(jié)果,挑選出概率排名前N 的詞語(yǔ)作為關(guān)鍵詞。

        例如,對(duì)于如下的藏文文本:

        首先按照分句符分開上面兩個(gè)句子:

        對(duì)Sentence1 進(jìn)行分詞標(biāo)注之后得到:

        過(guò)濾掉Sentence1[tag]中的格助詞、標(biāo)點(diǎn)符號(hào)等詞,并構(gòu)建詞匯圖,計(jì)算共現(xiàn)概率,得到如下結(jié)果:

        最后將 ????? ?????????? ???? ?????? 作為候選關(guān)鍵詞。

        4 結(jié)論

        該文結(jié)合藏文分詞標(biāo)注研究并實(shí)現(xiàn)了一種基TextRank 算法的藏文關(guān)鍵詞提取技術(shù),該文在1500 句的藏文問(wèn)句上進(jìn)行了實(shí)驗(yàn)研究,總體效果較好,但是也存在一些問(wèn)題。比如,藏文分詞標(biāo)注結(jié)果中有些重要的動(dòng)詞沒(méi)有標(biāo)注出來(lái),導(dǎo)致后面提取關(guān)鍵詞時(shí)被過(guò)濾掉,另外,因藏文存在黏著詞的問(wèn)題,雖然正確提取出了問(wèn)句的關(guān)鍵詞,但是從提取出來(lái)的關(guān)鍵詞反推原文意思,存在很難理解的問(wèn)題。下一步,該文將嘗試?yán)蒙疃葘W(xué)習(xí)的方法實(shí)現(xiàn)藏文文本關(guān)鍵詞提取研究。

        猜你喜歡
        文本方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        亚洲毛片在线免费视频| 日韩精品资源在线观看免费| 国语对白做受xxxxx在线中国| 荡女精品导航| 国产人在线成免费视频麻豆| 成人午夜无人区一区二区| 国产亚洲精品国看不卡| 亚洲一道一本快点视频| 久久精品亚洲成在人线av| 免费精品人妻一区二区三区| 午夜福利一区在线观看中文字幕| 久久久久九九精品影院| 亚洲精品夜夜夜妓女网| 精品人妻人人做人人爽| 日韩一欧美内射在线观看| 蜜臀aⅴ永久无码一区二区| 午夜精品人妻中字字幕| 东京热加勒比久久精品| 夜夜高潮夜夜爽夜夜爱爱一区| 99精品久久精品一区二区| 香蕉视频在线精品视频| 久久国产成人精品国产成人亚洲| 成年女人A级毛片免| 国产精品爽爽VA吃奶在线观看| 国产网红一区二区三区| 白嫩丰满少妇av一区二区| 玩弄丰满奶水的女邻居| 无码国产一区二区三区四区 | 日本在线视频二区一区| 国产免费成人自拍视频| 午夜视频在线观看视频在线播放| 狠狠精品久久久无码中文字幕| 国产精品厕所| 国产高清一级毛片在线看| 国产午夜精品av一区二区三| 久久亚洲道色综合久久| 少妇内射兰兰久久| 欧美精品在线一区| 国产精品国产三级国产在线观| 风韵人妻丰满熟妇老熟| 亚洲 欧美 日韩 国产综合 在线|