亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談針對明清小說文本的知識抽取方法

        2020-05-21 16:23:24顧磊
        科技視界 2020年10期
        關(guān)鍵詞:文本方法模型

        顧磊

        摘 要

        明清小說歷經(jīng)數(shù)百的流傳,已成為中華民族的文化瑰寶,而針對明清小說文本的知識抽取則是信息社會時(shí)代下古籍?dāng)?shù)字化研究的重要方式。本文首先介紹了文本知識抽取方法的研究現(xiàn)狀,其次就當(dāng)前明清小說文本知識抽取方法研究中存在的問題進(jìn)行了探討。

        關(guān)鍵詞

        小說文本;知識抽取;中文分詞;命名實(shí)體識別

        中圖分類號: TP391.1? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼: A

        DOI:10.19694/j.cnki.issn2095-2457 . 2020 . 10 . 04

        0 引言

        明清小說的作者多出生或生活在江浙皖一帶,與這一地區(qū)有著不解之緣。例如:《西游記》作者吳承恩江蘇漣水人,后定居在江蘇淮安;《儒林外史》作者吳敬梓安徽全椒人,后遷居至今日的江蘇南京;《三國演義》作者羅貫中則出生于浙江杭州。由于小說作者的生活背景,這些明清小說內(nèi)容多就地取材于當(dāng)?shù)氐纳鐣?,反映了明清時(shí)期江浙皖地區(qū)的社會百態(tài),例如《紅樓夢》中的金陵指的就是江蘇南京。因此明清小說在中國文化史和文學(xué)史上有著極其重要的地位,作為一種文化藝術(shù)的形式存在,小說表達(dá)了當(dāng)時(shí)的社會愿望,更傳播了積極向上的道德精神[1]。當(dāng)今社會是互聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能的時(shí)代,在這樣的時(shí)代背景下,如何利用智能技術(shù)進(jìn)一步挖掘與研究這些小說的價(jià)值,并讓其煥發(fā)出新的生命力,將是古籍?dāng)?shù)字化工作者研究的新的挑戰(zhàn),而首要的任務(wù)就是抽取明清小說文本中的知識。文本知識的抽取是知識庫或知識圖譜構(gòu)建的基石,有利于搭建真正面向普通型用戶和專家型用戶的明清小說智能信息檢索平臺;而其意義不僅在于對中華文化的保護(hù)與弘揚(yáng),而且有助于為社會大眾提供信息咨詢及服務(wù)化功能。

        1 文本知識抽取方法的研究現(xiàn)狀

        明清小說多為電子文本形式,而文本中知識的抽取如圖1所示,主要分為:分詞與詞性標(biāo)注、命名實(shí)體識別和實(shí)體間關(guān)系抽取等三個(gè)步驟。一個(gè)小說的電子文本先經(jīng)過分詞與詞性標(biāo)注,形成標(biāo)注后的文本,再從該標(biāo)注文本中提取相關(guān)實(shí)體,即所謂的命名實(shí)體識別,依據(jù)上下文環(huán)境再找出實(shí)體間的相互關(guān)聯(lián),即關(guān)系抽取,最后以實(shí)體及實(shí)體間關(guān)系為基礎(chǔ),構(gòu)建小說知識庫。

        首先,分詞與詞性標(biāo)注是知識抽取的第一步。分詞是指將一個(gè)句子中的字符切分為詞的過程,而詞性標(biāo)注則是為句中每個(gè)詞賦予一個(gè)詞性[2],分詞與詞性標(biāo)注是中文信息處理的重要技術(shù)之一。傳統(tǒng)的分詞與詞性標(biāo)注方法大致有三種,即基于詞典的方法,基于統(tǒng)計(jì)的方法和基于規(guī)則的方法[3]。例如:文獻(xiàn)[4]利用分詞詞典建立Hash表,并利用最大匹配算法進(jìn)行中文分詞;文獻(xiàn)[5]提出了統(tǒng)計(jì)方法與詞典方法相結(jié)合的中文分詞方法,該方法具有較好的領(lǐng)域自適應(yīng)性;而文獻(xiàn)[6]則利用統(tǒng)計(jì)和規(guī)則兩者結(jié)合來進(jìn)行漢語語義分析,從而實(shí)現(xiàn)對詞語詞性的標(biāo)注。其次,命名實(shí)體識別是知識抽取的第二步。命名實(shí)體識別的主要任務(wù)是從文本中將人名、地名、時(shí)間、年份等專有名稱和有意義的詞語找出并歸類[7]。傳統(tǒng)的命名實(shí)體識別方法多是基于統(tǒng)計(jì)學(xué)習(xí)的,例如:文獻(xiàn)[8]在分析詞語前綴、后綴以及其他組合的基礎(chǔ)上,利用條件隨機(jī)場來進(jìn)行中文命名實(shí)體識別。文獻(xiàn)[9]提出了一種基于層疊條件隨機(jī)場模型的中文命名實(shí)體自動識別算法。最后,實(shí)體間關(guān)系的抽取是知識抽取的第三步。實(shí)體間關(guān)系抽取的目的是從語言文本中辨別出若干個(gè)實(shí)體間所存在的語義關(guān)系[10]。同樣地,傳統(tǒng)的實(shí)體間關(guān)系抽取依然是以統(tǒng)計(jì)學(xué)習(xí)方法為主,例如:文獻(xiàn)[11]將實(shí)體關(guān)系分為包含與非包含兩類,并利用條件隨機(jī)場模型進(jìn)行關(guān)系的抽取。

        近年來,隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,基于深度學(xué)習(xí)的知識抽取方法逐漸有替代傳統(tǒng)方法的趨勢,各種基于深度神經(jīng)網(wǎng)絡(luò)模型的中文分詞與詞性標(biāo)注方法、中文命名實(shí)體識別方法和實(shí)體間關(guān)系抽取方法層出不窮。這里僅以近三年的一些文獻(xiàn)中的方法為例。2017年,文獻(xiàn)[12]提出了一種用于中文分詞的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型,該模型的特點(diǎn)是以長短時(shí)記憶網(wǎng)絡(luò)作為模型的隱藏層;文獻(xiàn)[13]針對詞特征錯(cuò)誤較多的問題,提出了字特征和詞特征相結(jié)合的深度學(xué)習(xí)模型,從而提高了中文命名實(shí)體識別的正確率;文獻(xiàn)[14]提出了一種適合多語言文本實(shí)體間關(guān)系抽取的神經(jīng)網(wǎng)絡(luò)模型,該模型是對基于單語言注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型的改進(jìn)和擴(kuò)展。2018年,文獻(xiàn)[15]提出了一種簡單而有效的sequence-to-sequence長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型,該模型在對中文文本進(jìn)行分詞的同時(shí),還可以進(jìn)行詞性標(biāo)注,屬于一種分詞與詞性標(biāo)注聯(lián)合模型;文獻(xiàn)[16]探討了深度神經(jīng)網(wǎng)絡(luò)在片段級中文命名實(shí)體識別中的應(yīng)用;文獻(xiàn)[17]提出了一種基于注意力機(jī)制的膠囊深度神經(jīng)網(wǎng)絡(luò)模型,并借助多示例和多標(biāo)記學(xué)習(xí)方法來實(shí)現(xiàn)實(shí)體關(guān)系的抽取。2019年,文獻(xiàn)[18]針對雙向長短時(shí)記憶網(wǎng)絡(luò)結(jié)構(gòu)處理中文分詞時(shí)輸入特征不夠豐富、語義不全等問題,提出了一種可用于中文分詞的膨脹卷積神經(jīng)網(wǎng)絡(luò)模型;文獻(xiàn)[19]提出了一種雙重對抗遷移神經(jīng)網(wǎng)絡(luò)模型,并用于命名實(shí)體識別中;文獻(xiàn)[20]提出了一種新的深度神經(jīng)網(wǎng)絡(luò)模型來實(shí)現(xiàn)端到端實(shí)體間關(guān)系抽取,而這種神經(jīng)網(wǎng)絡(luò)模型可以利用基于n-gram的注意力機(jī)制來獲取相互間有關(guān)聯(lián)的實(shí)體。

        2 當(dāng)前存在的問題

        基于上節(jié)對文本知識抽取相關(guān)方法研究現(xiàn)狀的總結(jié),我們可以看出盡管當(dāng)前知識抽取的研究如火如荼,但是針對明清小說文本的知識抽取研究仍然存在如下一些問題:

        (1)明清小說中使用的語言多為古白話文,這與現(xiàn)代漢語有所不同,而當(dāng)前的知識抽取方法或模型主要是以現(xiàn)代漢語文本作為語料庫或訓(xùn)練樣本集的,并不能直接適用或完全適用于明清小說文本的處理上。

        (2)基于明清小說語言模式的語料庫,即分詞語料庫、已標(biāo)注詞性的語料庫、已標(biāo)注命名實(shí)體的語料庫和實(shí)體關(guān)系語料庫,都比較少或都不夠成熟。構(gòu)建這些語料庫將會是今后研究的重點(diǎn)。

        (3)當(dāng)前的命名實(shí)體識別和實(shí)體間關(guān)系的抽取多針對結(jié)構(gòu)化或半結(jié)構(gòu)化文本數(shù)據(jù),而明清小說本文一般屬于非結(jié)構(gòu)化數(shù)據(jù),其處理的難度遠(yuǎn)高于結(jié)構(gòu)化或半結(jié)構(gòu)化文本數(shù)據(jù),因此這將是今后文本知識抽取相關(guān)方法或模型的研究中面臨的巨大挑戰(zhàn)。

        3 結(jié)論

        針對明清小說文本的知識抽取研究還處于初級階段,缺少實(shí)用性和通用性強(qiáng)的方法或模型。如何借助當(dāng)前現(xiàn)代漢語文本知識抽取方法研究的已有成果,將是相關(guān)工作的研究者們亟須解決的重要問題。相信隨著今后研究工作的深入展開,明清小說知識抽取方法上的豐碩成果定會為相關(guān)知識圖譜的構(gòu)建以及智能信息檢索平臺的搭建打下堅(jiān)實(shí)的基礎(chǔ)。

        參考文獻(xiàn)

        [1]韓亮.淺析明清小說及其在中國文化歷史上的重要地位[J].商情,2017,(32):259.

        [2]楊世超.古漢語分詞與詞性標(biāo)注方法研究[D].華北理工大學(xué),唐山,2018.

        [3]梁喜濤,顧磊.中文分詞與詞性標(biāo)注研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,(2):175-180.

        [4]張海營.全二分快速自動分詞算法構(gòu)建[J].現(xiàn)代圖書情報(bào)技術(shù),2007,(4):52-55.

        [5]張梅山,鄧知龍,車萬翔,等.統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J].中文信息學(xué)報(bào),2012,(2):8-12.

        [6]陳小芳,張桂平,蔡東風(fēng),等.基于統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語術(shù)語語義分析方法[C].第六屆全國信息檢索學(xué)術(shù)會議,黑龍江牡丹江,中國,2010:488-495.

        [7]孫鎮(zhèn),王惠臨.命名實(shí)體識別研究進(jìn)展綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010,(6):42-47.

        [8]Aaron L.F. Han, Derek F. Wong, Lidia S. Chao, Chinese named entity recognition with conditional random fields in the light of Chinese characteristics[C].Proceedings of Intelligent Information Systems Symposium, Warsaw, Poland, 2013:57-68.

        [9]周俊生,戴新宇,尹存燕,等.基于層疊條件隨機(jī)場模型的中文機(jī)構(gòu)名自動識別[J].電子學(xué)報(bào),2006,(5):804-809.

        [10]武文雅,陳鈺楓,徐金安,等.中文實(shí)體關(guān)系抽取研究綜述[J].計(jì)算機(jī)與現(xiàn)代化,2018,(8):21-27.

        [11]黃鑫,朱巧明,錢龍華,等.基于特征組合的中文實(shí)體關(guān)系抽取[J].微電子學(xué)與計(jì)算機(jī),2010,(4):198-200.

        [12]胡婕,張俊馳.雙向循環(huán)網(wǎng)絡(luò)中文分詞模型[J].小型微型計(jì)算機(jī)系統(tǒng),2017,(3):522-526.

        [13]張海楠,伍大勇,劉悅.基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識別[J].中文信息學(xué)報(bào),2017,(4):28-35.

        [14]Yankai Lin, Zhiyuan Liu, Maosong Sun, Neural relation extraction with multi-lingual attention[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, 2017:34-43.

        [15]Meishan Zhan, Nan Yu, Guohong Fu, A simple and effective neural model for joint word segmentation and POS tagging[J].IEEE/ACM Transactions on Audio, Speech and Language Processing, 2018,26(9): 1528-1538.

        [16]王蕾,謝云,周俊生等,基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實(shí)體識別[J].中文信息學(xué)報(bào),2018,(3):84-90.

        [17]Ningyu Zhang, Shumin Deng, Zhanling Sun, et.al., Attention-based capsule networks with dynamic routing for relation extraction[C].Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, 2018:986-992.

        [18]王星,李超,陳吉.基于膨脹卷積神經(jīng)網(wǎng)絡(luò)模型的中文分詞方法[J].中文信息學(xué)報(bào),2019,(9):24-30.

        [19]Joey Tianyi Zhou, Hao Zhang, Di Jin, et.al., Dual adversarial neural transfer for low-resource named entity recognition[C].Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, 2019:3461-3471.

        [20]Bayu Distiawan Trisedya, Gerhard Weikum, Jianzhong Qi, et.al., Neural relation extraction for knowledge base enrichment[C].Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, 2019:229-240.

        猜你喜歡
        文本方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        无码av天堂一区二区三区| 免费蜜桃视频在线观看| 青青草激情视频在线播放| 99在线精品免费视频| 人妻av中文字幕无码专区| 国产91吞精一区二区三区| 冲田杏梨av天堂一区二区三区| 日韩人妻中文字幕专区| 国产伦精品一区二区三区妓女| 四虎国产精品永久在线无码| 亚洲欧洲美洲无码精品va | 国模精品一区二区三区| 中文字幕人妻少妇伦伦| 亚欧中文字幕久久精品无码| 男女边吃奶边做边爱视频| 天堂av无码大芭蕉伊人av孕妇黑人| 亚洲一区二区三区在线视频| 久久精品国产清自在天天线| 免费a级毛片无码a| AV无码专区亚洲AVL在线观看 | 在线观看播放免费视频| 2021亚洲国产精品无码| 熟妇人妻无乱码中文字幕| 久久精品国产6699国产精| 97中文乱码字幕在线| 免费观看成人欧美www色| 无码综合天天久久综合网| 韩国精品一区二区三区| 一区二区三区日韩毛片| 亚洲色大成网站www永久| 日本无遮挡吸乳呻吟视频| 成人免费无码视频在线网站| 亚洲日本高清一区二区| 欧美牲交videossexeso欧美| 馬与人黃色毛片一部| 日韩精品一二区在线视频| 日韩三级一区二区不卡| 樱桃视频影视在线观看免费| 亚洲日韩欧美一区二区三区| 精品亚洲一区二区在线观看| 欧洲熟妇色|