亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python的中文分詞技術(shù)探究

        2021-01-08 02:16:42史國舉
        無線互聯(lián)科技 2021年23期
        關(guān)鍵詞:自然語言處理分詞

        摘 要:中文分詞屬于自然語言處理技術(shù)子集,對中文分詞技術(shù)的研究由來已久,文章基于Python結(jié)巴分詞,從概述、分類、方法、挑戰(zhàn)、應(yīng)用及現(xiàn)狀等對中文分詞技術(shù)進行探究,旨在拋磚引玉,以供借鑒。

        關(guān)鍵詞:分詞;中文分詞;Jieba;自然語言處理

        1 中文分詞技術(shù)的概述

        在漢語語言學(xué)界,“詞”這一概念一直是個纏繞不清、不可逾越的問題?!霸~是什么”(詞的抽象定義)和“什么是詞”(詞的具體界定),這兩個基本問題迄今為止還沒有得到一個權(quán)威、明確的表述,很難找到能引起大眾共鳴的詞表。眾所周知,相對于以英文為代表的拉丁語系語言,英文使用空格作為自然的分隔符,而中文由于繼承了古代漢語的傳統(tǒng),詞與詞之間并無分隔[1]。而在現(xiàn)代漢語中則以雙字或多字占多數(shù),一個字再也不等同于一個詞,如果把字作為分詞的最小單位,它的粒度太小,不能表達完整的意思,而句子的粒度太大,承載的信息太多,很難重復(fù)使用。通俗地說,中文分詞就是由機器在中文文本中的詞和詞之間自動添加分界線,是中文信息處理的基礎(chǔ),是自然語言處理(NLP)的子集,其實質(zhì)就是劃界。

        2 中文分詞技術(shù)的分類

        經(jīng)過近30年的探究,中文分詞從提出到現(xiàn)在,已經(jīng)提出了很多方法,如規(guī)則分詞、統(tǒng)計分詞和混合分詞。但至今還沒有推出一套很好的中文分詞系統(tǒng)。規(guī)則分詞是最早出現(xiàn)的一種分詞方法,主要通過人工建立詞庫,按照一定的方式進行匹配切分,操作簡單,效率高,但是難以處理新詞。在統(tǒng)計機器學(xué)習(xí)技術(shù)興起的今天,只有把統(tǒng)計機器學(xué)習(xí)應(yīng)用到分詞任務(wù)中,形成統(tǒng)計分詞,才能更好地應(yīng)付諸如新單詞發(fā)現(xiàn)等特殊情況。但在實際應(yīng)用中,單純的統(tǒng)計分詞也存在著缺陷,即對語料質(zhì)量的過分依賴,因而更多地采用二者結(jié)合,即混合分詞。

        3 ? 中文分析技術(shù)的方法

        研究表明,現(xiàn)有的分詞方法主要有3種類型。

        3.1? 基于字符串匹配的分詞方法

        字符串匹配的分詞方法(又稱為“機械分詞法”),就是用待分析的漢字符串與一個“足夠大”的機器詞典來匹配,如果在詞典中發(fā)現(xiàn)了某個字符串,就會匹配成功。常見的有正向最大匹配法、反向最大匹配法、最小分割法、雙向最大匹配法等。

        3.2? 基于理解的分詞方法

        其基本思想是在分詞時進行句法、語義分析,并利用句法和語義信息處理歧義。其基本結(jié)構(gòu)分為3個部分:分詞子系統(tǒng)、語義子系統(tǒng)和總控部分。分詞子系統(tǒng)在總控部分的協(xié)調(diào)下,可以獲取與詞、句等相關(guān)的句法和語義信息,從而對分詞歧義進行判斷,即模擬人對句子的理解過程,這種分詞方法需要許多語言知識和信息,鑒于漢語知識的廣泛性和復(fù)雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。

        3.3? 基于統(tǒng)計的分詞方法

        在分析了大量已分詞文本的基礎(chǔ)上,利用統(tǒng)計機器學(xué)習(xí)模型學(xué)習(xí)詞匯切分的規(guī)則(機器訓(xùn)練)[2],從而得到未知文本的切分。比如最大概率分詞方法、最大熵分詞方法等。隨著大規(guī)模語料庫的建立以及統(tǒng)計機器學(xué)習(xí)方法的研究和發(fā)展,基于統(tǒng)計的中文分詞方法逐漸成了主流方法[3]。

        4 中文分詞技術(shù)的挑戰(zhàn)

        隨著時代的發(fā)展,中文分詞技術(shù)應(yīng)運而生,它在很大程度上滿足了人們對自然語言處理的需求,解決了人類與計算機通信的一些障礙。但是,中文分詞技術(shù)在分詞規(guī)范、歧義切分、新詞識別等方面也存在諸多困難。

        4.1? 分詞規(guī)范

        在中文語言中,詞的概念不清楚是最大的難題。詞語的組合和界定十分模糊,這是一項復(fù)雜而龐大的工作。雖然現(xiàn)在已出現(xiàn)了一些標(biāo)準(zhǔn),但在實際操作中難以運用,所以目前還沒有合理的可操作的理論和標(biāo)準(zhǔn),導(dǎo)致中文分詞出現(xiàn)了很大的困難。

        4.2? 歧義切分

        在文本中的字符串,如果基于句子的字面意思進行理解,最終產(chǎn)生多種不同的理解方法。據(jù)調(diào)查,中文的歧義字段占中文總字?jǐn)?shù)的比例略少于1%,其中詞法歧義字段為84%,句法歧義字段為11%,語義歧義字段為3.5%,而語用歧義字段僅為1.5%。從以上數(shù)據(jù)可以看出,中文分詞是有望能夠?qū)崿F(xiàn)的,但對于詞的切分難度還是很大。歧義切分現(xiàn)象是分詞中不可避免的現(xiàn)象,是自動分詞中一個比較棘手的問題,處理歧義切分字段的能力將嚴(yán)重影響中文分詞的準(zhǔn)確性。

        4.3? 新詞識別

        新詞的識別就是對未登錄詞的識別,所謂未登錄詞是指系統(tǒng)詞典中沒有收錄的詞。例如人名、地名、公司名等專屬名詞以及各類術(shù)語、縮略詞等,無法把這些詞全部收錄到詞典中去,但這些詞經(jīng)常會在局部文本中大量出現(xiàn),所以這些詞語讓機器去識別困難是非常大的,識別這些新詞也是分詞的一個重要任務(wù)和評價分詞的重要指標(biāo)。

        5 結(jié)巴中文分詞的技術(shù)

        Python的結(jié)巴分詞,其分詞功能強大且安裝方便,可以進行簡單分詞、并行分詞、命令行分詞[4],當(dāng)然它的功能也不止于此,目前還支持停用詞、關(guān)鍵詞提取、詞性標(biāo)注、詞位置查詢等,其算法是基于隱馬爾可夫模型。下面以自然語言處理(NLP)分詞的經(jīng)典語句:“結(jié)婚的和尚未結(jié)婚的”為例,來分析結(jié)巴分詞的3種模式分詞。

        精確模式:嘗試最精確地切割句子,適合文本分析。其精確模式分詞結(jié)果為:結(jié)婚/的/和/尚未/結(jié)婚/的。

        完整模式:在句子中掃描所有可能變成成詞的詞語,速度很快,但無法解決歧義。其完整模式分詞結(jié)果為:結(jié)婚/的/和尚/尚未/未結(jié)/結(jié)婚/的。

        搜索引擎模式:在精確模式的基礎(chǔ)上,再對長詞進行切分,提高召回率,適合用于搜索引擎分詞。其搜索引擎分詞結(jié)果為:結(jié)婚/的/和/尚未/結(jié)婚/的。

        6 中文分詞的應(yīng)用

        中文處理技術(shù)與西文處理技術(shù)相比,還存在著較大的差距,很多西文處理方法無法被中文直接采用,主要原因在于中文需要分詞這一工序。中文分詞技術(shù)屬于自然語言處理技術(shù)的子集,中文分詞是其他中文信息處理的根基,因此,對中文分詞技術(shù)在機器翻譯、智能問答、文摘生成、輿情分析、知識圖譜等應(yīng)用方面的探究是一個漫長的過程[5]。

        6.1? 機器翻譯

        計算機能把一種語言翻譯成另一種語言,如百度在線翻譯,能把漢語翻譯成英語、日語、韓語、德語等其他國家語言。

        6.2? 智能問答

        計算機能夠正確回答輸入的問題。在電商網(wǎng)站中,智能問答具有非?,F(xiàn)實的價值,比如代替人工擔(dān)任客服,有許多基本而重復(fù)的問題,其實都不需要人工客服,通過智能問答系統(tǒng)可以過濾掉大量的重復(fù)問題,讓人工座席更好地為顧客服務(wù)。

        6.3? 文摘生成

        計算機能夠準(zhǔn)確歸納、總結(jié)并產(chǎn)生文本摘要。通過使用機器學(xué)習(xí)技術(shù),計算機可以自動地從文獻中提取摘要信息,從而全面、準(zhǔn)確地反映文獻的中心內(nèi)容。這種技術(shù)可以幫助人們節(jié)省大量的時間,并且更加高效。

        6.4? 輿論分析

        計算機能夠判斷和識別當(dāng)下輿論的導(dǎo)向,可以幫助分析當(dāng)前的熱點話題,分析傳播途徑和發(fā)展趨勢,對于不良的輿論導(dǎo)向能夠進行有效的控制。

        6.5? 知識圖譜

        知識點相互連接而成的語義網(wǎng)絡(luò),是表示知識發(fā)展過程與結(jié)構(gòu)關(guān)系的一系列不同的圖形,用可視化技術(shù)描述知識資源及其載體,并對知識進行挖掘、分析、構(gòu)造、繪制和展示,將其聯(lián)系起來。

        7 國內(nèi)自然語言研究的現(xiàn)狀

        從20世紀(jì)90年代開始,國內(nèi)自然語言研究進入了快速發(fā)展的時期,一系列系統(tǒng)開始大規(guī)模商業(yè)化,自然語言的研究內(nèi)容和應(yīng)用領(lǐng)域也在不斷創(chuàng)新。當(dāng)前對自然語言的研究主要包括基礎(chǔ)研究和應(yīng)用研究,其中語音和文本是其中的兩個重點?;A(chǔ)研究主要涉及計算機、語言學(xué)、數(shù)學(xué)等學(xué)科,與之相關(guān)的技術(shù)有消歧義、語法形式化等。應(yīng)用研究主要集中在應(yīng)用自然語言處理的領(lǐng)域,如資料檢索、文本分類、機器翻譯等。在國內(nèi),由于對于機器翻譯這一基本理論的研究起步較早,是任何應(yīng)用的理論基礎(chǔ),因此,語法、句法、語義分析等方面的基礎(chǔ)研究一直是研究的重點,而近年來隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,對智能檢索的研究也逐漸升溫。今后,數(shù)據(jù)科學(xué)與語言科學(xué)融合成為必然趨勢,神經(jīng)語言學(xué)、語料庫語言學(xué)、數(shù)據(jù)語言學(xué)、語言智能等在人工智能領(lǐng)域?qū)⒊蔀殛P(guān)注的焦點。

        8 結(jié)語

        本文從中文分詞技術(shù)的概述、分類、方法、挑戰(zhàn)、應(yīng)用及現(xiàn)狀等方面進行探究,并在Python環(huán)境下實現(xiàn)中文分詞。盡管中文漢字博大精深,但隨著科技的發(fā)展和人工智能化的發(fā)展,對中文分詞技術(shù)的探究不斷深入,相信今后一定能開發(fā)出高質(zhì)量、多功能的中文分詞算法,推動自然語言理解系統(tǒng)的廣泛應(yīng)用。

        [參考文獻]

        [1]曾小芹.基于Python的中文結(jié)巴分詞技術(shù)實現(xiàn)[J].信息與電腦,2019(18):38-42.

        [2]祝永志.基于Python的中文結(jié)巴分詞技術(shù)實現(xiàn)[J].通信技術(shù),2019(7):1615-1619.

        [3]孫鐵利.中文分詞技術(shù)的研究現(xiàn)狀與困難[J].信息技術(shù),2019(7):187-192.

        [4]白寧超.Python數(shù)據(jù)預(yù)處理技術(shù)與實踐[M].北京:清華大學(xué)出版社,2019.

        [5]涂銘.Python自然語言處理實戰(zhàn):核心技術(shù)與算法[M].北京:機械工業(yè)出版,2018.

        (編輯 王雪芬)

        A probe into Chinese word segmentation technology based on Python

        Shi Guoju

        (Bijie Radio and Television University, Bijie 551700, China)

        Abstract:Chinese word segmentation belongs to the subset of natural language processing technology. The research on Chinese word segmentation technology has a long history. Based on Python stuttering segmentation, this paper explores Chinese word segmentation technology from the overview, classification, method, challenge, application and status quo, aiming to throw a brick to attract jade for reference.

        Key words:word segmentation; Chinese word segmentation; Jieba;? natural language processing

        作者簡介:史國舉(1985— ),男,貴州畢節(jié)人,講師,本科;研究方向:大數(shù)據(jù)分析。

        猜你喜歡
        自然語言處理分詞
        分詞在英語教學(xué)中的妙用
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        值得重視的分詞的特殊用法
        面向機器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
        詞向量的語義學(xué)規(guī)范化
        漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
        科技視界(2016年5期)2016-02-22 11:41:39
        基于.NET的維哈柯多語種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)
        高考分詞作狀語考點歸納與疑難解析
        曰欧一片内射vα在线影院| 91精品蜜桃熟女一区二区| 一区二区三区av在线| 免费观看交性大片| 8ⅹ8x擦拨擦拨成人免费视频| 亚洲午夜福利精品久久| 久久精品一区二区三区夜夜| 麻豆精品国产av在线网址| 真多人做人爱视频高清免费 | 青青草视全福视频在线| 精品国产一区二区三区av天堂| 免费无码a片一区二三区| 国产欧美日产久久| 亚洲一区二区国产精品视频| 亚洲av乱码二区三区涩涩屋| 极品少妇小泬50pthepon| 在线精品国产一区二区| av蜜桃视频在线观看| 亚洲第一网站免费视频| 国产乱码精品一区二区三区四川人 | 色婷婷丁香综合激情| 日本视频一区二区三区在线| 国产做国产爱免费视频| 欧美人与动人物牲交免费观看| 一片内射视频在线观看| 亚洲精品av一区二区| 女人被狂躁到高潮视频免费网站| 人妻丰满av无码中文字幕| 国产理论亚洲天堂av| 色欲av伊人久久大香线蕉影院 | 欧美人与禽zozzo性伦交| 亚洲va在线va天堂va手机| 日本高清免费播放一区二区| 亚洲精品国产精品乱码在线观看| 少妇人妻200篇白洁| 久久精品中文字幕第一页| 被灌醉的日本人妻中文字幕| 中文字幕无线码| 亚洲精品乱码久久久久久麻豆不卡| 在线观看高清视频一区二区三区| 风情韵味人妻hd|