亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        適用于報(bào)社自動(dòng)校對(duì)的中文分詞技術(shù)方案研究

        2018-07-18 17:52:04李釗熊威
        智富時(shí)代 2018年5期
        關(guān)鍵詞:評(píng)測(cè)分詞例句

        李釗 熊威

        【摘 要】報(bào)社校對(duì)軟件使用效果不盡如人意,其中一個(gè)重要原因是分詞結(jié)果不理想。文章根據(jù)報(bào)社校對(duì)業(yè)務(wù)特點(diǎn),在自建文本分詞合理結(jié)果集的基礎(chǔ)上,通過(guò)對(duì)公開(kāi)分詞工具的評(píng)測(cè)比較,探索適用于報(bào)社自動(dòng)校對(duì)的中文分詞技術(shù)方案。這對(duì)深入研究報(bào)社自動(dòng)校對(duì)系統(tǒng),提升報(bào)社新聞出版質(zhì)量意義重大。

        【關(guān)鍵詞】自動(dòng)校對(duì);中文分詞

        一、引言

        目前市場(chǎng)上校對(duì)軟件有不少,采用的自動(dòng)校對(duì)技術(shù)方法都是在中文分詞的基礎(chǔ)上,進(jìn)行分析糾錯(cuò)。分詞結(jié)果不理想,校對(duì)效果自然不會(huì)好。所以提升自動(dòng)校對(duì)效果的一個(gè)研究方向就是中文分詞研究。

        對(duì)報(bào)社而言,過(guò)去以采編為主,內(nèi)容為王,缺乏技術(shù)沉淀。近幾年,隨著融合發(fā)展,技術(shù)得到了更多重視和投入。但是要完全自主研發(fā)分詞技術(shù),依然面臨著很多困難。因此引進(jìn)第三方技術(shù)成果,來(lái)幫助實(shí)現(xiàn)定制化應(yīng)用也是報(bào)社技術(shù)發(fā)展的一種方法。只是需要結(jié)合校對(duì)業(yè)務(wù)需求選用合適的中文分詞工具。

        二、報(bào)社校對(duì)業(yè)務(wù)需求

        由于語(yǔ)言文字現(xiàn)象的復(fù)雜性,新聞文本中的差錯(cuò)類(lèi)型多種多樣。根據(jù)表現(xiàn)形式,具體分為以下幾類(lèi):

        ⑴文字差錯(cuò):這類(lèi)差錯(cuò)是新聞出版差錯(cuò)中最主要的部分,常見(jiàn)的包括錯(cuò)字、別字、多字、漏字、顛倒字、繁體字等。

        ⑵詞語(yǔ)差錯(cuò):詞語(yǔ)是語(yǔ)言系統(tǒng)中最活躍的組成形式,很多詞語(yǔ)在詞音、詞形、詞義上近似,因此容易混淆誤用。

        ⑶語(yǔ)法差錯(cuò):主要指違反漢語(yǔ)語(yǔ)法結(jié)構(gòu)規(guī)律的句子。

        ⑷政治差錯(cuò):在涉及政治敏感問(wèn)題方面,出現(xiàn)導(dǎo)向性、政策性和技術(shù)性錯(cuò)誤。

        ⑸標(biāo)點(diǎn)符號(hào)差錯(cuò):違反國(guó)標(biāo)《標(biāo)點(diǎn)符號(hào)用法》的標(biāo)點(diǎn)符號(hào)使用錯(cuò)誤。

        ⑹數(shù)字差錯(cuò):違反國(guó)標(biāo)《出版物上數(shù)字用法的規(guī)定》的數(shù)字使用錯(cuò)誤。

        ⑺計(jì)量單位差錯(cuò):違反國(guó)標(biāo)《量和單位》的計(jì)量單位使用錯(cuò)誤。

        ⑻英文拼寫(xiě)差錯(cuò):英文內(nèi)容表述中出現(xiàn)的詞語(yǔ)拼寫(xiě)錯(cuò)誤。

        ⑼知識(shí)性差錯(cuò):內(nèi)容表述中涉及的有關(guān)知識(shí)不正確。

        校對(duì)系統(tǒng)作為一種自動(dòng)化輔助工具,就是要盡可能識(shí)別并糾正以上文字差錯(cuò),以幫助校對(duì)人員減輕工作量。

        三、中文分詞工具選擇

        中文分詞技術(shù)是自然語(yǔ)言處理中一個(gè)重要組成部分,在國(guó)內(nèi)外都有幾十年的研究歷史,也有很多優(yōu)秀成熟的解決方案。目前公開(kāi)實(shí)用的中文分詞主要可分為學(xué)術(shù)類(lèi)、市場(chǎng)類(lèi)和開(kāi)源類(lèi)三種。

        ⑴學(xué)術(shù)類(lèi):由高校相關(guān)院所研發(fā),主要用于科學(xué)研究。知名代表有中科院NLPIR、哈工大LTP、斯坦福大學(xué)Stanford NLP、復(fù)旦大學(xué)FudanNLP等。目前各高校采用的分詞服務(wù)模式不盡相同,有共享版、試用版、付費(fèi)版等。

        ⑵市場(chǎng)類(lèi):科技企業(yè)基于市場(chǎng)需求和技術(shù)導(dǎo)向而研發(fā)的開(kāi)放化服務(wù)平臺(tái)。知名代表有百度AI、騰訊文智、玻森BosonNLP等。目前根據(jù)不同開(kāi)放策略,在線(xiàn)分詞授權(quán)有免費(fèi)和收費(fèi)兩種方式。

        ⑶開(kāi)源類(lèi):由個(gè)人技術(shù)研發(fā)并公布在代碼托管平臺(tái)上的開(kāi)源項(xiàng)目。知名代表有paoding、ansj、jieba、Jcseg等。這類(lèi)分詞都提供開(kāi)源代碼,只要遵循開(kāi)源協(xié)議,即可免費(fèi)使用。

        基于報(bào)社融合發(fā)展的技術(shù)成本管控和校對(duì)業(yè)務(wù)需要,選擇可免費(fèi)使用且?guī)в性~性標(biāo)注的分詞工具。所以將斯坦福大學(xué)Stanford NLP、復(fù)旦大學(xué)FudanNLP、百度AI、玻森BosonNLP、jieba、ansj、Jcseg這7款中文分詞工具作為備選對(duì)象開(kāi)展評(píng)測(cè)工作。

        四、分詞工具評(píng)測(cè)方法

        判斷分詞工具是否適用于報(bào)社自動(dòng)校對(duì),主要看分詞效果。采用黃金標(biāo)準(zhǔn)(Golden Standard),編制一份正確合理的分詞結(jié)果集作為參考開(kāi)展評(píng)測(cè)。由于評(píng)測(cè)目的是衡量適用度而非準(zhǔn)確度,因此重點(diǎn)考慮的是詞語(yǔ)切分邏輯和詞性標(biāo)注精度。根據(jù)新聞出版文本差錯(cuò)和自動(dòng)校對(duì)常見(jiàn)問(wèn)題,分詞需要具備以下六個(gè)能力維度。

        ⑴歧義識(shí)別:能識(shí)別并根據(jù)語(yǔ)境正確切分歧義內(nèi)容。

        【例句】

        “研究生命令本科生”分詞標(biāo)準(zhǔn)“研究生/名 命令/動(dòng) 本科生/名”;

        “這塊地面積小”分詞標(biāo)準(zhǔn)“這塊/代詞 地/名詞 面積/名詞 小/形容詞”。

        ⑵新詞發(fā)現(xiàn):能識(shí)別未登錄詞,并準(zhǔn)確標(biāo)注詞性。常見(jiàn)新詞有人名、地名、機(jī)構(gòu)名等。

        【例句】

        “王總和小麗結(jié)婚”分詞標(biāo)準(zhǔn)“王總/人名 和/連詞 小麗/人名 結(jié)婚/動(dòng)詞”;

        “吳江西陵印刷廠(chǎng)”分詞標(biāo)準(zhǔn)“吳江西陵印刷廠(chǎng)/機(jī)構(gòu)名”。

        ⑶短語(yǔ)組合:能識(shí)別常用的短語(yǔ)詞組。

        【例句】

        “這樣的人才能經(jīng)受住考驗(yàn)”分詞標(biāo)準(zhǔn)“這樣的人/代詞 才能/動(dòng)詞 經(jīng)受住/動(dòng)詞 考驗(yàn)/名詞”;

        “信息技術(shù)應(yīng)用于教學(xué)”分詞標(biāo)準(zhǔn)“信息技術(shù)/名詞 應(yīng)用于/動(dòng)詞 教學(xué)/名詞”。

        ⑷數(shù)字區(qū)分:能正確識(shí)別出各種數(shù)字組合詞,例如時(shí)間詞、數(shù)量詞等。

        【例句】

        “一億人有60%投票”分詞標(biāo)準(zhǔn)“一億/數(shù)詞 人/名詞 有/動(dòng)詞 60%/數(shù)詞 投票/動(dòng)詞”;

        “9月20日購(gòu)入1KG面粉”分詞標(biāo)準(zhǔn)“9月20日/時(shí)間詞 購(gòu)入/動(dòng)詞 1KG/數(shù)詞 面粉/名詞”。

        ⑸英文區(qū)分:能正確識(shí)別出各種英文組合詞,例如中英混合詞、英文單詞、網(wǎng)址、郵箱等。

        【例句】

        “一件T恤衫”分詞標(biāo)準(zhǔn)“一件/數(shù)詞 T恤衫/名詞”;

        “官網(wǎng)www.foreo.com”分詞標(biāo)準(zhǔn)“官網(wǎng)/名詞 www.foreo.com/網(wǎng)址”。

        ⑹錯(cuò)誤切分:當(dāng)文本存在錯(cuò)誤時(shí),切分結(jié)果必須要么是散串,要么依然是一個(gè)詞。

        【例句】

        “不原看到”分詞標(biāo)準(zhǔn)“不/副詞 原/副詞 看到/動(dòng)詞”;

        “新加泊旅游”分詞標(biāo)準(zhǔn)“新加泊/名詞 旅游/動(dòng)詞”。

        分詞效果評(píng)測(cè)指標(biāo)包括召回率(Recall)、準(zhǔn)確率(Precision)、F值(F-mesure)和錯(cuò)誤率(Error Rate),以下分別簡(jiǎn)記為R、P、F和ER。

        定義:N為黃金標(biāo)準(zhǔn)切分詞語(yǔ)數(shù),e為分詞錯(cuò)誤標(biāo)注詞語(yǔ)數(shù),c為分詞正確標(biāo)注詞語(yǔ)數(shù),則以上指標(biāo)計(jì)算公式如下:

        除了分詞效果,評(píng)測(cè)中文分詞工具的適用度還要考慮并發(fā)性。并發(fā)性決定自動(dòng)校對(duì)運(yùn)算性能,主要看接口并發(fā)調(diào)用的限制和方法。

        五、評(píng)測(cè)結(jié)論

        編制一份涵蓋六個(gè)維度共計(jì)2000個(gè)例句的分詞結(jié)果測(cè)試集,對(duì)7個(gè)備選中文分詞工具進(jìn)行評(píng)測(cè),評(píng)測(cè)結(jié)果如下:

        從結(jié)果可以看出,適用于報(bào)社自動(dòng)校對(duì)效果最理想的中文分詞工具是百度AI和玻森BosonNLP,性?xún)r(jià)比最高的是ansj。

        在實(shí)際應(yīng)用中,可以采取多分詞混合使用的技術(shù)解決方案。在語(yǔ)料訓(xùn)練上使用百度AI和玻森BosonNLP,在校對(duì)算法上使用ansj。另外根據(jù)自動(dòng)校對(duì)需要,還可以對(duì)開(kāi)源分詞代碼進(jìn)行修改和優(yōu)化。至于如何進(jìn)行開(kāi)源分詞二次開(kāi)發(fā)則有待下一步研究。

        【參考文獻(xiàn)】

        [1]宋柔.計(jì)算機(jī)輔助漢語(yǔ)校對(duì)系統(tǒng)[J].當(dāng)代語(yǔ)言學(xué),2001,01,45~54.

        [2]石敏.中文文本自動(dòng)校對(duì)系統(tǒng)[D].江蘇科技大學(xué),2015.

        [3]楊爾弘,方瑩,劉冬明,喬羽.漢語(yǔ)自動(dòng)分詞和詞性標(biāo)注評(píng)測(cè)[J].中文信息學(xué)報(bào),2006,01,44~49.

        [4]黃翼彪.開(kāi)源中文分詞器的比較研究[D].鄭州大學(xué),2013.

        猜你喜歡
        評(píng)測(cè)分詞例句
        次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
        次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
        結(jié)巴分詞在詞云中的應(yīng)用
        攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
        英聲細(xì)語(yǔ)
        Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
        值得重視的分詞的特殊用法
        好詞好句
        好詞好句
        好詞好句
        国产无遮挡a片又黄又爽| 极品夫妻一区二区三区| 国产老熟女精品一区二区| 久久午夜福利无码1000合集| 18禁真人抽搐一进一出在线| 国产精品熟妇视频国产偷人| 亚洲AV手机专区久久精品| 国产一区二区三区再现| 蜜桃一区二区三区视频| 正在播放老肥熟妇露脸| 午夜丰满少妇性开放视频| 免费一级欧美大片久久网| 精品蜜臀国产av一区二区| 亚洲av网站在线观看一页| 亚洲无线码一区二区三区| 狼色精品人妻在线视频| 久久99精品这里精品动漫6| 女同重口味一区二区在线| 久久精品国产亚洲av超清| 三年片大全在线观看免费观看大全| 色老汉免费网站免费视频| 亚洲色图视频在线播放| 自拍视频在线观看国产| 国产熟妇与子伦hd| 337人体做爰大胆视频| 国内精品久久久久国产盗摄| 五十路在线中文字幕在线中文字幕 | 亚洲成a人网站在线看| 中文字幕一区二区网址| 人妻少妇偷人精品免费看| 一区二区三区人妻无码| 2021年国产精品每日更新| 亚洲国产av中文字幕| 久久久精品人妻一区二区三区妖精 | 国产精品女丝袜白丝袜 | 人妻少妇出轨中文字幕| 成年女人毛片免费视频| 亚洲av噜噜狠狠蜜桃| 青青河边草免费在线看的视频| 国产一区二区三区免费观看在线 | 蜜桃日本免费观看mv|