亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        常用中文分詞軟件在中醫(yī)文本文獻(xiàn)研究領(lǐng)域的適用性研究*

        2017-06-21 09:22:43楊海豐陳明亮趙臻
        關(guān)鍵詞:文本研究

        楊海豐,陳明亮,趙臻,2**

        (1.湖北中醫(yī)藥大學(xué)信息工程學(xué)院武漢430065;

        2.湖北中醫(yī)藥大學(xué)針灸治未病湖北省協(xié)同創(chuàng)新中心武漢430061)

        常用中文分詞軟件在中醫(yī)文本文獻(xiàn)研究領(lǐng)域的適用性研究*

        楊海豐1,陳明亮1,趙臻1,2**

        (1.湖北中醫(yī)藥大學(xué)信息工程學(xué)院武漢430065;

        2.湖北中醫(yī)藥大學(xué)針灸治未病湖北省協(xié)同創(chuàng)新中心武漢430061)

        目的:評(píng)價(jià)常見中文分詞軟件在中醫(yī)文獻(xiàn)研究領(lǐng)域的適用性,提出研發(fā)中醫(yī)文本分詞專用軟件的思路。方法:安裝和操作常見中文分詞軟件,運(yùn)用中醫(yī)文本樣本進(jìn)行分詞實(shí)驗(yàn),比較不同中文分詞軟件分詞準(zhǔn)確性、分詞速度、易操作性、可靠性、可擴(kuò)展性、可移植性等性能。結(jié)果:中文分詞軟件分詞準(zhǔn)確性、分詞速度、易操作性、可靠性、可擴(kuò)展性、可移植性等性能存在差異,難以同時(shí)使所有性能達(dá)到最優(yōu)。通過比較各種中文分詞軟件,發(fā)現(xiàn)盤古分詞軟件分詞準(zhǔn)確性最高、易用性較好且分詞效率高,最適合中醫(yī)文本分詞。結(jié)論:研發(fā)中醫(yī)文本分詞專用軟件可能是解決中醫(yī)文獻(xiàn)研究中分詞問題的最佳途徑。應(yīng)從建立中醫(yī)藥學(xué)標(biāo)準(zhǔn)語料庫,完備中醫(yī)藥學(xué)詞典庫,引進(jìn)、優(yōu)化和創(chuàng)新分詞算法,開發(fā)中醫(yī)文本分詞軟件等方面加強(qiáng)基礎(chǔ)性研究。

        中文分詞軟件中醫(yī)文本挖掘比較性研究

        文獻(xiàn)研究是繼承創(chuàng)新中醫(yī)藥理論、方法、技術(shù)和經(jīng)驗(yàn)的重要途徑。隨著中醫(yī)古籍?dāng)?shù)字化和現(xiàn)代電子化中醫(yī)文獻(xiàn)信息資源劇增,以中文分詞為基礎(chǔ)的文本分類、聚類、自動(dòng)文摘等文本挖掘方法得到廣泛重視和運(yùn)用[1-4]。中文分詞是將連續(xù)字序列按照一定規(guī)范重新組合成詞序列的過程[5],處于非結(jié)構(gòu)化中醫(yī)文本預(yù)處理的核心,被視為與中醫(yī)藥學(xué)語言系統(tǒng)建立聯(lián)系的前提[6-10],是從海量中醫(yī)文獻(xiàn)中提取隱含知識(shí)的關(guān)鍵。中醫(yī)文本分詞工具是實(shí)現(xiàn)中醫(yī)文獻(xiàn)研究轉(zhuǎn)向智能文本挖掘的關(guān)鍵?,F(xiàn)階段國內(nèi)外有關(guān)中文分詞理論、方法和技術(shù)的研究多數(shù)仍處理論或?qū)嶒?yàn)階段且偏向自然語言處理和信息檢索,成型可用的中文分詞軟件較少;中醫(yī)文本分詞則以《中醫(yī)藥學(xué)主題詞表》、《中醫(yī)藥學(xué)常用名詞術(shù)語詞典》等詞性標(biāo)注研究為主,對(duì)中醫(yī)文本分詞的算法優(yōu)化研究、軟件研究[6]較為少見。本文通過比較常見中文分詞軟件的性能,結(jié)合中醫(yī)文本分詞特點(diǎn)推薦適用的工具,并初步探討研發(fā)中醫(yī)文本分詞軟件的思路。

        1 資料與方法

        1.1 研究對(duì)象的確定

        以“全文=‘中文分詞工具’OR‘中文分詞軟件’”為檢索式,在中國知網(wǎng)、萬方、維普等數(shù)據(jù)庫中檢索近20年發(fā)表的期刊論文共1 318篇(去重后),提取文中用于中文分詞的軟件名稱,統(tǒng)計(jì)軟件(不含研究者自行開發(fā)的軟件)使用的頻數(shù)。選擇頻數(shù)排位較高的7種軟件作為研究對(duì)象,分別是:IKAnalyzer、SCWS、PHPAnalysis、CIPP_JS分詞、盤古分詞、Jieba分詞、NLPIR。

        1.2 資料來源

        參考上述7種中文分詞軟件的開發(fā)商官網(wǎng)、幫助文檔及有關(guān)論文,獲取各軟件開發(fā)技術(shù)、主要功能、分詞算法等方面的信息。

        1.3 材料與方法

        1.3.1 研究方法

        根據(jù)業(yè)內(nèi)專家[11,12]對(duì)中文分詞系統(tǒng)的評(píng)估要求,選擇分詞準(zhǔn)確性、分詞效率、易操作性、可擴(kuò)展性、可移植性等性能作為評(píng)價(jià)指標(biāo)。采用方便抽樣從某中醫(yī)藥大學(xué)信管專業(yè)大四某班學(xué)生中抽選5人,提前告知測(cè)試者研究目的、程序和要求,但不培訓(xùn)7種分詞軟件的安裝調(diào)試方法。讓每個(gè)學(xué)生在實(shí)驗(yàn)室用同型號(hào)同配置計(jì)算機(jī)獨(dú)自安裝和調(diào)試7種分詞軟件,并用指定中醫(yī)文本完成分詞實(shí)驗(yàn),之后對(duì)各軟件分詞速度、易操作性、可擴(kuò)展性、可移植性等性能作出主觀評(píng)價(jià),最后由研究人員匯總綜合。

        1.3.2 實(shí)驗(yàn)環(huán)境及材料

        實(shí)驗(yàn)環(huán)境:選用某中醫(yī)藥大學(xué)計(jì)算機(jī)實(shí)驗(yàn)中心5臺(tái)同型號(hào)同配置的PC機(jī)(Intel core i5四核、6 G內(nèi)存),在每臺(tái)PC機(jī)上提前新裝各分詞軟件運(yùn)行環(huán)境(操作系統(tǒng)均安裝Windows 7、Solr 4.1、Tomcat 7、JDK 1.8_65/64位)。

        實(shí)驗(yàn)材料:節(jié)選邱茂良主編(上??茖W(xué)出版社出版,第五版)的《針灸學(xué)》中十二經(jīng)絡(luò)與奇經(jīng)八脈(第1.2.1小節(jié))的敘述部分,共計(jì)2007字。

        1.3.3 數(shù)據(jù)處理與分析

        手工記錄測(cè)試者對(duì)軟件的主觀評(píng)價(jià)并要求測(cè)試人員認(rèn)定,然后計(jì)算分詞準(zhǔn)確率、召回率及其綜合分類率,對(duì)易操作性、可擴(kuò)展性、可移植性等性能作出定性評(píng)價(jià)。

        2 結(jié)果

        2.1 基本情況比較

        7種分詞軟件均發(fā)布于近10年,除IKAnalyzer、 Jieba分詞為工具類庫外,其他5種均為獨(dú)立運(yùn)行使用的軟件系統(tǒng),軟件的詳細(xì)介紹見表1。從所用算法看,IKAnalyzer、SCWS、PHPAnalysis等主要采用以詞典或(和)規(guī)則為基礎(chǔ)的字符串匹配的分詞算法,而盤古分詞、Jieba分詞、NLPIR則主要采用以統(tǒng)計(jì)或(和)規(guī)則為基礎(chǔ)的分詞算法。此外,其中5種工具均支持某種開源協(xié)議。

        2.2 分詞準(zhǔn)確度比較

        分詞準(zhǔn)確度指相對(duì)同一段語料而言,軟件分詞結(jié)果與人工分詞結(jié)果的一致性程度,主要體現(xiàn)分詞軟件處理歧義切分的能力。在給定的測(cè)試環(huán)境下,分別用7種分詞軟件測(cè)試以下兩段針灸學(xué)文本(表2),以針灸學(xué)專家人工標(biāo)注的分詞為參照,計(jì)算各軟件分詞準(zhǔn)確率和召回率。從各軟件分詞的結(jié)果來看(表3),準(zhǔn)確率從高到低依次為:盤古分詞、Jieba分詞、IKAnalyzer、SCWS、CIPP_JS、NLPIR、PHPAnalysis;召回率從高到低依次為:IKAnalyzer、Jieba分詞、盤古分詞、SCWS、NLPIR、CIPP_JS、PHPAnalysis。根據(jù)Van Vijsbergen于1979年提出的綜合分類率(F1)計(jì)算公式[13],調(diào)和準(zhǔn)確率和召回率后得到的F1值從高到低依次為:盤古分詞、Jieba分詞、IKAnalyzer、SCWS、NLPIR、CIPP_JS、PHPAnalysis。通過對(duì)比各軟件分詞的效果,表明盤古分詞軟件對(duì)給定中醫(yī)測(cè)試文本的分詞準(zhǔn)確性最好,PHPAnalysis最差。

        本文認(rèn)為造成各軟件分詞準(zhǔn)確度差異的主要原因:一是對(duì)中醫(yī)證候、經(jīng)絡(luò)、穴位等術(shù)語識(shí)別能力不同,如:“胃腸實(shí)熱型”普遍被拆分為“胃腸/實(shí)/熱/型/”;二是對(duì)中文歧義詞切分處理方式不同,如:“手三陽經(jīng)從手走頭”中,第1個(gè)“手”字不能單獨(dú)成詞,而第2個(gè)則可以,但第2個(gè)“手”卻被劃分為“從/手/走/頭”、“從/手走頭”甚至“經(jīng)從手/走頭”。

        表1 7種常見中文分詞軟件基本情況比較

        表2 測(cè)試文本原文及其人工分詞結(jié)果

        2.3 分詞速度比較

        分詞速度一般指分詞軟件在特定運(yùn)行環(huán)境下單位時(shí)間內(nèi)完成分詞的文本字?jǐn)?shù)。由于軟件處理能力受硬件環(huán)境、軟件結(jié)構(gòu)、算法、網(wǎng)絡(luò)寬帶、軟件開源情況等方面影響較大,難以在嚴(yán)格實(shí)驗(yàn)條件下通過嵌入計(jì)時(shí)器程序或其他方式精準(zhǔn)計(jì)時(shí)。因此,本研究參考各軟件幫助文檔中描述的分詞速度,結(jié)合測(cè)試者對(duì)分詞速度主觀感受情況,綜合評(píng)價(jià)各軟件的分詞速度。結(jié)果表明7種軟件對(duì)所選實(shí)驗(yàn)材料的分詞速度表現(xiàn)出較大差異,其中IKAnalyzer、盤古分詞、SCWS分詞速度遠(yuǎn)高于其他4種軟件(表4)。

        表3 7種常見中文分詞軟件中醫(yī)文本分詞結(jié)果比較(按F1值大小排列)

        表4 7種常見中文分詞軟件的分詞速度比較

        2.4 易操作性比較

        易操作性一般指軟件系統(tǒng)被用戶正確安裝、使用和維護(hù)的難易程度。7種分詞軟件操作性的具體情況見表5。從表5可知,它們中除IKAnalyzer、Jieba分詞外均有可視化操作界面,多數(shù)附有用戶操作手冊(cè),但大多數(shù)不支持文本導(dǎo)入;都支持用戶自定義詞典,但提供的詞典管理工具被理解和操作的難易程度不一??傮w來看,它們操作性從易到難排序?yàn)椋篊IPP_JS分詞、盤古分詞、NLPIR、SCWS、PHPAnalysis、IKAnalyzer、Jieba分詞。

        2.5 可擴(kuò)展性比較

        可擴(kuò)展性一般指軟件系統(tǒng)被調(diào)整、擴(kuò)充、延展以適應(yīng)外部環(huán)境和需求變化的能力[14]。7種分詞軟件擴(kuò)展性的具體情況見表6。從表6可知,它們基本都提供面向不同開發(fā)語言或開發(fā)框架的接口,基本都同時(shí)支持GBK和UTF-8,除CIPP_JS分詞和NLPIR外其他均可獲取源碼??傮w上看,IKAnalyzer和Jieba分詞作為工具類庫,能十分靈活的被集成到軟件系統(tǒng)中,可擴(kuò)展性最好;SCWS、盤古分詞、NLPIR、PHPAnalysis、CIPP_JS分詞作為獨(dú)立軟件,可擴(kuò)展性依次降低。

        2.6 可移植性比較

        可移植性一般指軟件系統(tǒng)從一種環(huán)境移植到另一種環(huán)境后還能正常工作的能力[14]。7種分詞軟件移植性的具體情況見表7。從表7可知,它們基本都采用當(dāng)前主流的具有面向?qū)ο筇卣鞯牡谒拇Z言開發(fā)完成,部分軟件具有多種語言開發(fā)的版本。它們中除PHPAnalysis、CIPP_JS分詞、盤古分詞主要適用于Windows平臺(tái)外,其他均可通過適當(dāng)?shù)沫h(huán)境配置支持跨平臺(tái)運(yùn)用,尤其是NLPIR、SCWS、Jieba分詞。綜合各種因素,它們可移植性從好到差依次為:SCWS、Jieba分詞、NLPIR、IKAnalyzer、PHPAnalysis、盤古分詞、CIPP_JS分詞。

        表5 7種常見中文分詞軟件的易操作性比較

        表6 7種常見中文分詞軟件的可擴(kuò)展性比較

        表7 7種常見中文分詞軟件的可移植性比較

        3 討論

        3.1 對(duì)7種常見中文分詞工具的綜合評(píng)價(jià)

        總體上看,IKAnalyzer和Jieba分詞同為工具類庫,可擴(kuò)展性較好但不易被掌握和使用;前者分詞效率較好、分詞準(zhǔn)確性一般;后者分詞準(zhǔn)確性較好,但分詞效率一般。CIPP_JS易操作性好,但在其他指標(biāo)上表現(xiàn)均不理想。盤古分詞分詞準(zhǔn)確性和分詞效率高,且易操作性和易維護(hù)性較好,但可移植性較差。NLPIR可移植性好,易操作性和易維護(hù)性較好,但分詞準(zhǔn)確性和分詞效率低。PHPAnalysis則在各項(xiàng)指標(biāo)上表現(xiàn)均較一般。事實(shí)上,分詞準(zhǔn)確性、分詞速度、易操作性、可擴(kuò)展性、可移植性等指標(biāo)間存在固有矛盾,任何分詞軟件均不可能在這些指標(biāo)上同時(shí)達(dá)到最優(yōu)。因此,應(yīng)結(jié)合具體領(lǐng)域中中文分詞處理的實(shí)際情況選用分詞軟件,或以開源工具為基礎(chǔ)做二次開發(fā)更為可取。

        3.2 對(duì)適合中醫(yī)文獻(xiàn)研究的分詞軟件特點(diǎn)的分析

        與其他專業(yè)文獻(xiàn)相比,中醫(yī)文獻(xiàn)用語簡(jiǎn)明、結(jié)構(gòu)緊湊、詞性多變、語義豐富,中醫(yī)文本分詞除要正確識(shí)別其中的癥狀、診斷、證候、治法、治則、病名、中藥、方劑、穴位等專業(yè)術(shù)語外,還要處理類似古漢語中廣泛存在的一詞多義、詞性多變、搭配靈活、語境復(fù)雜等導(dǎo)致的歧義切分問題[6]。對(duì)于中醫(yī)文獻(xiàn)研究而言,在云計(jì)算等現(xiàn)代計(jì)算技術(shù)支持下,軟件分詞的效率、可擴(kuò)展性、可移植性已相對(duì)不重要,而分詞準(zhǔn)確性和易操作性則被視為影響中醫(yī)文本挖掘的關(guān)鍵因素。上述各軟件中,盤古分詞軟件分詞準(zhǔn)確性最高、易用性較好且分詞效率高,故7種分詞軟件中盤古分詞最適合中醫(yī)文本分詞。值得一提的是,并非其他軟件就一定不適用。如:CIPP_JS可操作性好但分詞準(zhǔn)確度較低,筆者根據(jù)CIPP_JS軟件使用指南將“手三陽經(jīng)”、“足三里”等詞匯添加到其詞典并填寫“詞性”、“詞頻”后再測(cè)試,結(jié)果分詞準(zhǔn)確度明顯提高(表8)。因此,分詞軟件是否適合于中醫(yī)文本文獻(xiàn)分詞,應(yīng)主要考察其分詞準(zhǔn)確性和易操作性。分詞準(zhǔn)確性方面應(yīng)重點(diǎn)考慮其分詞算法原理,若采用基于詞典匹配的分詞算法,則必須支持用戶添加詞條或管理詞典;若采用基于統(tǒng)計(jì)和規(guī)則的分詞算法,則必須支持語料庫導(dǎo)入并有一定的統(tǒng)計(jì)頻率、自我更新或自主學(xué)習(xí)能力。易操作性則主要考慮所提供的詞典管理工具或自主學(xué)習(xí)工具、操作簡(jiǎn)易程度和用戶體驗(yàn)。

        3.3 對(duì)研發(fā)中醫(yī)文本分詞專用軟件的思考

        現(xiàn)有分詞軟件主要面向大眾化中文分詞處理需求,研發(fā)中醫(yī)文本分詞專用軟件可能是解決中醫(yī)文獻(xiàn)研究中分詞問題的最佳途徑。通常,影響軟件分詞效果的主要因素包括詞典完備性、分詞算法設(shè)計(jì)、分詞知識(shí)組織、學(xué)習(xí)機(jī)制等[15]。我們認(rèn)為,要研發(fā)分詞效果好的中醫(yī)文本分詞專用軟件還有很長(zhǎng)一段路要走。當(dāng)前應(yīng)重點(diǎn)開展以下基礎(chǔ)性研究:一是建立中醫(yī)藥學(xué)標(biāo)準(zhǔn)語料庫,研究在開放性中醫(yī)文本語料庫中獲取、表達(dá)、檢索中醫(yī)文本分詞知識(shí)、知識(shí)的接口,為探索和優(yōu)化分詞算法提供基礎(chǔ)性資料。二是完備中醫(yī)藥學(xué)詞典庫[6]。構(gòu)建基于本體的中醫(yī)藥學(xué)概念體系,形成類似于系統(tǒng)化醫(yī)學(xué)術(shù)語集(SNOMED)的中醫(yī)藥學(xué)術(shù)語標(biāo)準(zhǔn)系統(tǒng)。擴(kuò)展中醫(yī)藥學(xué)主題詞表收詞范圍,對(duì)中醫(yī)藥學(xué)術(shù)語詞條詞性、詞語搭配、詞頻統(tǒng)計(jì)等特征進(jìn)行標(biāo)注。三是優(yōu)化和創(chuàng)新分詞算法。評(píng)價(jià)中文分詞新技術(shù)在中醫(yī)文本分詞研究中的適用性及其改進(jìn)算法。研究中醫(yī)文獻(xiàn)的語法結(jié)構(gòu)、句法結(jié)構(gòu)、語義規(guī)則、用語習(xí)慣等特征,特別是加強(qiáng)基于統(tǒng)計(jì)和規(guī)則的中醫(yī)文本分詞算法設(shè)計(jì)研究,探索基于語義理解的中醫(yī)文本分詞算法。四是開展對(duì)中醫(yī)藥學(xué)詞典結(jié)構(gòu)知識(shí),基于本體的中醫(yī)藥學(xué)術(shù)語匹配規(guī)則、句法規(guī)則、語義規(guī)則知識(shí),以及分詞軟件的開發(fā)、優(yōu)化等方面的研究。

        表8 CIPP_JS軟件在詞典調(diào)整前后分詞結(jié)果的比較

        4 小結(jié)

        綜上,本文通過安裝操作7種常用中文分詞軟件并實(shí)施小規(guī)模中醫(yī)文本分詞測(cè)試,綜合比較了這些分詞軟件在中醫(yī)文本文獻(xiàn)研究中的適用性,基于中醫(yī)文本分詞特點(diǎn)給出了恰當(dāng)選用中文分詞軟件的建議,并初步探討了研發(fā)中醫(yī)文本分詞專用軟件的思路。限于測(cè)試語料和實(shí)驗(yàn)條件限制,本文未能在嚴(yán)格實(shí)驗(yàn)環(huán)境下利用大規(guī)模非典型中醫(yī)文本語料庫更加客觀準(zhǔn)確地測(cè)量和評(píng)價(jià)這些分詞軟件,故對(duì)于試圖選用本文所述分詞軟件開展中醫(yī)文本挖掘的研究者而言,所提建議僅供參考。本文認(rèn)為,研發(fā)中醫(yī)文本分詞專用軟件是突破中醫(yī)文本歧義切分瓶頸、改善用戶體驗(yàn),解決中醫(yī)文獻(xiàn)研究分詞問題的必然途徑。下一步應(yīng)對(duì)常用中文分詞軟件實(shí)現(xiàn)算法、基本架構(gòu)及其功能特點(diǎn)作深入對(duì)比研究,同時(shí)加強(qiáng)中醫(yī)臨床各科標(biāo)準(zhǔn)語料庫研究和中醫(yī)藥學(xué)詞典庫研究,為中醫(yī)文本分詞專用軟件設(shè)計(jì)和開發(fā)提供參考、奠定基礎(chǔ)。

        參考文獻(xiàn)

        1丁曉蓉,呂毅斌,王志飛,等.基于文本挖掘技術(shù)分析類風(fēng)濕性關(guān)節(jié)炎、強(qiáng)制性脊柱炎、潰瘍性結(jié)腸炎和哮喘中醫(yī)用藥規(guī)律.世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2010,12(5):828-832.

        2譚勇,郭洪濤,鄭光,等.利用文本挖掘技術(shù)探索中醫(yī)藥治療疾病的用藥規(guī)律.世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2010,12(5):823-827.

        3周奇,陳威妮,姜淼,等.利用文本挖掘技術(shù)探索中西醫(yī)治療骨質(zhì)疏松癥的用藥規(guī)律.世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2012,14(1):1288-1293.

        4劉孟宇,周奇,鄭光,等.基于數(shù)據(jù)挖掘技術(shù)肺癌中醫(yī)藥治療用藥特點(diǎn)和規(guī)律研究.世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2013,15(3):535-538.

        5余戰(zhàn)秋.中文分詞技術(shù)及其應(yīng)用初探.電腦知識(shí)與技術(shù),2004,32:81-83.

        6張帆,劉曉峰,孫燕.中醫(yī)醫(yī)案文獻(xiàn)自動(dòng)分詞研究.中國中醫(yī)藥信息雜志,2015,22(2):38-41.

        7周雪忠.文本挖掘在中醫(yī)藥中的若干應(yīng)用研究.浙江:浙江大學(xué)博士學(xué)位論文,2004:11.

        8姚媛媛.針灸概念語義網(wǎng)絡(luò)的構(gòu)建研究.北京:中國中醫(yī)科學(xué)院碩士學(xué)位論文,2014:5-29.

        9蔡曉鴻,馬利,沈紹武,等.基于Lucene的中醫(yī)肝病文獻(xiàn)檢索與管理系統(tǒng)研究與設(shè)計(jì).中國衛(wèi)生信息管理雜志,2012,9(5):42-46.

        10蔡曉鴻,游秋云,王平.失眠癥中醫(yī)藥信息平臺(tái)構(gòu)建的思路與方法.中醫(yī)雜志,2013,54(9):747-749.

        11黃翼彪.開源中文分詞器的比較研究.鄭州:鄭州大學(xué)碩士學(xué)位論文,2013:5.

        12劉開瑛.中文文本自動(dòng)分詞和標(biāo)注.北京:商務(wù)印書館,2000:1-5.

        13李原.中文文本分類中分詞和特征選擇方法研究.長(zhǎng)春:吉林大學(xué)碩士學(xué)位論文,2011:5.

        14張倩,袁玉宇,張旸旸.《系統(tǒng)與軟件可移植性》標(biāo)準(zhǔn)中可移植性定義的研究.信息技術(shù)與標(biāo)準(zhǔn)化,2009,10:50-54.

        15關(guān)宏超.基于統(tǒng)計(jì)的開放式漢語自動(dòng)分詞.大連:大連理工大學(xué)碩士學(xué)位論文,2002:3.

        Analysis onApplicability of Common Chinese Word Segmentation Software in Literature Study of Traditional Chinese Medicine Text

        Yang Haifeng1,Chen Mingliang1,Zhao Zhen1,2
        (1.Information Engineering College of Hubei University of Chinese Medicine,Wuhan 430065,China; 2.Hubei Provincial Collaborative Innovation Center of Preventive Treatment by Acupuncture and Moxibustion, Hubei University of Chinese Medicine,Wuhan 430061,China)

        This study was aimed to evaluate the applicability of common Chinese word segmentation software used in the literature study of traditional Chinese medicine(TCM)text,in order to put forward ideas on developing specialized TCM text word segmentation software.By means of installing and operating Chinese word segmentation software,the text segmentation experiment was conducted on TCM text samples.Aspects,such Chinese word segmentation accuracy, speed,maneuverability,reliability,extendibility,portability and other characteristics,were compared among different Chinese word segmentation software.The results showed that there were differences on the accuracy,speed, maneuverability,reliability,extendibility,portability among different Chinese word segmentation software.It was difficult to achieve best performance on different aspects by single software.Through the comparison of different Chinese word segmentation software,the Pan-Gu Segment software showed the best performance on accuracy,with good maneuverability,and high word segmentation efficiency,which was the most suitable for word segmentation in TCM text. It was concluded that developing specialized TCM text segmentation software may be the best solution to meet the requirement of text segmentation in TCM literature study.Basic studies should be strengthened from aspects,such as the construction of standard TCM copus,the completion of TCM dictionary base,the introduction,optimization and innovation of word segmentation algorithm,as well as the development of word segmentation software for TCM text.

        Chinese word segmentation software,traditional Chinese medicine,text mining,comparative study

        10.11842/wst.2017.03.024

        R229

        A

        (責(zé)任編輯:王慧慧,責(zé)任譯審:王晶)

        2016-09-13

        修回日期:2016-09-14

        *針灸治未病湖北省協(xié)同創(chuàng)新中心科研項(xiàng)目(HBPCIC-2016-011):針灸治未病數(shù)據(jù)庫研究,負(fù)責(zé)人:趙臻。

        **通訊作者:趙臻,教授,博士生導(dǎo)師,主要研究方向:中醫(yī)藥數(shù)據(jù)處理與分析。

        猜你喜歡
        文本研究
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國內(nèi)翻譯研究述評(píng)
        遼代千人邑研究述論
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        在808DA上文本顯示的改善
        EMA伺服控制系統(tǒng)研究
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        新版C-NCAP側(cè)面碰撞假人損傷研究
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产高清视频91| 91国产精品自拍视频| 白白色发布的在线视频| 无码专区亚洲综合另类| 情侣黄网站免费看| 人妻在线中文字幕| 极品少妇被后入内射视| 亚洲一区二区三区少妇| 亚洲国产av无码专区亚洲av| 最近高清中文在线字幕观看| 美女窝人体色www网站| 日韩精品极视频在线观看免费| 熟妇人妻无乱码中文字幕真矢织江| 亚洲av成人无码网站大全| 亚洲欧美一区二区三区国产精| 日韩美女人妻一区二区三区| 亚洲成av人片无码不卡播放器| 丝袜美腿久久亚洲一区| 最新国产熟女资源自拍| 日日婷婷夜日日天干| 成人激情四射网| av天堂在线免费播放| 日韩乱码人妻无码系列中文字幕| 国产成人av性色在线影院色戒| 91最新免费观看在线| 隔壁人妻欲求不满中文字幕| 亚洲自偷自拍另类第1页| 把插八插露脸对白内射| 久久精品国产88久久综合| 蜜桃高清视频在线看免费1| 国产两女互慰高潮视频在线观看| 亚洲国产理论片在线播放| 精品视频在线观看一区二区有 | 中字亚洲国产精品一区二区| 在线观看一区二区三区国产| 国产精品久免费的黄网站| 无码人妻精品一区二区三18禁| 黄片在线观看大全免费视频| 久久精品国产av麻豆五月丁| 水蜜桃精品一二三| 国产免费播放一区二区|