亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)鍵詞抽取在協(xié)同管理中的應(yīng)用

        2019-06-10 09:35:31鄧時(shí)滔干陽琳趙乾
        關(guān)鍵詞:查全率分詞語料

        鄧時(shí)滔 干陽琳 趙乾

        摘 ? 要:為了自動(dòng)提取協(xié)同管理平臺(tái)中的修改意見的主題,本文從選取候選詞集和基于統(tǒng)計(jì)的抽取方法入手進(jìn)行關(guān)鍵詞抽取,首先利用維基百科作為語料庫,利用最大匹配算法生成候選詞集,然后綜合考慮了詞頻、逆文本頻率、詞長等三項(xiàng)指標(biāo),利用改進(jìn)的TF-IDF關(guān)鍵詞抽取方法,抽取關(guān)鍵詞來表示修改意見的主題。將關(guān)鍵詞與樸素貝葉斯分類算法相結(jié)合,對(duì)修改意見語料集進(jìn)行實(shí)驗(yàn),結(jié)果表明,抽取來的關(guān)鍵詞能夠更準(zhǔn)確地表示修改意見的主題。

        關(guān)鍵詞:短文本 ?候選詞集 ?關(guān)鍵詞抽取 ?TF-IDF

        中圖分類號(hào):F560.81 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào):1674-098X(2019)02(a)-0200-02

        目前,在企業(yè)協(xié)同管理平臺(tái)存有大量修改意見,需要人工對(duì)這些意見進(jìn)行分析,了解企業(yè)用戶經(jīng)常犯什么錯(cuò)誤,從而采取針對(duì)性培訓(xùn),提高企業(yè)執(zhí)行效率。但是在執(zhí)行過程發(fā)現(xiàn)工作量大、時(shí)間效率低、存在人為主觀性等缺點(diǎn)。為了克服這些缺點(diǎn),我們需要讓計(jì)算機(jī)能夠“讀懂”修改意見,根據(jù)對(duì)意見的收集可以得知用戶經(jīng)常犯的錯(cuò)誤,并挖掘出一些潛在的企業(yè)管理短板,采取針對(duì)性培訓(xùn)。

        根據(jù)評(píng)論進(jìn)行意見收集實(shí)質(zhì)是對(duì)短文本進(jìn)行關(guān)鍵詞抽取。短文本指的是篇幅小、表現(xiàn)形式多種多樣、內(nèi)容零碎的一類文本,大多都是能夠表達(dá)完整意見的語句。關(guān)鍵詞指的是代表短文本主題內(nèi)容的詞或短語,便于讀者快速理解短文本內(nèi)容并對(duì)文本進(jìn)行歸類總結(jié)。中文關(guān)鍵詞抽取一般分為通過中文分詞產(chǎn)生候選詞集和對(duì)候選詞集進(jìn)行抽取兩個(gè)部分。中文與拉丁系語言區(qū)別在于字之間沒有空格或分隔符來識(shí)別詞語的邊界,中文字可以自由組合產(chǎn)生多種含義,單個(gè)字的重復(fù)利用率高,從上述可以發(fā)現(xiàn)主要難點(diǎn)在于如何得到一個(gè)好的候選詞集和如何將其中的關(guān)鍵詞抽選出來。

        1 ?短文本候選詞集

        由于中文具有一定語義的最小單位是詞,詞與詞之間沒有明顯切分標(biāo)志,中文分詞效果的好壞直接影響到關(guān)鍵詞抽取的最終結(jié)果。如何提高分詞效果和將大量未在分詞詞典中出現(xiàn)的未定義詞(縮略語、網(wǎng)絡(luò)語言等新詞)識(shí)別出來,是中文分詞中的難點(diǎn)。特別是相對(duì)長文本,短文本中詞的數(shù)量要少得多,候選詞集的選取更是難上加難。

        為了實(shí)現(xiàn)高效的分詞,基礎(chǔ)前提是構(gòu)建一個(gè)高效的詞表,通常短文本分詞可以借助現(xiàn)有大語料庫或詞典等外來資源擴(kuò)充短文本語義特征[1],本文利用中國科學(xué)院計(jì)算技術(shù)研究所發(fā)布的免費(fèi)版分詞詞典作為分詞詞典[2],利用分詞過程中產(chǎn)生的多頻率詞和單位常用的專業(yè)術(shù)語作為分詞詞典的補(bǔ)充。

        中文分詞是將一個(gè)漢字序列切分成一個(gè)個(gè)單詞的過程。傳統(tǒng)的中文分詞算法分為三類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。本文采用了第一種方法,即按照一定的策略將漢字字符串與一個(gè)詞典中的詞進(jìn)行匹配。常見和實(shí)用的分詞匹配算法有正向最大匹配法、百度的雙向最大匹配算法BMMM和GOOGLE逆向最大匹配算法RMMM[3]。本文應(yīng)用正向最大匹配法對(duì)短文本進(jìn)行詞條匹配,具體思想是已知分詞詞典中的最長的詞條字?jǐn)?shù)為L個(gè),取評(píng)論的前L個(gè)字作為匹配字段,在分詞詞典中查找,若詞典中有這個(gè)詞,則匹配成功,就切分出來,取下一個(gè)L個(gè)字段;如果詞典中找不到該詞,則匹配失敗,將匹配失敗的詞條進(jìn)行記錄、存儲(chǔ),當(dāng)再次出現(xiàn)時(shí)進(jìn)行頻率更新,當(dāng)詞頻數(shù)等于某一個(gè)設(shè)定的值時(shí),作為未定義詞,更新分詞詞典。然后去掉匹配字段的最后一個(gè)字,重新進(jìn)行上述的操作, 直到切分出所有詞為止。

        然后過濾掉不能反映主題的停用詞,諸如“的”之類助詞和“因此”等只能反映句子語法結(jié)構(gòu)的詞語,本文的停用詞確定為所有虛詞以及標(biāo)點(diǎn)符號(hào)。

        2 ?關(guān)鍵詞抽取

        現(xiàn)有的中文關(guān)鍵詞抽取方法,主要有基于語義分析、基于規(guī)則和基于統(tǒng)計(jì)的方法?;谡Z義分析通過研究自然語言的語法關(guān)系來抽取關(guān)鍵詞,可以分為語義分析、詞法分析、句法分析和篇章分析,但是需要對(duì)文本逐步進(jìn)行分析,耗費(fèi)大量人力物力?;谝?guī)則的方法主要是通過建立關(guān)鍵詞的位置、詞性等特征規(guī)則等方法來進(jìn)行抽取,需要人工統(tǒng)計(jì)規(guī)則,規(guī)則自適應(yīng)性弱,領(lǐng)域性較強(qiáng)。基于統(tǒng)計(jì)的分析方法分為有監(jiān)督和無監(jiān)督的關(guān)鍵詞抽取方法,有監(jiān)督的關(guān)鍵詞抽取方法指的是基于決策樹、樸素貝葉斯、SVM等機(jī)器學(xué)習(xí)方法,需要大規(guī)模人工標(biāo)注的訓(xùn)練語料作為基礎(chǔ)支持,抽取效果依賴具體的訓(xùn)練語料的質(zhì)量。雖然該類方法精確度高,但是對(duì)語料需要耗費(fèi)大量的人力資源進(jìn)行標(biāo)注,而在沒有大量人工標(biāo)注的標(biāo)準(zhǔn)語料庫作為支持的情況下,無監(jiān)督的方法更加適用關(guān)鍵詞抽取的實(shí)際應(yīng)用。本文通過無監(jiān)督的統(tǒng)計(jì)TF-IDF方法確定候選詞的權(quán)重,從中篩選出權(quán)重較大者作為最終的關(guān)鍵詞。

        特征詞的挑選通常應(yīng)該具備以下原則:(1)能夠確實(shí)標(biāo)識(shí)文本內(nèi)容,即與文本主題內(nèi)容應(yīng)密切相關(guān);(2)具備將目標(biāo)文本與其他文本區(qū)分開的能力;(3)個(gè)數(shù)適中,不宜過多;(4)特征詞分離操作易實(shí)現(xiàn)。

        本文用改進(jìn)的TFIDF來衡量每個(gè)類中訓(xùn)練文檔的詞條的權(quán)重,并按照權(quán)重大小排序,從每個(gè)類中選出K(K=40)個(gè)權(quán)重最大的詞,根據(jù)這些詞語進(jìn)行了相關(guān)性分析,對(duì)管理中出現(xiàn)的問題進(jìn)行了整理。

        本文選取出來的特征詞與樸素貝葉斯NB分類算法相結(jié)合應(yīng)用于修改意見,對(duì)修改意見進(jìn)行文本分類,觀測分類效果,以確認(rèn)關(guān)鍵詞的優(yōu)劣。

        采用兩個(gè)評(píng)判指標(biāo)-查全率、查準(zhǔn)率,查全率是分類器正確判別為屬于該類的文本數(shù)與分類器預(yù)測為該類的文本數(shù)的比值;查準(zhǔn)率是分類器正確判別為屬于該類的文本數(shù)與實(shí)際屬于該類的文本數(shù)的比值;格式錯(cuò)誤的查全率為81.3%,查準(zhǔn)率為87.3%,缺項(xiàng)漏項(xiàng)的查全率為76.1%,查準(zhǔn)率為88.1%,說明關(guān)鍵詞的抽取具有一定的效果。

        3 ?結(jié)語

        為了自動(dòng)提取協(xié)同管理平臺(tái)中的修改意見的關(guān)鍵詞,本文從候選詞集選取和關(guān)鍵詞抽取方法入手,利用維基百科作為詞表生成候選詞集,從綜合考慮了詞頻、逆文本頻率、詞長等三項(xiàng)指標(biāo), 提出了改進(jìn)的TF-IDF方法,選取一部分關(guān)鍵詞,取得一定的成果。但本文未能考慮詞的位置、評(píng)論來源的重要性等外部信息對(duì)評(píng)論的影響,將是筆者下一步研究的內(nèi)容。

        參考文獻(xiàn)

        [1] 范云杰,劉懷亮.基于維基百科的中文短文本分類研究[D].西安:西安電子科技大學(xué),2013.

        [2] 錢愛兵,江嵐.基于改進(jìn) TF-IDF的中文網(wǎng)頁關(guān)鍵詞抽取[J].情報(bào)理論與實(shí)踐,2008(6):945-950.

        [3] 周滿英.百度和谷歌的中文分詞技術(shù)淺析[J].中國索引,2011(2):44-46.

        [4] 張玉芳,彭時(shí)名,呂佳.基于文本分類TFIDF方法的改進(jìn)與應(yīng)用[J].計(jì)算機(jī)工程,2006(10):76-78.

        [5] 丁藎.微博熱點(diǎn)發(fā)現(xiàn)技術(shù)的研究與實(shí)現(xiàn)[D].武漢:華中科技大學(xué),2012.

        猜你喜歡
        查全率分詞語料
        結(jié)巴分詞在詞云中的應(yīng)用
        海量圖書館檔案信息的快速檢索方法
        基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        值得重視的分詞的特殊用法
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率的影響
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        日本精品无码一区二区三区久久久| 亚洲一区二区三区视频免费| 一区二区三区av在线| 亚洲av日韩av永久无码下载| 国产精品高潮呻吟av久久4虎| 二区久久国产乱子伦免费精品| 久久久免费精品国产色夜| 国产激情久久久久影院小草| 一本色道精品亚洲国产一区| 人妻熟妇乱又伦精品hd| 国产亚洲av综合人人澡精品| 亚洲AV无码久久精品国产老人| 日本午夜伦理享色视频| 亚洲线精品一区二区三区| 内射少妇36p九色| 久久99中文字幕久久| 国产美女高潮流白浆视频| 亚洲中文字幕无码不卡电影| 亚洲不卡av不卡一区二区| 久久熟女乱一区二区三区四区| 国产精品亚洲二区在线看| 亚洲日韩国产一区二区三区在线| 未满十八勿入av网免费| 天堂岛国精品在线观看一区二区| 一区二区三区四区免费国产视频 | 国产精品午夜波多野结衣性色| 日韩成人高清不卡av| 无码日韩精品一区二区免费暖暖 | 手机在线精品视频| 精品人妻夜夜爽一区二区| 午夜精品久久99蜜桃| 国产午夜福利在线观看红一片| 在线免费观看国产精品| 亚洲国产成人精品久久成人| 多毛小伙内射老太婆| 亚洲精品无播放器在线播放| 九九久久精品大片| 久久精品亚洲熟女av麻豆| 日韩人妻无码精品久久| 国产va免费精品高清在线观看| 亚洲中文字幕在线第二页|