亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合機器學(xué)習(xí)提升規(guī)則維護效率

        2018-02-26 16:09:39鄧杰
        科技視界 2017年36期
        關(guān)鍵詞:文本分析機器學(xué)習(xí)

        鄧杰

        【摘 要】在大數(shù)據(jù)的領(lǐng)域中,對大量數(shù)據(jù)的文本分析是基石,后面的所有數(shù)據(jù)的解析都是依賴與此,規(guī)則維護的效率以及準確率至關(guān)重要。本文主要是對比了目前常用的幾種語義分析的方法,提出了相對來說效率更高,準確率也能得到保障的方法。

        【關(guān)鍵詞】文本分析;手工編寫規(guī)則;機器學(xué)習(xí)

        1 背景內(nèi)容

        規(guī)則維護的辦法,目前主要思路如下:先整理大量的樣本數(shù)據(jù),先手工打上各種分類標(biāo)簽或者關(guān)鍵字,然后以這些手工梳理好后的樣本數(shù)據(jù)或者關(guān)鍵字為基準去手工編寫規(guī)則。

        但是后期隨著關(guān)鍵字的變化或者樣本數(shù)據(jù)的豐富,會發(fā)現(xiàn)現(xiàn)有規(guī)則的準確性、覆蓋率越來越低,甚至出現(xiàn)大量的樣本數(shù)據(jù)都匹配不到現(xiàn)在的分類中。定期對現(xiàn)有規(guī)則的維護是一項很重要并且很必須的工作。

        隨著規(guī)則的積累和樣本量的增加,手工維護規(guī)則的工作量會越來越來,為了保證語義分析的效果,規(guī)則開發(fā)維護的人員會越來越多,會使得成本增加;另一方面因為規(guī)則的積累,導(dǎo)致規(guī)則混亂,在累加規(guī)則中,甚至?xí)霈F(xiàn)在手工維護規(guī)則后,規(guī)則的準確性和覆蓋性越來越低。

        2 文本分析常用方法

        2.1 手工編寫規(guī)則

        1)提供大量的樣本數(shù)據(jù);

        2)通過人工手動去打上相應(yīng)的標(biāo)簽、關(guān)鍵字;

        3)數(shù)據(jù)分析師根據(jù)關(guān)鍵詞,輸出分類對應(yīng)的規(guī)則;

        4)再用另外一部分樣本去驗證手工編寫規(guī)則的準確率、覆蓋率;

        5)對于有明顯某些分類的準確率覆蓋率較低的分類,需要專項再重新去分析優(yōu)化。

        優(yōu)點:

        相應(yīng)分類樣本充足的情況下,準確率覆蓋率都可以達到較高的值。

        缺點:

        需要大量的業(yè)務(wù)人員,能夠?qū)颖緮?shù)據(jù)歸納分類;

        需要大量的分析師,并且對分析師要求還較高,需要了解業(yè)務(wù),能夠通過大量數(shù)據(jù)識別關(guān)鍵字進行分析;

        編寫規(guī)則的周期較長;

        規(guī)則需要定期維護,否則準確率覆蓋率會逐漸降低;

        由于樣本局限性,在實際應(yīng)用場景中,會有大量的數(shù)據(jù)匹配不到分類;

        2.2 機器學(xué)習(xí)通過訓(xùn)練生成數(shù)據(jù)模型

        1)提供樣本數(shù)據(jù)(對比手工編寫規(guī)則的量要?。?;

        2)用樣本數(shù)據(jù)做訓(xùn)練,生成數(shù)據(jù)模型;

        3)用訓(xùn)練后的數(shù)據(jù)模型驗證新的樣本數(shù)據(jù);

        4)對于準確性較差的分類,需要再次調(diào)整優(yōu)化數(shù)據(jù)模型,提高準確率。

        優(yōu)點:

        規(guī)則周期短;

        需要的人力少;

        需要樣本量相對來說少;

        缺點:

        整體的準確率達不到手工編寫規(guī)則的值;

        3 機器學(xué)習(xí)結(jié)合人工編寫規(guī)則

        3.1 方法論的產(chǎn)生

        純手工維護規(guī)則,可以使得某些分類的準確率達到很高,但是輸出規(guī)則需要很長的周期,并且也很多人力支撐,輸出的規(guī)則很有局限性,不在樣本范圍內(nèi)的規(guī)則或者關(guān)鍵字,無法識別,后期需要很高的維

        成本;

        機器學(xué)習(xí)通過訓(xùn)練,能夠很快速的生成數(shù)據(jù)模型,對業(yè)務(wù)數(shù)據(jù)進行分析。但是準確率無法達到手工收工維護規(guī)則的程度。

        手工維護規(guī)則精度夠,但是周期長、可擴展性不強;機器學(xué)習(xí)可擴展性好,周期短,但是精度不夠。

        那何不集合這兩種方法的優(yōu)點,提升規(guī)則維護效率,縮短規(guī)則生成周期,并且后期維護成本也不用那么高。

        3.2 方法步驟

        1)提供樣本數(shù)據(jù)(對比手工編寫規(guī)則的量要?。?;

        2)通過樣本數(shù)據(jù)做訓(xùn)練,生成數(shù)據(jù)模型;

        3)用訓(xùn)練后的數(shù)據(jù)模型驗證新的樣本數(shù)據(jù);

        4)對于準確率較差的分類,需要再次調(diào)整優(yōu)化提高準確性5)模型訓(xùn)練后準確性還是較差的分類,手工編寫規(guī)則,提供準確性;

        6)機器學(xué)習(xí)可以輸出相應(yīng)的關(guān)鍵字,提高了編寫規(guī)則的效率;

        7)對于后期新增的業(yè)務(wù)場景和數(shù)據(jù),機器學(xué)習(xí)可以及時識別,降低了無法識別分類的概率。

        3.3 方法論總結(jié)

        機器學(xué)習(xí)和傳統(tǒng)的手工編寫規(guī)則相結(jié)合的方法,既提高了規(guī)則輸出的效率,又保障了一定的準確性;既減少了維護工作的人力訴求,也保障了維護工作的準確率的穩(wěn)定性。兩者相互取長補短,互相融合使用,可以有效得提升規(guī)則維護得效率。

        猜你喜歡
        文本分析機器學(xué)習(xí)
        基于詞典與機器學(xué)習(xí)的中文微博情感分析
        投資者情緒短期對股票市場的影響研究
        基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
        維護正統(tǒng)還是觀念復(fù)辟?
        戲劇之家(2016年22期)2016-11-30 16:49:57
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        德語小說《布登勃洛克一家》中的家文化與中國傳統(tǒng)家庭觀念比較
        前綴字母為特征在維吾爾語文本情感分類中的研究
        文本情感計算系統(tǒng)“小菲”的設(shè)計及其在教育領(lǐng)域文本分析中的應(yīng)用
        基于支持向量機的金融數(shù)據(jù)分析研究
        我國地方紀錄片的出路研究
        精品国产一区二区三区久久狼| 中文有码人妻字幕在线| 少妇高潮太爽了免费网站| 中文字幕亚洲一二三区| 少妇连续高潮爽到抽搐| 国产又爽又黄又刺激的视频| 九九热在线视频观看这里只有精品| 欧美zozo另类人禽交| 快射视频网站在线观看| 人妻中文字幕乱人伦在线| 国产精品久久久| 精品欧美一区二区在线观看| 国产乱人伦AⅤ在线麻豆A| 日本午夜艺术一区二区| 人成午夜免费视频无码| 国产肥熟女视频一区二区三区| 男女18禁啪啪无遮挡| 国产在线h视频| 青青草视频在线播放81| 岛国熟女精品一区二区三区| 无码人妻久久一区二区三区app| 久久午夜伦鲁片免费无码| 亚洲成人免费观看| 91青青草在线观看视频| 国产一区二区三区仙踪林| 玩弄放荡人妇系列av在线网站| 国产av国片精品| 美女被射视频在线观看91| 国产精品一区二区蜜臀av| 大又大又粗又硬又爽少妇毛片| 午夜丰满少妇性开放视频| 国产精品女同久久免费观看| 女优av一区二区在线观看| 亚洲精品无码不卡在线播he| 粗大的内捧猛烈进出视频| 播放灌醉水嫩大学生国内精品| 国产91第一页| 精品国产一区二区三区av免费| 久久超碰97人人做人人爱| 国产V日韩V亚洲欧美久久| 久久精品久久精品中文字幕|