亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)分類算法在物料編碼的應(yīng)用

        2022-02-28 18:17:38韓亞紅
        科技信息·學(xué)術(shù)版 2022年6期
        關(guān)鍵詞:大數(shù)據(jù)

        韓亞紅

        【摘要】物料編碼是ERP的基礎(chǔ),通過(guò)大數(shù)據(jù)分類算法,對(duì)物料進(jìn)行自動(dòng)分類,提高物料編碼管理工作效率。本文基于Python實(shí)現(xiàn)物料的自動(dòng)分類。

        【關(guān)鍵詞】物料編碼、物料分類、大數(shù)據(jù)、Python

        1引言

        物料是在ERP的基礎(chǔ),物料編碼是以簡(jiǎn)短的文字、符合或數(shù)字、號(hào)碼來(lái)代表物料、品名、規(guī)格或類別等其他有關(guān)事項(xiàng)的一種管理工具。在編碼過(guò)程中,需要對(duì)物料進(jìn)行分類,并給出相應(yīng)的編碼,由于不同員工對(duì)物料分類有不同的理解,出錯(cuò)率也時(shí)常發(fā)生。實(shí)驗(yàn)表明,通過(guò)大數(shù)據(jù)技術(shù)快速對(duì)物料進(jìn)行分類,可節(jié)約人力,避免人工分類帶來(lái)的錯(cuò)誤率高、效率低等諸多問(wèn)題。

        本文基于Python語(yǔ)言,結(jié)合第三方庫(kù)jieba和panda庫(kù),實(shí)現(xiàn)物料的自動(dòng)分類。

        2物料分類流程及相關(guān)技術(shù)

        物料分類實(shí)際是短中文文本分類問(wèn)題,分類問(wèn)題的主要目標(biāo)是確定新數(shù)據(jù)所屬的類別。分類是給定一堆樣本數(shù)據(jù),以及這些數(shù)據(jù)所屬的類別標(biāo)簽,通過(guò)算法來(lái)預(yù)測(cè)新數(shù)據(jù)的類別。

        物料分類步驟主要有1.預(yù)處理(中文文本分詞)2. 關(guān)鍵詞(對(duì)樣本數(shù)據(jù)進(jìn)行詞頻統(tǒng)計(jì),獲取關(guān)鍵詞)3、分類器。

        2.1物料預(yù)處理

        對(duì)中文文本進(jìn)行分類,主要是分詞。文本分詞采用結(jié)巴分詞(jieba)庫(kù)實(shí)現(xiàn),結(jié)巴分詞有三種分詞模式:全模式、精確模式和搜索引擎模式。針對(duì)物料名稱短而精的特點(diǎn),本文采用了精確模式對(duì)物料進(jìn)行分詞。代碼和結(jié)果如下:

        import jieba

        import pandas as pd

        txt=pd.read_excel(“C:\\Users\\shiyan.xlsx”)

        for name in txt[“名稱”]:

        words=jieba.lcut(name)

        print(words)

        [‘不銹鋼’, ‘清潔劑’][‘防爆’, ‘內(nèi)燃’, ‘叉車’]

        2.2關(guān)鍵詞

        物料編碼原先設(shè)定為按照類別、大類、中類、小類規(guī)則進(jìn)行人工編碼,所以樣本數(shù)據(jù)已經(jīng)有了分類,在已有的類別碼基礎(chǔ)上利用結(jié)巴分詞庫(kù)和extract_tags函數(shù)獲取此類別的關(guān)鍵詞。

        實(shí)現(xiàn)思路為:TF-IDF文本關(guān)鍵詞抽取方法流程

        (1)利用EXCEL將同一分類下的物料進(jìn)行拼接,形成文本D。

        (2)對(duì)給定的文本D進(jìn)行分詞,磁性標(biāo)注和去除停用詞等數(shù)據(jù)預(yù)處理操作,獲得n個(gè)候選關(guān)鍵詞D=【t1,t2….tn】

        (3)計(jì)算詞語(yǔ)ti在文本D中詞頻

        (4)計(jì)算詞語(yǔ)ti在整個(gè)語(yǔ)料的IDF=log(Dn/(Dt+1))

        (5)計(jì)算獲取詞語(yǔ)ti的TF-IDF

        (6)對(duì)關(guān)鍵詞計(jì)算結(jié)果進(jìn)行倒序排列,獲得排名前的TOPN個(gè)詞匯作為文本關(guān)鍵詞。

        利用jieba. analyse庫(kù)中extract_tags實(shí)現(xiàn),代碼和結(jié)果如下:

        txt=pd.read_excel("C:\\Users\\5510387hyh\\Desktop\\物料分類.xlsx")

        for name in txt["名稱"]:

        word=jieba.analyse.extract_tags(name,topK=3)

        物料類別 名稱 關(guān)鍵詞

        420350700 砂輪磨頭砂輪磨頭磨頭磨頭磨削工具磨削工具百潔布磨頭鎢鋼滾磨刀鎢鋼滾磨刀磨削針具金剛石磨頭 ['磨頭', '磨削', '鎢鋼']

        2.3文本分類

        常用的分類算法:K-最近鄰發(fā)KNN,決策樹(shù)分類法,貝葉斯分類算法,支持向量機(jī)的分類器,神經(jīng)網(wǎng)絡(luò),模糊分類法等。本文采用貝葉斯分類器進(jìn)行分類,貝葉斯分類的思想:?jiǎn)为?dú)考量每一維度特征被分類的條件概率,然后綜合這些概率對(duì)所在的特征向量做出分類。首先利用CountVectorizer將文本關(guān)鍵詞進(jìn)行向量化,再運(yùn)用貝葉斯分類算法進(jìn)行分類,代碼如下:

        vec=CountVectorizer()

        x_train=vec.fit_transform(train_features)

        clf=MultinomialNB(alpha=0.001).fit(x_train,train_labels)

        predicted_labels=clf.predict(x_test)

        3實(shí)驗(yàn)和結(jié)果

        實(shí)驗(yàn)采用已有的物料庫(kù)中的物料作為訓(xùn)練和測(cè)試數(shù)據(jù),該數(shù)據(jù)包含1407個(gè)類別,總共11000條物料,其中訓(xùn)練樣本10000條物料,測(cè)試樣本1000條物料。

        準(zhǔn)確率和查全率作為物料分類的評(píng)價(jià)標(biāo)準(zhǔn)。準(zhǔn)確率計(jì)算公式為分類正確的物料條數(shù)/已分類的物料條數(shù)。查全率計(jì)算公式為分類正確的物料條數(shù)/測(cè)試樣本的物料條數(shù)。

        在實(shí)驗(yàn)中發(fā)現(xiàn),由于物料編碼的特殊性,如果某一類中包含多個(gè)不同名稱,會(huì)導(dǎo)致名稱出現(xiàn)次數(shù)少的,自動(dòng)分類出錯(cuò)。在此基礎(chǔ)上,改進(jìn)實(shí)驗(yàn)思路:將測(cè)試數(shù)據(jù)進(jìn)行物料名稱唯一性處理,再進(jìn)行物料分類。實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),利用extract_tags去掉停用詞獲取關(guān)鍵詞時(shí),會(huì)將單個(gè)字的詞過(guò)濾掉,比如“毯”,“帶”等關(guān)鍵字,這大大降低了檢索的正確性,在此基礎(chǔ)上將單個(gè)詞添加到關(guān)鍵詞中去大大增加了分類的準(zhǔn)確性。

        從上圖可以看出,關(guān)鍵詞取得少會(huì)導(dǎo)致查全率降低,關(guān)鍵詞取過(guò)多會(huì)導(dǎo)致查準(zhǔn)率降低,總體上利用貝葉斯分類器分類,選擇合適的關(guān)鍵詞個(gè)數(shù),可以取得較好的查全率和查準(zhǔn)率。

        4結(jié)語(yǔ)

        本文利用Excel、Python語(yǔ)言以及jieba庫(kù),實(shí)現(xiàn)了物料的自動(dòng)分類,在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),物料名稱的簡(jiǎn)潔性以及標(biāo)準(zhǔn)性對(duì)物料分類結(jié)果有很大的影響,盡量減少修飾性詞語(yǔ)。由于jieba庫(kù)的強(qiáng)大功能,物料分類過(guò)程實(shí)現(xiàn)比較簡(jiǎn)單,分類效果良好,大大減少了編碼的工作量,提高了物料分類的準(zhǔn)確性。

        參考文獻(xiàn):

        [1]孫強(qiáng),李建華,李生紅,基于Python的文本分類系統(tǒng)開(kāi)發(fā)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011,3.13-14

        [2]鮑仲平,企業(yè)信息的編碼和描述[J].電子標(biāo)準(zhǔn)化與質(zhì)量,1995,3,37-40

        [3]徐易,基于短文本的分類算法研究[J].上海交通大學(xué),2010.

        猜你喜歡
        大數(shù)據(jù)
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        亚洲男人精品| 成在线人av免费无码高潮喷水| 日韩精品无码中文字幕电影| 国产99在线 | 亚洲| a级毛片无码久久精品免费| 国偷自产av一区二区三区| 大陆啪啪福利视频| 国产亚洲3p一区二区| 凹凸国产熟女精品视频app| 一本一道波多野结衣一区| 无码一区二区三区不卡AV| 青青草成人原视频在线播放视频| 亚洲综合av一区二区三区蜜桃| 亚洲国产日韩欧美综合a| 成人无码一区二区三区网站| 蜜桃在线播放免费一区二区三区 | 蜜臀av无码精品人妻色欲| 国产精品27页| 中文字幕视频一区懂色| 脱了老师内裤猛烈进入| 人妻忍着娇喘被中进中出视频| 亚洲ⅤA中文字幕无码| 手机在线播放成人av| 婷婷综合另类小说色区| 亚洲av无码乱观看明星换脸va| 中国女人a毛片免费全部播放| 亚洲国产精品久久久婷婷| 亚洲av精品一区二区三区| 国内精品人妻无码久久久影院导航| 99精品一区二区三区免费视频| 在线成人tv天堂中文字幕| 日本免费一区二区久久久| 丝袜美腿一区二区国产| 无码毛片视频一区二区本码| 精品中文字幕久久久久久| 日本国产一区二区在线观看| 粗大的内捧猛烈进出看视频| 亚洲深深色噜噜狠狠爱网站| 亚洲精品一区二区三区播放 | 国产精品女同一区二区免费站 | 一区二区三区日韩蜜桃|