亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于jieba中文分詞的電力客戶精準分類方法

        2024-01-08 11:50:16高攀李飛彭遠豪張璨輝彭海君
        湖南電力 2023年5期
        關(guān)鍵詞:分類用戶方法

        高攀,李飛,彭遠豪,張璨輝,彭海君

        (國網(wǎng)湖南省電力有限公司供電服務(wù)中心(計量中心),湖南 長沙 410116)

        0 引言

        客戶分類是營銷差異化、精準化的基礎(chǔ),是提高供電企業(yè)電力營銷水平的有效措施。電力客戶分類可以提高電力企業(yè)的服務(wù)水平及服務(wù)質(zhì)量,提升用戶的滿意度[1]。傳統(tǒng)的電力客戶分類主要是基于用戶電力屬性,按照電壓等級、用電類別、行業(yè)類別等進行分類;或者是從電網(wǎng)安全管理視角將用電客戶分成重要客戶、一般客戶,以及高??蛻?。這些電力客戶分類方法比較籠統(tǒng),分類手段也比較簡單,主要是因電力公司管理需要而設(shè)置的,未切實體現(xiàn)出以客戶本質(zhì)內(nèi)涵特征,不利于發(fā)現(xiàn)用戶的特殊需求,不利于更深層次服務(wù)目標客戶。

        隨著近年來大數(shù)據(jù)技術(shù)的應(yīng)用和成熟,電力客戶分類方法逐步數(shù)據(jù)化、自動化、智能化。例如冀明等圍繞客戶各項經(jīng)濟指標構(gòu)建指標體系,首次提出基于聚類分析模型實現(xiàn)客戶分類的想法[2]。丁浩則基于C4.5算法分類器,根據(jù)客戶的信用指標完成對客戶的信用評級,實現(xiàn)電力客戶在信用角度的分類[3]?;矢h聰?shù)热嘶陟貦?quán)法與改進的PCA聚類算法實現(xiàn)在電力客戶價值方面的分類[4]。以上分類算法都離不開電力系統(tǒng)中的客戶檔案信息、用電數(shù)據(jù)及其他外部數(shù)據(jù),但目前電力數(shù)據(jù)庫仍然存在數(shù)據(jù)缺失、數(shù)據(jù)錯誤等問題,導(dǎo)致對客戶進一步深入分析時會受到數(shù)據(jù)質(zhì)量的諸多限制。現(xiàn)有的方法大多需要多維且完善的客戶信息數(shù)據(jù),目前客戶信息存在缺失、錯誤、冗余等問題,因此本文提出一種基于jieba分詞的電力客戶精準分類方法,將電力客戶的非結(jié)構(gòu)化文本數(shù)據(jù),例如客戶名稱中隱含的更多用戶細分信息加以利用,實現(xiàn)對客戶的高效、精準分類。

        本文提出的方法僅需提取客戶名稱,利用中文分詞技術(shù)挖掘其中隱含的分類信息,提高了分類方法對數(shù)據(jù)的容錯率,同時也能滿足當前客戶差異化服務(wù)的需求。

        1 技術(shù)可行性分析

        1.1 技術(shù)選擇背景

        電力客戶的非結(jié)構(gòu)化文本數(shù)據(jù)中蘊含著很多客戶特征信息,且有一定規(guī)律性,如能夠?qū)⑦@些特征信息提取出來,可為客戶分類提供更多特征標簽。如“XXX縣機關(guān)事務(wù)中心”(字母為隱化處理,下同)這一用戶名稱,可以根據(jù)“機關(guān)事務(wù)中心”這個關(guān)鍵詞確認該客戶屬于社會類客戶中的行政職能機構(gòu),根據(jù)“縣”這個關(guān)鍵詞定位屬于縣級機構(gòu)。如“XX市廣播電視臺”可提取關(guān)鍵詞“電視臺”或者“廣播電視臺”確認客戶的分類。這些對關(guān)鍵詞精準高效地提取和分析技術(shù)就是中文分詞技術(shù)。

        1.2 中文分詞概論

        中文分詞作為實現(xiàn)機器處理中文的一項基礎(chǔ)任務(wù),是近幾年的研究熱點之一,也是自然語言處理任務(wù)的基礎(chǔ)步驟之一[5]。中文分詞通過各類方法實現(xiàn)文本字詞的明確劃分及詞性標注等功能,常見的搜索引擎就是應(yīng)用場景,還有機器翻譯、語音合成、自動分類、自動摘要、自動校對均需使用到中文分詞技術(shù)[6]。

        現(xiàn)有的中文分詞方法主要分為三大類,分別是基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法?;谧址ヅ涞姆衷~方法又稱機械分詞方法,是按照一定的策略將需要分析的中文字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。該類算法的優(yōu)點是速度快、實現(xiàn)簡單,但對歧義和未登錄詞處理效果不佳。基于理解的分詞方法是通過計算機模擬人對句子的理解,達到識別詞的效果,基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。基于統(tǒng)計的分詞方法是在給定大量已經(jīng)分詞的文本的前提下,利用統(tǒng)計機器學(xué)習(xí)模型學(xué)習(xí)詞語切分的規(guī)律(稱為訓(xùn)練),從而實現(xiàn)對未知文本的切分,常見的統(tǒng)計方法有N元文法模型、隱馬爾可夫模型、最大熵模型、條件隨機場模型等。

        1.3 jieba中文分詞技術(shù)

        Python的jieba分詞,分詞功能強大且適用面較廣,可以進行簡單分詞、并行分詞、命令行分詞[7],算法是基于隱馬爾可夫模型[8],屬于統(tǒng)計模型方法。

        以“XX省地質(zhì)測試研究院(國土資源部礦產(chǎn)資源監(jiān)督檢測中心)”為例,分析jieba分詞的3種模式分詞[9]。

        精確模式:嘗試最精確地切割句子,適合文本分析。其精確模式分詞結(jié)果為:XX省/地質(zhì)/測試/研究院/(/國土資源部/礦產(chǎn)資源/監(jiān)督/檢測/中心/)。

        完整模式:在句子中掃描所有可能變成詞的詞語,速度很快,但無法解決歧義。其完整模式分詞結(jié)果為:XX/XX省/省地/地質(zhì)/測試/研究/研究院/(/國土/國土資源/國土資源部/資源/部/礦產(chǎn)/礦產(chǎn)資源/資源/監(jiān)督/檢測/中心/)。

        搜索引擎模式:在精確模式的基礎(chǔ)上,再對長詞進行切分,提高召回率,適用于搜索引擎分詞。其搜索引擎分詞結(jié)果為:XX/XX省/地質(zhì)/測試/研究/研究院/(/國土/資源/國土資源部/礦產(chǎn)/資源/礦產(chǎn)資源/監(jiān)督/檢測/中心/)。

        綜合考慮分詞效率和準確性,本文將基于Python的jieba分詞中的精確模式實現(xiàn)電力客戶的非結(jié)構(gòu)化文本數(shù)據(jù)的分詞。

        2 客戶數(shù)據(jù)準備和預(yù)處理

        以某省電力用戶作為樣本,根據(jù)分類目標對象電壓等級10 kV及以上正常用電的專變客戶等作為條件篩選,加上高危及重要客戶群體共計100 283個客戶,取得這些客戶的用戶名稱、行業(yè)分類、用電類別等數(shù)據(jù),其中用戶名稱作為非結(jié)構(gòu)化文本數(shù)據(jù)的實例進行分析。

        針對客戶名稱存在許多命名不規(guī)范的情況,對名稱進行簡單清洗:

        1)刪除用戶名稱中的空格和標點符號[10]。用戶名稱采集不規(guī)范會導(dǎo)致單個詞語中間出現(xiàn)空格,空格和標點符號屬于停用詞范圍,完整詞語將會被強制劃分,以“ML市博士裝飾材料有限公司”為例,無空格時的分詞結(jié)果為“ML市/博士/裝飾/材料/有限公司”,而“ML市博士裝 飾材料有限公司”的分詞結(jié)果為“ML市/博士/裝/ /飾/材料/有限公司”,空格使得“裝飾”被拆開。

        2)將括號()、[]、#、數(shù)字等特殊符號刪除。與空格和標點符號原理相同,這類符號在分詞中會額外分成一個分詞,但在分詞分析中意義不大,因此需要刪除,可以減少分詞結(jié)果的噪音冗余,能提高分類模型的訓(xùn)練速度。例如“ML市博士裝飾材料有限公司[59501005]”的分詞結(jié)果為“ML市/博士/裝飾/材料/有限公司/[/59501005/]”,多出了三個分詞。

        3)其他停用詞的處理。本方法的分詞目標均為一系列客戶名稱,不存在中文中的虛詞等非檢索用字,因此不需要額外在停用詞中添加。

        根據(jù)上述步驟處理客戶名稱,得到示例數(shù)據(jù)見表1。

        表1 文本數(shù)據(jù)預(yù)處理對比表

        3 基于jieba中文分詞結(jié)果的分類特 征庫構(gòu)建

        根據(jù)jieba分詞完整的技術(shù)路線和 Python 提供的成熟工具庫,實現(xiàn)對電力大客戶用戶名稱的中文分詞,過程如下:

        1)首先導(dǎo)入Python語言工具包jieba[11],擴展并加載停用詞詞典及包含未登錄詞的自定義詞典[12]。根據(jù)《事業(yè)單位分類目錄》和《國民經(jīng)濟行業(yè)分類》添加屬于自己的自定義字典,用來切分查找關(guān)鍵詞。例如使用默認字典時“CS民政職業(yè)技術(shù)學(xué)院”分詞為“CS/民政/職業(yè)/技術(shù)/學(xué)院”;根據(jù)事業(yè)單位的公益二類包含單位,將“職業(yè)技術(shù)學(xué)院”添加到字典中后分詞為“CS/民政/職業(yè)技術(shù)學(xué)院”。這樣就可以有效縮小查找范圍,從而使得匹配完成度更高,時間更短。

        2)接下來完成預(yù)處理的客戶名稱導(dǎo)入,通過Python的處理將分詞結(jié)果輸出到文件得到每個客戶名稱的分詞結(jié)果,然后根據(jù)分詞結(jié)果統(tǒng)計高頻詞并進行分析。以某省電力用戶作為樣本得到的分詞結(jié)果中,詞頻較高的有“有限公司”,提取樣本中包含“有限公司”的客戶,發(fā)現(xiàn)一部分是無其他重點分詞的普通經(jīng)濟類經(jīng)營主體,也有少部分例如“CS市軌道交通運營有限公司”“中國鐵路GZ局集團有限公司CS供電段”“中國YD通信集團XX有限公司CS分公司”等的社會類單位,而社會類單位明顯比經(jīng)濟類擁有更多關(guān)鍵詞,如“交通”“通信”“電力”等,因此需要總結(jié)這類規(guī)律,為提升后續(xù)分類效率奠定基礎(chǔ)。部分高頻詞及輔助關(guān)鍵詞分類特征庫見表2。

        表2 分類特征庫

        4 基于分詞結(jié)果特征庫的客戶分類 標注

        4.1 模型預(yù)訓(xùn)練

        選擇BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)從分詞結(jié)果到客戶分類[13],為了提升分類模型的準確率和效率,使用表2的分類特征庫,即“高頻詞+關(guān)鍵詞”規(guī)律作為預(yù)訓(xùn)練模型的數(shù)據(jù)集,避免從零開始訓(xùn)練。

        4.2 分類模型實施

        準備好預(yù)訓(xùn)練模型后,選取數(shù)據(jù)預(yù)處理后的500個用戶作為訓(xùn)練樣本,盡量包含不同客戶類別并數(shù)量相近;然后利用更新后的自定義字典對樣本完成分詞,并輸出分詞結(jié)果;將這些用戶的分詞結(jié)果作為輸入,客戶類別作為輸出,基于預(yù)訓(xùn)練模型繼續(xù)訓(xùn)練,經(jīng)過調(diào)優(yōu)調(diào)參將模型訓(xùn)練到滿意的準確率;保存模型,然后把剩余樣本的分詞結(jié)果輸入到保存好的模型中,最后得到客戶的分類結(jié)果。部分示例見表3。

        表3 大客戶分類結(jié)果對比表

        對比電力系統(tǒng)數(shù)據(jù)庫中的原行業(yè)類別、用電類別,可以發(fā)現(xiàn)本文方法的分類結(jié)果更符合后續(xù)客戶營銷的需求。

        5 結(jié)語

        本文基于jieba中文分詞技術(shù),提出了一種對電力大客戶精準分類的方法。該方法通過對電力客戶的非結(jié)構(gòu)化文本信息進行分詞,并總結(jié)關(guān)鍵詞頻率,構(gòu)建分類特征庫;然后搭建電力行業(yè)分詞字典以提高分詞效率;最后根據(jù)分類特征庫構(gòu)建預(yù)分類模型,完成客戶分類。通過用戶基礎(chǔ)數(shù)據(jù)快速高效地完成對客戶的精準分類,解決電力數(shù)據(jù)庫中用戶屬性異常、專變臺賬不完善等數(shù)據(jù)異常問題,同時也解決依賴經(jīng)驗、費時費力的問題。該方法分類效果較好,對制定客戶差異化服務(wù)方案奠定基礎(chǔ),對有后續(xù)客戶服務(wù)管理研究具有重要意義,也為電力營銷數(shù)據(jù)挖掘提供借鑒和參考。

        猜你喜歡
        分類用戶方法
        分類算一算
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        可能是方法不對
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        久久精品人妻嫩草av蜜桃| 亚洲国产精品久久亚洲精品| 爽妇网国产精品| 国产精品一区二区三密桃| 国产精品毛片极品久久| 精品老熟女一区二区三区在线| 国产在线第一区二区三区| 亚洲av无码精品色午夜| 亚洲人妻无缓冲av不卡| 美女把内衣内裤脱了给男人舔| 精品人妻伦一二三区久久| 无码人妻一区二区三区在线视频| 久久精品国产亚洲AV成人公司| 久久久精品国产亚洲av网不卡| 精品亚洲国产成人av色哟哟| 国产午夜福利100集发布| 日日摸日日碰人妻无码老牲| 国产精品亚洲在钱视频| 亚洲国产精品美女久久| 最近中文字幕视频完整版在线看| 97人妻视频妓女网| 日本一二三区在线视频观看 | 欧美人与动人物牲交免费观看| 白白色免费视频一区二区| 蜜桃网站入口可看18禁| 国产成人精品999视频| 精品国精品国产自在久国产应用| 日本精品极品视频在线| 福利视频一区二区三区| 99精品欧美一区二区三区| 国产精品国产三级在线高清观看| 久久精品国产精品亚洲艾| 国产精品久免费的黄网站| 窝窝影院午夜看片| 国产人成在线成免费视频| 日韩不卡的av二三四区| 人妻少妇久久中文字幕一区二区| 久久精品国产亚洲5555| 亚洲av粉色一区二区三区| 亚洲人成网站色在线入口口| 亚洲第一se情网站|