李瑞祥,黃文濤,郭欣沅,張子炎
(國(guó)家電網(wǎng)有限公司 國(guó)網(wǎng)遼寧省電力有限公司物資分公司,沈陽(yáng) 110000)
隨著國(guó)民經(jīng)濟(jì)的不斷發(fā)展電網(wǎng)基礎(chǔ)設(shè)施建設(shè)的規(guī)模不斷擴(kuò)大,國(guó)家電網(wǎng)對(duì)設(shè)備的需求量不斷增加,因此采購(gòu)的設(shè)備量也在穩(wěn)步增長(zhǎng).同時(shí),在信息化不斷發(fā)展的今天,電網(wǎng)行業(yè)內(nèi)的大數(shù)據(jù)特征也越來越明顯.電力系統(tǒng)作為一個(gè)龐大的生產(chǎn)系統(tǒng),每時(shí)每刻都在產(chǎn)生著大量的數(shù)據(jù).單就電力企業(yè)內(nèi)部與電網(wǎng)建設(shè)、電網(wǎng)運(yùn)行和電網(wǎng)檢修相關(guān)的運(yùn)行數(shù)據(jù)以及電網(wǎng)設(shè)備供應(yīng)商的信用數(shù)據(jù)、區(qū)域經(jīng)濟(jì)發(fā)展數(shù)據(jù)等外部數(shù)據(jù)來說就已經(jīng)很可觀,這些數(shù)據(jù)中蘊(yùn)含著較多的商業(yè)信息,如供應(yīng)商的生產(chǎn)能力、履約能力等.在大數(shù)據(jù)環(huán)境下,運(yùn)用數(shù)據(jù)分析方法對(duì)設(shè)備供應(yīng)商進(jìn)行全方位量化提取有價(jià)值的信息是十分有必要的.本文闡述的主要內(nèi)容來自于"東北國(guó)網(wǎng)供應(yīng)商管理系統(tǒng)"中供應(yīng)商輔助決策模塊.該模塊主要用來為國(guó)網(wǎng)建立供應(yīng)商企業(yè)信用評(píng)級(jí)、供應(yīng)商設(shè)備選擇推薦和供應(yīng)商可長(zhǎng)期合作可行性分析等多個(gè)功能,系統(tǒng)結(jié)構(gòu)簡(jiǎn)圖如圖1所示.
針對(duì)供應(yīng)商管理方法的研究已經(jīng)取得了不錯(cuò)的成果.以研究過程中典型的三種方案為例來說,張?jiān)?、宋婷等在專家打分的基礎(chǔ)上提出了基于AHP-模糊綜合管理[1]的辦法對(duì)電網(wǎng)物資供應(yīng)商進(jìn)行管理,該方法結(jié)合專家打分和AHP 層次分析法對(duì)供應(yīng)商進(jìn)行管理,但是AHP 層次分析法中各個(gè)因素的權(quán)重大小需要專家指定,帶有較強(qiáng)的主觀性,模型的魯棒性較差,并且對(duì)模型的泛化能力不強(qiáng),需要針對(duì)各個(gè)企業(yè)進(jìn)行建模.隨著機(jī)器學(xué)習(xí)的興起,樊鵬[2]提出了基于優(yōu)化的xgboost-LMT 模型,該模型通過使用機(jī)器學(xué)習(xí)的自動(dòng)化學(xué)習(xí)方法,有效的緩解了AHP 方法中主觀性過強(qiáng)的問題.同時(shí)席一凡、王超等將模糊神經(jīng)網(wǎng)絡(luò)[3]應(yīng)用于供應(yīng)商管理中,與xgboost-LMT 相比模型的預(yù)測(cè)精度得到了提升,但是以上兩種機(jī)器學(xué)習(xí)的方法都是針對(duì)一個(gè)供應(yīng)商的一個(gè)方面進(jìn)行考察,難以全方面真實(shí)的反應(yīng)供應(yīng)商的整體情況.想要準(zhǔn)確的對(duì)供應(yīng)商進(jìn)行刻畫管理,就需要充分考慮供應(yīng)商的各方面.基于以上的思考和調(diào)查,提出了使用用戶畫像的方法對(duì)供應(yīng)商進(jìn)行管理的方案.本文所述的輔助決策模塊使用用戶畫像主要是基于以下考慮:數(shù)據(jù)庫(kù)中,相關(guān)供應(yīng)商的部分信息已經(jīng)存在,但比較散亂無法從數(shù)據(jù)庫(kù)中直接獲取有用的信息.但將供應(yīng)商的數(shù)據(jù)標(biāo)簽化后,對(duì)供應(yīng)商就有了一個(gè)直觀的認(rèn)識(shí);分析模塊的多個(gè)需求發(fā)現(xiàn),使用用戶畫像十分有效.供應(yīng)商的企業(yè)形象是根據(jù)其商業(yè)行為不斷變化的,使用用戶畫像可以及時(shí)自動(dòng)更新供應(yīng)商的標(biāo)簽內(nèi)容,進(jìn)而保持供應(yīng)商整體形象的動(dòng)態(tài)更新,動(dòng)態(tài)滿足上層需求的調(diào)用.基于以上思考構(gòu)建了用戶畫像管理模塊,并在行業(yè)專家[4-11]和大數(shù)據(jù)工程師的合作下構(gòu)建了供應(yīng)商的畫像標(biāo)簽體系.
本文的標(biāo)簽體系分為三級(jí)標(biāo)簽,其中一級(jí)和二級(jí)標(biāo)簽屬于抽象標(biāo)簽,沒有使用意義,只有統(tǒng)計(jì)意義,在構(gòu)建過程中只對(duì)第三級(jí)標(biāo)簽進(jìn)行填充.在選擇標(biāo)簽時(shí),我們首先咨詢企業(yè)管理專家和供應(yīng)鏈管理專家在實(shí)際工作中常用的考察指標(biāo).然后借鑒賀紹鵬[4]、楊志和[5]、徐晉[9]等學(xué)者在標(biāo)簽選擇時(shí)的經(jīng)驗(yàn).最終推演得到,要全面的考察一個(gè)供應(yīng)商,需要從供應(yīng)商的產(chǎn)品和服務(wù)入手,并且需要考慮企業(yè)的基本信息、信用記錄和財(cái)務(wù)信息.在最終確定三級(jí)標(biāo)簽內(nèi)容時(shí),由相關(guān)行業(yè)專家來再次提煉標(biāo)簽盡可能減少標(biāo)簽間映射信息的交叉,簡(jiǎn)化整個(gè)標(biāo)簽體系.例如選擇反應(yīng)企業(yè)財(cái)務(wù)狀況的標(biāo)簽時(shí),咨詢了企業(yè)財(cái)務(wù)總監(jiān),由專家結(jié)合我們實(shí)際需求進(jìn)行標(biāo)簽的再次的提煉簡(jiǎn)化,使得最終的標(biāo)簽體系具有更多的科學(xué)性和客觀性.
最終我們?yōu)楣?yīng)商建立了圖2所示(其中標(biāo)號(hào)U 表示該標(biāo)簽的代號(hào))的三級(jí)標(biāo)簽體系.
1.1.1 信息(U1)
一級(jí)標(biāo)簽信息(U1)下屬有三個(gè)二級(jí)標(biāo)簽,企業(yè)基本信息(U11),信用狀況(U12)和財(cái)務(wù)狀況(U13),圖3所示.
企業(yè)基本信息(U11)下屬企業(yè)簡(jiǎn)介(U111)、企業(yè)地址(U112)、企業(yè)官網(wǎng)(U113)和企業(yè)規(guī)模(U114)四部分.信用狀況(U12)下屬信用中國(guó)(U121)至生產(chǎn)能力評(píng)估(U125)五個(gè)部分,其中U121 是指信用中國(guó)官方對(duì)一個(gè)企業(yè)的信用評(píng)估;U122 表示建立合作關(guān)系后,供應(yīng)商履行合約的能力;U123 指供應(yīng)商企業(yè)參與的訴訟案件,主要關(guān)注于訴訟案件的案由和最終的訴訟結(jié)果;U124 指供應(yīng)商企業(yè)具有的國(guó)家相關(guān)部門頒發(fā)的資格;U125 是行業(yè)專家通過對(duì)企業(yè)的技術(shù)實(shí)力、生產(chǎn)裝備和試驗(yàn)設(shè)備的考察給出的評(píng)估.財(cái)務(wù)狀況(U13)下屬總資產(chǎn)周轉(zhuǎn)率(U131),資產(chǎn)負(fù)債率(U132)和流動(dòng)資金(U133)三個(gè)部分.
圖2 供應(yīng)商畫像標(biāo)簽體系
圖3 信息標(biāo)簽體系
1.1.2 產(chǎn)品(U2)
一級(jí)標(biāo)簽產(chǎn)品(U2)下面有三個(gè)二級(jí)標(biāo)簽,產(chǎn)品質(zhì)量(U21),產(chǎn)品柔性(U22)和產(chǎn)品成本(U23),如圖4所示.
產(chǎn)品質(zhì)量(U21)下屬合格率(U211)至出廠試驗(yàn)通過率(U214)四個(gè)較為直觀的標(biāo)簽.產(chǎn)品柔性(U22)是指供應(yīng)商在應(yīng)對(duì)外部環(huán)境改變時(shí)有效的處理能力,一定程度上反映了企業(yè)的承受能力.U221 指供應(yīng)商從接到產(chǎn)品需求單到正常送貨到達(dá)時(shí)間可以調(diào)整的幅度;U222 指企業(yè)在一定時(shí)期生產(chǎn)新產(chǎn)品的能力,反映了供應(yīng)商的產(chǎn)品研發(fā)能力;U223 指企業(yè)一定時(shí)間可以承受的產(chǎn)品訂購(gòu)數(shù)量的變化能力.產(chǎn)品成本(U23)下屬產(chǎn)品價(jià)格(U 2 3 1)、獲得成本(U 2 3 2)和運(yùn)輸費(fèi)用(U233)三個(gè)標(biāo)簽,U232 指企業(yè)在一次采購(gòu)活動(dòng)上整個(gè)鏈條的總成本,也就是供應(yīng)商將產(chǎn)品送達(dá)企業(yè)整個(gè)過程的費(fèi)用.
1.1.3 綜合服務(wù)(U3)
一級(jí)標(biāo)簽綜合服務(wù)(U3)下面有兩個(gè)二級(jí)標(biāo)簽,圖5所示.產(chǎn)品交付(U31),服務(wù)計(jì)劃(U32).
產(chǎn)品交付(U31)下屬準(zhǔn)時(shí)交貨率(U311)至樣本贈(zèng)送率(U315)四個(gè)標(biāo)簽.其中U312 表示供應(yīng)商能否及時(shí)響應(yīng)客戶訂單,國(guó)網(wǎng)部分對(duì)訂單的響應(yīng)時(shí)間越來越敏感,因此訂單的響應(yīng)能力很多程度上反應(yīng)了供應(yīng)商的交貨能力.U314 反應(yīng)了可以節(jié)省的資金額度同時(shí)也 可以測(cè)試產(chǎn)品供應(yīng)的穩(wěn)定性.
圖4 產(chǎn)品標(biāo)簽體系
圖5 綜合服務(wù)標(biāo)簽體系
用戶畫像構(gòu)建標(biāo)簽分為事實(shí)標(biāo)簽和模型標(biāo)簽.事實(shí)標(biāo)簽可以從數(shù)據(jù)庫(kù)直接獲取或者通過簡(jiǎn)單的統(tǒng)計(jì)得到.這類標(biāo)簽的構(gòu)建比較容易但需咨詢行業(yè)專家給出具體的衡量指標(biāo)比如U122,U124,U211,U212,U22,U23,U31 和U32.模型標(biāo)簽的構(gòu)建是標(biāo)簽體系的核心需要機(jī)器學(xué)習(xí)和自然語(yǔ)言處理的知識(shí),如U111,U112,U113,U114,U121,U122,U123 和U13.
1.2.1 事實(shí)標(biāo)簽構(gòu)建
事實(shí)標(biāo)簽是指可以解釋得到的標(biāo)簽,具有可量化性.選取代表性的幾個(gè)標(biāo)簽來說明事實(shí)標(biāo)簽的構(gòu)建過程.
(1)合格率(U211)
在一定時(shí)間T內(nèi),國(guó)網(wǎng)企業(yè)采購(gòu)了M件某電力設(shè)備,其中合格的產(chǎn)品數(shù)量為H.則這一產(chǎn)品的合格率R 如式(1)所示:
合格率是衡量產(chǎn)品質(zhì)量的一個(gè)重要指標(biāo).
(2)時(shí)間柔性(U221)
供應(yīng)商相比正常到貨時(shí)間可以調(diào)整的幅度為A,合同送貨時(shí)間為B,則時(shí)間柔性R的計(jì)算如下:
(3)品種柔性(U222)
時(shí)間為T,新產(chǎn)品的種類數(shù)量為Nnew,產(chǎn)品品種總數(shù)為N,則品種柔性的計(jì)算公式為:
(4)數(shù)量柔性(U223)
在一定時(shí)間T內(nèi),企業(yè)可以生產(chǎn)產(chǎn)品的最大數(shù)量為Nmax,最小數(shù)量為Nmin,這段時(shí)間產(chǎn)品的平均需求量為.則計(jì)算公式如下:
(5)獲得成本(U232)
在一定的時(shí)間T內(nèi)單位產(chǎn)品的獲得成本是P,供應(yīng)商的產(chǎn)品的成交價(jià)格是C,采購(gòu)量是N,其所花費(fèi)的訂貨費(fèi)用是F,其中的訂貨費(fèi)用和企業(yè)與供應(yīng)商合作的方式有關(guān)系,如果采用供應(yīng)商管理庫(kù)存的方式,那么企業(yè)的運(yùn)輸與庫(kù)存就分給供應(yīng)商,訂貨費(fèi)用是從供應(yīng)商那里出廠的價(jià)格,那么高額的運(yùn)輸和庫(kù)存管理將由企業(yè)來承擔(dān).
(6)訂單響應(yīng)能力(U312)
相關(guān)行業(yè)專家給出了刻畫訂單響應(yīng)能力的評(píng)價(jià)指標(biāo)描述,如表1所示.
表1 訂單響應(yīng)能力評(píng)分
(7)資質(zhì)證書(U124)
資質(zhì)證書評(píng)價(jià)表如表2所示.
表2 資質(zhì)證書情況評(píng)分
分析以上舉例發(fā)現(xiàn),事實(shí)標(biāo)簽的數(shù)據(jù)主要來自數(shù)據(jù)庫(kù),并且對(duì)相關(guān)描述的指標(biāo)構(gòu)建也來自相關(guān)領(lǐng)域的專家.但是在通過指標(biāo)構(gòu)建相應(yīng)評(píng)分時(shí),為了防止加入過多的主觀因素對(duì)后面標(biāo)簽的使用產(chǎn)生影響,使用Sigmod 函數(shù)作為相關(guān)標(biāo)簽的自動(dòng)打分函數(shù).首先將函數(shù)變量初始化為-1,然后根據(jù)與描述中各項(xiàng)的對(duì)應(yīng)情況進(jìn)行累加.例如,在訂單響應(yīng)能力評(píng)分中無詳細(xì)的訂單響應(yīng)措施加0,有訂單響應(yīng)能力加1,得到良好執(zhí)行的再加1,執(zhí)行情況若一般則加0.5,有但是未執(zhí)行的加0.通過上述方式進(jìn)行描述情況的表示,然后送入Sigmod 函數(shù)中得到打分結(jié)果.將函數(shù)變量初始化為-1 是為了將打分結(jié)果擴(kuò)展到0~1 之間.這樣在使用標(biāo)簽時(shí)就不用再次進(jìn)行數(shù)據(jù)的歸一化操作.通過使用打分函數(shù)可以有效的避免專家直接打分中的主觀因素,使得標(biāo)簽內(nèi)容更加客觀可信.
1.2.2 模型標(biāo)簽的構(gòu)建
模型標(biāo)簽的構(gòu)建主要考慮兩個(gè)方面,標(biāo)簽內(nèi)容來源和算法的選擇.U111,U112,U113,U114,U123,U124 來自網(wǎng)站企查查,該網(wǎng)站數(shù)據(jù)整合自官方數(shù)據(jù)庫(kù)真實(shí)全面.U122 一部分信息來自北極星電力新聞網(wǎng)的電力供應(yīng)商專欄,另一部分來自數(shù)據(jù)庫(kù)中過去合作的信息.U121 來自網(wǎng)站信用中國(guó)的評(píng)分.U13 標(biāo)簽是非必要生成標(biāo)簽,如果供應(yīng)商是上市企業(yè)則通過發(fā)布的年報(bào)得到,非上市公司則不予生成.
(1)部分關(guān)鍵算法
① 中文分詞
中文不同于其它語(yǔ)言,中文表達(dá)的基本單位是詞而不是字,所以要想理解中文首先將句子劃分為詞.分詞算法分為規(guī)則分詞和統(tǒng)計(jì)分詞兩種方法.當(dāng)前比較成熟分詞工具一般都是結(jié)合兩個(gè)方案的混合分詞技術(shù).一般是先基于詞典的方式進(jìn)行分詞,然后再用統(tǒng)計(jì)的分詞方法進(jìn)行輔助.這樣在保證詞典準(zhǔn)確律的基礎(chǔ)上,對(duì)詞典中的未登錄詞也有較好的識(shí)別.
本文使用了當(dāng)下效果比較好的分詞工具——jieba 作為分詞器,作為文本處理的第一步工作.
② 關(guān)鍵詞提取算法
關(guān)鍵詞是代表文章重要內(nèi)容的一組詞.在文本自動(dòng)摘要、關(guān)鍵詞提取等起重要的作用.本文使用了LDA 算法[12]作為主要的算法模型.LDA 算法擬合出詞-文檔-主題的分布,算法假設(shè)文檔中主題的先驗(yàn)分布和主題詞的先驗(yàn)分布都服從狄利克雷分布.通過對(duì)訓(xùn)練文本的統(tǒng)計(jì),就可以得到每篇文檔中主題的多項(xiàng)式分布和每個(gè)主題中的詞的多項(xiàng)式分布,然后通過貝葉斯學(xué)派的方法,通過先驗(yàn)的狄利克雷分布和觀測(cè)數(shù)據(jù)得到的多項(xiàng)式分布來推斷文檔中主題的后驗(yàn)分布和主題中詞的后驗(yàn)分布.
算法模型如圖6,其中最大的虛線框D表示訓(xùn)練語(yǔ)料的文檔集合,K表示主題的集合.θd表示文本D中的主題分布中抽樣得到的主題,這個(gè)分布服從參數(shù)為 ?的狄利克雷分布(DIR),即
圖6 LDA 算法模型
η表示每個(gè)主題分布對(duì)應(yīng)的參數(shù),βk表示用第K個(gè)主題來生成文字.Zd,n表示從主題分布中產(chǎn)生主題,服從多項(xiàng)式分布即
Wd,n表 示從確定的主題d中產(chǎn)生文字,同樣服從多項(xiàng)式分布.
綜上所述,可以將LDA 的算法流程整理得到:
算法1.LDA 算法for all topics dok∈[1,K] sample mixture component · ①end ford∈[1,D]βk~Dir(η)for all documents do θd~Dir(ˉ?)sample mixture proportion ······· ② for all words do Zd,n~Mult(θd)n∈[1,N] sample topic index ·······③Wd,n~Mult(βZd,m)sample term for word ···· ④⑤ end for end for
LDA 算法屬于統(tǒng)計(jì)模型,使用之前需要進(jìn)行預(yù)訓(xùn)練得到概率分布的參數(shù).求解模型的參數(shù)一般使用Gibbs 采樣或者EM 算法來求解.本文所述的LDA 算法主要用在電網(wǎng)行業(yè)的文本中,所以使用來自于北極星電力新聞網(wǎng)的網(wǎng)頁(yè)組成的語(yǔ)料庫(kù)作為訓(xùn)練語(yǔ)料進(jìn)行模型訓(xùn)練.
③ 命名實(shí)體識(shí)別
文中在生成某些標(biāo)簽時(shí),需要關(guān)注供應(yīng)商名稱、機(jī)構(gòu)名稱或者事件發(fā)生的時(shí)間等,這些名詞在語(yǔ)言中被稱為命名實(shí)體.本文采用基于條件隨機(jī)場(chǎng)的命名實(shí)體識(shí)別算法實(shí)現(xiàn)命名實(shí)體的識(shí)別.
條件隨機(jī)場(chǎng)是一種在給定觀察的標(biāo)記序列下,計(jì)算整個(gè)標(biāo)記序列的聯(lián)合概率的方法.如X=(X1,X2,···,Xn)和Y=(Y1,Y2,···,Yn)是聯(lián)合隨機(jī)變量,若隨機(jī)變量Y 構(gòu)成一個(gè)無向圖G=(V,E)表示的馬爾科夫模型,則其條件概率分布P(Y|X)稱為條件隨機(jī)場(chǎng):
P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v),其中w~v表示圖G=(V,E)中 與結(jié)點(diǎn)v右邊連接的所有節(jié)點(diǎn),w≠v表示 結(jié)點(diǎn)v以外的所有節(jié)點(diǎn).其圖結(jié)構(gòu)如圖7所示.
在訓(xùn)練樣本中每個(gè)字的標(biāo)簽都在已知的標(biāo)簽集合中選擇(“B”,“M”,“E”,“S”,“O”),x是字序列,y是字對(duì)應(yīng)的標(biāo)簽序列.訓(xùn)練條件隨機(jī)場(chǎng)模型的過程就是將已經(jīng)標(biāo)注好的訓(xùn)練樣本輸入初始模型中,迭代求解特征函數(shù)和對(duì)應(yīng)特征函數(shù)權(quán)重的過程,訓(xùn)練的目標(biāo)函數(shù)為:
圖7 馬爾科夫圖模型
假設(shè)現(xiàn)在以企業(yè)名稱識(shí)別為例.做如下標(biāo)記,表3:
表3 命名實(shí)體識(shí)別結(jié)構(gòu)構(gòu)建
(2)應(yīng)用分析
與供應(yīng)商企業(yè)相關(guān)的文本處理相比于傳統(tǒng)的文本處理更加困難.因?yàn)橄嚓P(guān)文本大多是短文本,而傳統(tǒng)的文本處理方法會(huì)導(dǎo)致文本語(yǔ)義特征稀疏和語(yǔ)義敏感等問題.所以對(duì)企業(yè)相關(guān)的文本預(yù)處理時(shí)使用了詞性標(biāo)注以及拼音序列的表征.
考慮到標(biāo)簽數(shù)量較多且標(biāo)簽之間有重復(fù)使用算法的現(xiàn)象,所以選取幾個(gè)典型的標(biāo)簽來舉例.這里上海某電器集團(tuán)為來說明.
① 企業(yè)簡(jiǎn)介
本標(biāo)簽主要是對(duì)爬取的企業(yè)簡(jiǎn)介文本做關(guān)鍵詞提取分析.這部分相對(duì)于其他模型標(biāo)簽構(gòu)建方法簡(jiǎn)單,直接對(duì)文本進(jìn)行分詞處理,分詞時(shí)要對(duì)常見的企業(yè)詞重點(diǎn)關(guān)注比如“上市”、“融資”等.分好詞的文本直接輸入的訓(xùn)練好的LDA 模型中然后輸出相應(yīng)的關(guān)鍵詞.原文和關(guān)鍵詞對(duì)比見表4.
表4 原文與LDA 處理結(jié)果對(duì)比
② 訴訟情況
分析企業(yè)的訴訟情況需要關(guān)注案件發(fā)生的企業(yè)雙方,緣由和最終的判決結(jié)果.但是有關(guān)訴訟的文本比較短,且關(guān)鍵性的詞語(yǔ)和命名實(shí)體比較密集.所以本質(zhì)上需要對(duì)文本的主要的內(nèi)容進(jìn)行語(yǔ)義分析.獲取一條訴訟文本后,首先進(jìn)行句法分析得到句法分析樹,根據(jù)句法分析樹和基于條件隨機(jī)場(chǎng)的命名實(shí)體算法識(shí)別出原告和被告的關(guān)系和名稱.
表5 訴訟標(biāo)簽提取情況舉例
訴訟情況的得分的計(jì)算方案為:
其中,wi表示i類 糾紛的權(quán)重,ci表示i類糾紛的計(jì)數(shù),如果裁定結(jié)果為撤訴則不參與計(jì)數(shù).分子的表示與實(shí)際需求最相關(guān)的t類訴訟案件,比如當(dāng)關(guān)注于供應(yīng)商的產(chǎn)品時(shí),則主要選擇與產(chǎn)品相關(guān)的訴訟案件作為分子.
本文評(píng)估用戶畫像效果的方法是計(jì)算準(zhǔn)確率、和是否有時(shí)效性機(jī)制,這也是用戶畫像評(píng)估中最常用的方法.
準(zhǔn)確率指被打上正確標(biāo)簽的用戶比例.準(zhǔn)確率是用戶畫像最核心的指標(biāo),計(jì)算公式是:
具體的評(píng)估方法為:隨機(jī)抽取15 家合作過的供應(yīng)商企業(yè),行業(yè)專家首先對(duì)供應(yīng)商進(jìn)行標(biāo)注,并把經(jīng)過兩輪審核后得到的標(biāo)注結(jié)果當(dāng)作準(zhǔn)確的樣本.然后再有新一批專家和自動(dòng)化模型通過進(jìn)行標(biāo)注,并根據(jù)準(zhǔn)確樣本計(jì)算兩者標(biāo)注的準(zhǔn)確率,為了提高評(píng)估結(jié)果的準(zhǔn)確性,進(jìn)行3 組相同的標(biāo)注過程.3 組的對(duì)比情況如表6所示.
表6 模型準(zhǔn)確率測(cè)試結(jié)果(%)
假設(shè)國(guó)網(wǎng)現(xiàn)在想選擇一家變壓器供應(yīng)商購(gòu)進(jìn)一批變壓器,首先給出一系列期望的變壓器參數(shù),比如使用壽命,價(jià)格,安裝時(shí)間等.然后將這些參數(shù)組合成目標(biāo)模板.選擇多家供應(yīng)商的相關(guān)標(biāo)簽計(jì)算與目標(biāo)模板的相似度.根據(jù)相似度的分值,對(duì)供應(yīng)商進(jìn)行排名.排名越靠前表示推薦力度越高.
具體實(shí)驗(yàn)過程為:從歷史最優(yōu)采購(gòu)記錄中選取了20 種設(shè)備.每種設(shè)備選取了同時(shí)期的39 家供應(yīng)商作為干擾項(xiàng),加上最優(yōu)供應(yīng)商一共40 家.然后對(duì)每家設(shè)備供應(yīng)商使用GloVe 算法提取特征,此其中GloVe 算法百萬數(shù)量級(jí)的詞典和上億數(shù)據(jù)集上可以進(jìn)行快速訓(xùn)練.提取特征后進(jìn)行與目標(biāo)模板進(jìn)行相似度計(jì)算得到一個(gè)結(jié)果.同時(shí)使用常見的AHP 和Xgboot_LMT 算法進(jìn)行分析得到的最終精確度比較見表7.
表7 模型應(yīng)用準(zhǔn)確率(%)
本文以“輔助決策模塊”為實(shí)際應(yīng)用背景.通過使用用戶畫像的方案對(duì)供應(yīng)商的數(shù)據(jù)進(jìn)行了有效的組織.在行業(yè)專家和大數(shù)據(jù)工程師的共同參與下,使用自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的方法,構(gòu)建了自動(dòng)更新的供應(yīng)商畫像標(biāo)簽體系,通過評(píng)估該畫像體系取得了比較高的得分.通過使用用戶畫像技術(shù)簡(jiǎn)化了開發(fā)流程,提高了系統(tǒng)的工作質(zhì)量.
但是系統(tǒng)在標(biāo)簽構(gòu)建的內(nèi)容上比較繁瑣,并且在構(gòu)建算法的調(diào)優(yōu)上還有所不足.后期需要逐步探索更加便捷的標(biāo)簽內(nèi)容,并且隨著數(shù)據(jù)量的增加需要對(duì)相關(guān)算法進(jìn)行重新訓(xùn)練提高標(biāo)簽內(nèi)容提取的準(zhǔn)確率.