劉鯤鵬 盛 妍 何 薇 宮立華
1(國(guó)家電網(wǎng)有限公司客戶(hù)服務(wù)中心 天津 300309)2(北京中電普華信息技術(shù)有限公司 北京 100085)
國(guó)網(wǎng)95598客服人員在受理客戶(hù)來(lái)電業(yè)務(wù)時(shí),需要對(duì)客戶(hù)戶(hù)號(hào)進(jìn)行核對(duì),以便解決客戶(hù)來(lái)電訴求。由于大部分客戶(hù)無(wú)法提供客戶(hù)戶(hù)號(hào),坐席人員需要通過(guò)詢(xún)問(wèn)客戶(hù)用電地址信息與現(xiàn)有檔案用電地址進(jìn)行匹配,獲取客戶(hù)戶(hù)號(hào)。這種方式勢(shì)必會(huì)造成坐席服務(wù)效率低下,引起客戶(hù)情緒浮躁等問(wèn)題。
另一方面,目前中心標(biāo)簽是以電話(huà)號(hào)碼為對(duì)象構(gòu)建,省公司標(biāo)簽是以用戶(hù)號(hào)為對(duì)象構(gòu)建,為實(shí)現(xiàn)中心和省公司標(biāo)簽共享,需要構(gòu)建電話(huà)號(hào)碼和用戶(hù)號(hào)之間的動(dòng)態(tài)精準(zhǔn)匹配關(guān)系,支撐以電話(huà)號(hào)碼為對(duì)象的客戶(hù)畫(huà)像和以用戶(hù)號(hào)為對(duì)象的客戶(hù)畫(huà)像,實(shí)現(xiàn)中心和省公司在標(biāo)簽對(duì)象上的融合應(yīng)用[1]。鑒于此,識(shí)別客戶(hù)來(lái)電號(hào)碼與戶(hù)號(hào)的對(duì)應(yīng)關(guān)系勢(shì)在必行。
從業(yè)務(wù)數(shù)據(jù)入手,客戶(hù)檔案中的戶(hù)號(hào)和聯(lián)系方式為靜態(tài)數(shù)據(jù),而95598數(shù)據(jù)、IVR數(shù)據(jù)和網(wǎng)站數(shù)據(jù)都屬于動(dòng)態(tài)數(shù)據(jù),其中的號(hào)碼與戶(hù)號(hào)關(guān)系為動(dòng)態(tài)關(guān)系[2]。本文從動(dòng)態(tài)關(guān)系出發(fā),更新、補(bǔ)充、完善靜態(tài)數(shù)據(jù),通過(guò)計(jì)算匹配度得分對(duì)號(hào)碼和戶(hù)號(hào)的對(duì)應(yīng)關(guān)系進(jìn)行識(shí)別。
2.1.1 有電話(huà)號(hào)碼有戶(hù)號(hào)情況
1) 數(shù)據(jù)源:
(1) 近兩年戶(hù)號(hào)不為空的95598工單數(shù)據(jù)(注:根據(jù)數(shù)據(jù)探索結(jié)果確定時(shí)間范圍)。
(2) 客戶(hù)檔案數(shù)據(jù)。
2) 研究步驟:
(1) 數(shù)據(jù)加工。提取95598工單業(yè)務(wù)中記錄戶(hù)號(hào)與號(hào)碼的工單,并加工關(guān)系基表(戶(hù)號(hào)、號(hào)碼、來(lái)電頻次、時(shí)間點(diǎn)、地址、姓名等)。
(2) 正確性校驗(yàn)。為保證對(duì)應(yīng)關(guān)系的準(zhǔn)確性,對(duì)提取的對(duì)應(yīng)關(guān)系進(jìn)行數(shù)據(jù)校驗(yàn),排除無(wú)效關(guān)系。對(duì)應(yīng)關(guān)系在檔案中成功匹配,無(wú)需進(jìn)行校驗(yàn),規(guī)定此情況匹配度得分最高;對(duì)應(yīng)關(guān)系在檔案沒(méi)有匹配成功:此類(lèi)情況需對(duì)工單數(shù)據(jù)中的用電地址信息、客戶(hù)姓名與檔案進(jìn)行準(zhǔn)確性校驗(yàn)。同時(shí),再結(jié)合用戶(hù)撥打行為特征,如撥打頻次、最近撥打時(shí)間、來(lái)電時(shí)間點(diǎn)、撥打業(yè)務(wù)類(lèi)型等行為綜合校驗(yàn)對(duì)應(yīng)關(guān)系的準(zhǔn)確性。在數(shù)據(jù)校驗(yàn)的過(guò)程中,計(jì)算關(guān)系匹配度得分,根據(jù)匹配度得分確定關(guān)系可靠性。
計(jì)算匹配度得分:借助于大數(shù)據(jù)文本挖掘技術(shù)[3],對(duì)涉及到文本校驗(yàn)因素,進(jìn)行分詞并計(jì)算文本相似度,進(jìn)而將文本相似度作為因素指標(biāo)[4];對(duì)撥打行為指標(biāo)(如號(hào)碼撥打次數(shù)、撥打時(shí)間點(diǎn)、最近撥打時(shí)間、撥打事件類(lèi)型、用電地址在歷史工單中出現(xiàn)次數(shù)、客戶(hù)姓名在歷史工單中出現(xiàn)次數(shù)、同一戶(hù)號(hào)是否在歷史工單中出現(xiàn),出現(xiàn)該戶(hù)號(hào)的頻次等因素)可作為行為量化因素指標(biāo);通過(guò)使用層次分析法、熵值法、因子分析法等大數(shù)據(jù)建模方法,構(gòu)建指標(biāo)權(quán)重劃分模型,計(jì)算各個(gè)因子指標(biāo)權(quán)重,進(jìn)而計(jì)算關(guān)系匹配度得分[5]。
說(shuō)明:在校驗(yàn)過(guò)程中,若不滿(mǎn)足以上因素的檢驗(yàn)條件,則將不滿(mǎn)足條件的來(lái)電號(hào)碼放到下一分類(lèi)情況(即有號(hào)碼無(wú)戶(hù)號(hào)情況)進(jìn)行關(guān)系識(shí)別。
3) 匹配流程:
有號(hào)碼有戶(hù)號(hào)情況下對(duì)應(yīng)關(guān)系匹配流程圖如圖1所示。
2.1.2 有電話(huà)號(hào)碼無(wú)戶(hù)號(hào)情況
1) 電話(huà)號(hào)碼記錄在檔案情況:
(1) 數(shù)據(jù)源:
① 近兩年戶(hù)號(hào)為空且來(lái)電號(hào)碼在檔案中有記錄的95598工單數(shù)據(jù)(根據(jù)數(shù)據(jù)探索結(jié)果確定時(shí)間范圍)。
② 提取步驟2.1.1中判別無(wú)效關(guān)系且號(hào)碼出現(xiàn)在檔案的95598工單。
③ 客戶(hù)檔案數(shù)據(jù)。
(2) 研究步驟:
① 數(shù)據(jù)加工。提取近兩年戶(hù)號(hào)為空且來(lái)電號(hào)碼在檔案中有記錄的95598工單,并通過(guò)電話(huà)號(hào)碼獲取檔案中的戶(hù)號(hào);提取2.1.1節(jié)中判別無(wú)效關(guān)系且號(hào)碼記錄在檔案的工單;加工95598工單數(shù)據(jù)基表(記錄工單編號(hào)、來(lái)電號(hào)碼、客戶(hù)編號(hào)、用電地址、客戶(hù)姓名、撥打頻次、最近撥打時(shí)間等內(nèi)容)、客戶(hù)檔案數(shù)據(jù)基表(記錄客戶(hù)編號(hào)、用電地址、客戶(hù)姓名、聯(lián)系號(hào)碼等內(nèi)容)。
② 正確性校驗(yàn)。校驗(yàn)準(zhǔn)則:此類(lèi)情況需對(duì)工單數(shù)據(jù)中的用電地址信息、客戶(hù)姓名與檔案進(jìn)行準(zhǔn)確性校驗(yàn)。同時(shí),再結(jié)合用戶(hù)撥打行為特征,如撥打頻次、最近撥打時(shí)間、來(lái)電時(shí)間點(diǎn)、撥打業(yè)務(wù)類(lèi)型等行為綜合校驗(yàn)對(duì)應(yīng)關(guān)系的準(zhǔn)確性。在數(shù)據(jù)校驗(yàn)的過(guò)程中,計(jì)算關(guān)系匹配度得分,根據(jù)匹配度得分確定關(guān)系可靠性。
計(jì)算匹配度得分:需借助于大數(shù)據(jù)文本挖掘技術(shù),對(duì)涉及到文本校驗(yàn)因素進(jìn)行分詞并計(jì)算文本相似度,進(jìn)而將文本相似度作為因素指標(biāo);對(duì)撥打行為指標(biāo)(如號(hào)碼撥打次數(shù)、撥打時(shí)間點(diǎn)、最近撥打時(shí)間、撥打事件類(lèi)型、用電地址在歷史工單中出現(xiàn)次數(shù)、客戶(hù)姓名在歷史工單中出現(xiàn)次數(shù)、同一戶(hù)號(hào)是否在歷史工單中出現(xiàn)、出現(xiàn)該戶(hù)號(hào)的頻次等因素)可作為行為量化因素指標(biāo);通過(guò)使用層次分析法、熵值法、因子分析法等大數(shù)據(jù)建模方法,構(gòu)建指標(biāo)權(quán)重劃分模型,計(jì)算各個(gè)因子指標(biāo)權(quán)重,進(jìn)而計(jì)算關(guān)系匹配度得分。
在校驗(yàn)過(guò)程中,若不滿(mǎn)足以上因素的檢驗(yàn)條件,則將不滿(mǎn)足條件的來(lái)電號(hào)碼放到下一分類(lèi)情況(即有號(hào)碼無(wú)戶(hù)號(hào)且號(hào)碼未記錄在檔案情況)進(jìn)行關(guān)系識(shí)別。
(3) 匹配流程:
號(hào)碼記錄在檔案情況下對(duì)應(yīng)關(guān)系匹配流程圖如圖2所示。
2) 號(hào)碼未記錄在檔案情況:
此類(lèi)情況由于來(lái)電號(hào)碼未記錄在檔案中,無(wú)法通過(guò)電話(huà)號(hào)碼獲取相應(yīng)的戶(hù)號(hào),因此需要引入大數(shù)據(jù)模挖掘術(shù),通過(guò)文本挖掘、構(gòu)建模型,識(shí)別疑似戶(hù)號(hào)。
(1) 數(shù)據(jù)源:
近兩年戶(hù)號(hào)為空且來(lái)電號(hào)碼在檔案中沒(méi)有記錄的95598工單數(shù)據(jù)(根據(jù)數(shù)據(jù)探索結(jié)果確定時(shí)間范圍);提取2.1.1節(jié)中判別無(wú)效關(guān)系且號(hào)碼未記錄在檔案的95598工單;提取電話(huà)號(hào)碼記錄在檔案中判別無(wú)效關(guān)系的號(hào)碼工單客戶(hù)檔案數(shù)據(jù)。
(2) 研究步驟:
① 數(shù)據(jù)加工。提取近兩年戶(hù)號(hào)為空且來(lái)電號(hào)碼在檔案中沒(méi)有記錄的95598工單;提取電話(huà)號(hào)碼記錄在檔案中判別無(wú)效關(guān)系的工單;加工95598工單數(shù)據(jù)基表(工單編號(hào)、來(lái)電號(hào)碼、客戶(hù)編號(hào)等)、客戶(hù)檔案數(shù)據(jù)基表(客戶(hù)編號(hào)、用電地址、客戶(hù)姓名、聯(lián)系號(hào)碼等)。
② 因素指標(biāo)。在尋找疑似戶(hù)號(hào)的過(guò)程中,需要構(gòu)建因子指標(biāo),判別待識(shí)別來(lái)電客戶(hù)的通話(huà)行為、身份信息、地址信息等因素是否與現(xiàn)存對(duì)應(yīng)關(guān)系的行為一致或者相近,最終尋找此來(lái)電號(hào)碼的疑似戶(hù)號(hào)?,F(xiàn)存對(duì)應(yīng)關(guān)系可分為兩類(lèi):基于2.1.1節(jié)和電話(huà)號(hào)碼記錄在檔案中識(shí)別出的對(duì)應(yīng)關(guān)系;其余的為檔案數(shù)據(jù)中已存在的對(duì)應(yīng)關(guān)系?;谝陨蠑?shù)據(jù)源,因子指標(biāo)按照數(shù)據(jù)結(jié)構(gòu)分為非結(jié)構(gòu)化指標(biāo)與結(jié)構(gòu)化指標(biāo)兩類(lèi)。非結(jié)構(gòu)化指標(biāo):客戶(hù)用電地址、客戶(hù)姓名、受理內(nèi)容中提取信息量(戶(hù)號(hào)、電話(huà)號(hào)碼、姓名等)、處理意見(jiàn)中提取的信息量(戶(hù)號(hào)、電話(huà)號(hào)碼、姓名等)等文本內(nèi)容。結(jié)構(gòu)化指標(biāo):來(lái)電頻次、來(lái)電時(shí)間點(diǎn)、通話(huà)時(shí)長(zhǎng)、各個(gè)業(yè)務(wù)類(lèi)型的來(lái)電頻次、來(lái)電時(shí)長(zhǎng)以及最近來(lái)電時(shí)間等通話(huà)行為。
③ 數(shù)據(jù)建模識(shí)別戶(hù)號(hào)。非結(jié)構(gòu)化指標(biāo)相似度計(jì)算方法:基于以上幾類(lèi)文本數(shù)據(jù),采用大數(shù)據(jù)文本挖掘技術(shù),對(duì)其進(jìn)行文本分詞,進(jìn)而將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化處理。將分詞之后的各個(gè)文本內(nèi)容根據(jù)出現(xiàn)頻次,構(gòu)造向量空間,利用余弦?jiàn)A角度量方法、最長(zhǎng)公共子序列方法、最小邊際距離算法等,計(jì)算各個(gè)對(duì)應(yīng)文本的相似度,相似度作為建模因子指標(biāo)。通過(guò)輸入非結(jié)構(gòu)指標(biāo)(即文本挖掘計(jì)算出的相似度),以及結(jié)構(gòu)化因素指標(biāo),構(gòu)建KNN數(shù)據(jù)模型計(jì)算每個(gè)號(hào)碼對(duì)象與現(xiàn)存對(duì)應(yīng)關(guān)系的相似度,最終來(lái)確定該號(hào)碼對(duì)應(yīng)的疑似戶(hù)號(hào),實(shí)現(xiàn)號(hào)碼與戶(hù)號(hào)的匹配?,F(xiàn)存對(duì)應(yīng)關(guān)系可分為兩類(lèi):基于2.1.1節(jié)和電話(huà)號(hào)碼記錄在檔案中識(shí)別出的對(duì)應(yīng)關(guān)系;其余的為檔案數(shù)據(jù)中已存在的對(duì)應(yīng)關(guān)系。在訓(xùn)練KNN模型的同時(shí),需確定出合適的K值作為戶(hù)號(hào)類(lèi)別歸屬的判別,在篩戶(hù)號(hào)歸屬的同時(shí),需遵從如下原則:
在鄰近的K個(gè)可選戶(hù)號(hào)歸屬中,若屬于2.1.1節(jié)與電話(huà)號(hào)碼記錄在檔案中的對(duì)應(yīng)關(guān)系優(yōu)先選取該戶(hù)號(hào)(號(hào)碼關(guān)系相對(duì)可靠),否則按照模型相似度得分來(lái)分配疑似戶(hù)號(hào)歸屬。
(3) 匹配流程:
號(hào)碼未記錄檔案情況下對(duì)應(yīng)關(guān)系匹配流程圖如圖3所示。
圖3 號(hào)碼未記錄檔案情況下對(duì)應(yīng)關(guān)系匹配流程圖
綜合兩類(lèi)情況找尋的戶(hù)號(hào)信息,進(jìn)行合并處理,形成戶(hù)號(hào)與號(hào)碼的對(duì)應(yīng)關(guān)系。在合并后的對(duì)應(yīng)關(guān)系中,對(duì)應(yīng)關(guān)系存在如下三種情況:
(1) 號(hào)碼與戶(hù)號(hào)1對(duì)1;
(2) 號(hào)碼與戶(hù)號(hào)1對(duì)多;
(3) 號(hào)碼與戶(hù)號(hào)多對(duì)1。
針對(duì)號(hào)碼與戶(hù)號(hào)多對(duì)多的情況,需進(jìn)行優(yōu)先級(jí)劃分。
對(duì)于一戶(hù)多號(hào)、一號(hào)多戶(hù)的對(duì)應(yīng)關(guān)系,需制定關(guān)系優(yōu)先級(jí),選取最可靠的對(duì)應(yīng)關(guān)系。制定如下規(guī)則對(duì)其進(jìn)行優(yōu)先級(jí)劃分:
(1) 針對(duì)有號(hào)碼有戶(hù)號(hào)分類(lèi)情況,按照匹配度得分,選取一戶(hù)多號(hào)、一號(hào)多戶(hù)最為可靠的關(guān)系;
(2) 針對(duì)有號(hào)碼無(wú)戶(hù)號(hào)且號(hào)碼出現(xiàn)在檔案分類(lèi)情況,按照匹配度得分,選取一戶(hù)多號(hào)、一號(hào)多戶(hù)最為可靠的關(guān)系;
(3) 針對(duì)有號(hào)碼無(wú)戶(hù)號(hào)且號(hào)碼未出現(xiàn)在檔案)分類(lèi)情況,按照模型相似度得分,選取一戶(hù)多號(hào)、一號(hào)多戶(hù)最為可靠的關(guān)系。
綜合三部分對(duì)應(yīng)關(guān)系,針對(duì)合并之后出現(xiàn)一戶(hù)多號(hào)、一號(hào)多戶(hù)的情況再次進(jìn)行優(yōu)先級(jí)劃分,劃分規(guī)則遵從如下規(guī)定:
滿(mǎn)足條件第一種對(duì)應(yīng)關(guān)系的優(yōu)先級(jí)最高;滿(mǎn)足條件第二種對(duì)應(yīng)關(guān)系的優(yōu)先級(jí)次之;滿(mǎn)足條件第三種對(duì)應(yīng)關(guān)系的優(yōu)先級(jí)最低。
為實(shí)現(xiàn)來(lái)電號(hào)碼與客戶(hù)號(hào)的動(dòng)態(tài)匹配,需引入大數(shù)據(jù)分析、挖掘技術(shù),校驗(yàn)關(guān)系準(zhǔn)確性以及識(shí)別來(lái)電號(hào)碼的疑似戶(hù)號(hào)。在進(jìn)行關(guān)系動(dòng)態(tài)匹配的過(guò)程中,需用到如下三方面大數(shù)據(jù)技術(shù):
(1) 文本挖掘技術(shù):需對(duì)用電地址、客戶(hù)姓名、工單受理內(nèi)容等文本進(jìn)行分詞,并計(jì)算文本相似度得分;
(2) 權(quán)重劃分模型:通過(guò)權(quán)重劃分模型輸出各個(gè)因子指標(biāo)權(quán)重,進(jìn)而計(jì)算對(duì)應(yīng)關(guān)系匹配度得分,校驗(yàn)準(zhǔn)確性[6];
(3) KNN模型:針對(duì)未找到戶(hù)號(hào)的來(lái)電工單,構(gòu)建KNN模型,通過(guò)模型輸出該號(hào)碼的疑似戶(hù)號(hào)。
3.1.1 中文分詞技術(shù)
中文分詞指的是將漢字序列切分成若干個(gè)詞[7]。中文分詞是文本挖掘的基礎(chǔ),現(xiàn)有的分詞算法可分為三大類(lèi):基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)詞,則匹配成功[8]。常用的幾種機(jī)械分詞方法如下:
(1) 正向最大匹配法(由左到右的方向);
(2) 逆向最大匹配法(由右到左的方向);
(3) 最少切分(使每一句中切出的詞數(shù)最小);
(4) 雙向最大匹配法(進(jìn)行由左到右、由右到左兩次掃描)[9]。
3.1.2 詞向量技術(shù)
自然語(yǔ)言理解的問(wèn)題要轉(zhuǎn)化為機(jī)器學(xué)習(xí)的問(wèn)題,構(gòu)造詞向量[10],并計(jì)算相似度得分:
編輯距離,表示從一個(gè)字符串轉(zhuǎn)化為另一個(gè)字符串所需要的最少編輯次數(shù),這里的編輯是指將字符串中的一個(gè)字符替換成另一個(gè)字符,或者插入刪除字符。編輯距離的核心就是如何計(jì)算出一對(duì)字符串間的最小編輯次數(shù),我們可以使用動(dòng)態(tài)規(guī)劃的思想來(lái)計(jì)算其最小編輯次數(shù)[11],兩個(gè)字符串a(chǎn)=a1a2…an,b=b1b2…bm 的編輯距離遞歸計(jì)算公式如下:
(1)
(2)
(3)
式中:w表示增刪改三種操作的權(quán)重,一般定義為:
(4)
di0=i表示從b=b1b2…bi刪除為空的編輯次數(shù);d0j=j表示從空插入成a′=a1a2…aj所需的編輯次數(shù);dij則是對(duì)動(dòng)態(tài)規(guī)劃中分解子問(wèn)題的過(guò)程。其邏輯關(guān)系較為復(fù)雜,算法時(shí)間復(fù)雜度較高。
熵權(quán)法作為一種客觀賦權(quán)法,其優(yōu)勢(shì)在于可以避免賦予權(quán)重的主觀性,符合數(shù)學(xué)邏輯且具有較為嚴(yán)格的數(shù)學(xué)意義[12]。熵權(quán)法的基本運(yùn)算過(guò)程如下:
3.2.1 原始數(shù)據(jù)矩陣標(biāo)準(zhǔn)化處理
由于得到的原始數(shù)據(jù)差異較大,首先需要對(duì)數(shù)據(jù)進(jìn)行無(wú)量綱化的處理。
(5)
對(duì)正指標(biāo)無(wú)量綱化處理公式為:
(6)
對(duì)負(fù)指標(biāo)無(wú)量綱化處理公式為:
(7)
得到新的矩陣記為Aij。
3.2.2 指標(biāo)熵值的計(jì)算
(8)
3.2.3 各指標(biāo)權(quán)重的確定
(9)
3.2.4 計(jì)算綜合得分
(10)
式中:Wj表示每個(gè)指標(biāo)占的權(quán)重,Aij表示的是調(diào)整后的Xij值。
在信息論中,熵是對(duì)不確定性的一種度量。信息量越大,不確定性就越小,熵也就越??;可根據(jù)各項(xiàng)指標(biāo)的變異程度,利用信息熵這個(gè)工具,計(jì)算出各個(gè)指標(biāo)的權(quán)重,為多指標(biāo)綜合評(píng)價(jià)提供依據(jù)。
KNN是通過(guò)測(cè)量不同特征值之間的距離進(jìn)行分類(lèi)。它的思路是:如果一個(gè)樣本在特征空間中的K個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別。K通常是不大于20的整數(shù)。該方法在決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類(lèi)別來(lái)決定待分樣本所屬的類(lèi)別[13]。
KNN算法實(shí)現(xiàn)步驟綜述:
(1) 計(jì)算樣本數(shù)據(jù)之間距離;
(2) 按照距離的遞增關(guān)系進(jìn)行排序;
(3) 選取距離最小的K個(gè)點(diǎn);
(4) 確定前K個(gè)點(diǎn)所在類(lèi)別的出現(xiàn)頻率;
(5) 返回前K個(gè)點(diǎn)中出現(xiàn)頻率最高的類(lèi)別作為測(cè)試數(shù)據(jù)的預(yù)測(cè)分類(lèi)。
針對(duì)尋找到的對(duì)應(yīng)關(guān)系需進(jìn)行關(guān)系校驗(yàn),通過(guò)文本挖掘算法計(jì)算文本相似度得分,進(jìn)而將文本相似度得分以及撥打行為指標(biāo)作為構(gòu)建權(quán)重劃分模型的輸入因子,通過(guò)模型計(jì)算相似度得分,校驗(yàn)關(guān)系可靠性。因子指標(biāo)設(shè)計(jì)成寬表,如表1所示。
表1 寬表
續(xù)表1
4.2.1 計(jì)算各類(lèi)因素指標(biāo)權(quán)重
通過(guò)文本分詞構(gòu)造詞向量,并計(jì)算出地址相似度、姓名相似度得分作為模型的輸入因子,進(jìn)而再結(jié)合撥打行為、撥打偏好等行為指標(biāo),構(gòu)建權(quán)重劃分模型,模型輸出各類(lèi)指標(biāo)權(quán)重如表2所示。
表2 模型指標(biāo)權(quán)重
4.2.2 計(jì)算對(duì)應(yīng)關(guān)系匹配度得分
依據(jù)各類(lèi)指標(biāo)權(quán)重值,計(jì)算對(duì)應(yīng)關(guān)系(戶(hù)號(hào)與號(hào)碼對(duì)應(yīng)關(guān)系)匹配度得分,得分分布如表3所示。
表3 得分分布表
4.3.1 結(jié)果驗(yàn)證
選取浙江省2016/04/01至2017/04/01工單數(shù)據(jù)作為建模數(shù)據(jù),通過(guò)構(gòu)建權(quán)重劃分模型,計(jì)算對(duì)應(yīng)關(guān)系匹配度得分。選取未來(lái)5個(gè)月內(nèi)(2017/04/01-2017/08/31)有過(guò)撥打且記錄客戶(hù)戶(hù)號(hào)的工單作為模型驗(yàn)證集,對(duì)模型輸出結(jié)果進(jìn)行關(guān)系驗(yàn)證,并將數(shù)據(jù)作十分位,分別驗(yàn)證模型模型的命中率、覆蓋率情況,驗(yàn)證結(jié)果如表4所示。
表4 模型結(jié)果表
從表4可知,分值越高,模型命中率越高,符合分值越高,戶(hù)號(hào)與號(hào)碼對(duì)應(yīng)關(guān)系越緊密的趨勢(shì)特征。模型命中率在分值排名前70%以?xún)?nèi)都高于40%,并且在分值前70%模型覆蓋率達(dá)到了82.5%,故建議選取分值排名前70%作為模型預(yù)測(cè)有效對(duì)應(yīng)關(guān)系。
4.3.2 不足之處
(1) 目前此方法主要是以95598工單數(shù)據(jù)為主線(xiàn)尋找戶(hù)號(hào)與號(hào)碼對(duì)應(yīng)關(guān)系,后期可從智能互動(dòng)網(wǎng)站、掌上電力、繳費(fèi)等渠道獲取對(duì)應(yīng)關(guān)系進(jìn)行擴(kuò)充;
(2) 此方法在進(jìn)行KNN模型識(shí)別匹配過(guò)程中,計(jì)算復(fù)雜度較高,對(duì)匹配數(shù)據(jù)集按照地址范圍進(jìn)行縮減,一定程度上會(huì)降低對(duì)應(yīng)關(guān)系準(zhǔn)確性;
(3) 此方法在構(gòu)建權(quán)重劃分模型時(shí),通過(guò)模型計(jì)算各類(lèi)指標(biāo)的權(quán)重,但一定程度上會(huì)忽略業(yè)務(wù)影響,后期可結(jié)合專(zhuān)家評(píng)分,綜合評(píng)判各類(lèi)因素權(quán)重得分。
4.3.3 不可控因素
(1) 由于95598話(huà)務(wù)工單地址信息記錄不規(guī)范,導(dǎo)致地址相似度得分存在偏差;
(2) 由于95598話(huà)務(wù)工單姓名記錄不規(guī)范,導(dǎo)致姓名相似度得分存在偏差;
(3) 95598受理內(nèi)容信息記錄不規(guī)范,導(dǎo)致截取客戶(hù)戶(hù)號(hào)信息、用電地址等信息不準(zhǔn)確;
(4) 客戶(hù)檔案信息錄入不及時(shí)、且存在一戶(hù)多號(hào)情況(如開(kāi)發(fā)商樓宇信息,針對(duì)一個(gè)戶(hù)號(hào)對(duì)應(yīng)小區(qū)所有業(yè)主信息)。
從浙江省近1 年受理工單情況入手,通過(guò)構(gòu)建統(tǒng)一身份識(shí)別模型,共有效識(shí)別出對(duì)應(yīng)關(guān)系272萬(wàn),涉及工單量為431.74萬(wàn)工單,覆蓋浙江省近1年工單總量的67.35%,即有67.35%的受理工單通過(guò)模型有效識(shí)別出戶(hù)號(hào)。
綜合以上,本文創(chuàng)新點(diǎn)如下:
(1) 基于大數(shù)據(jù)平臺(tái)分布式計(jì)算環(huán)境,對(duì)海量全業(yè)務(wù)95598工單數(shù)據(jù)、客戶(hù)檔案數(shù)據(jù)進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)建模,彌補(bǔ)傳統(tǒng)數(shù)據(jù)抽樣建模的不足,進(jìn)而提升模型預(yù)測(cè)準(zhǔn)確度;
(2) 創(chuàng)新性地引入文本相似度計(jì)算方法,對(duì)工單用電地址、客戶(hù)姓名進(jìn)行分詞,進(jìn)而構(gòu)造詞向量空間,計(jì)算文本相似度;
(3) 創(chuàng)新性地使用權(quán)重劃分模型,對(duì)各項(xiàng)因素指標(biāo)實(shí)現(xiàn)客觀權(quán)重評(píng)級(jí);
(4) 創(chuàng)新性地引入KNN模型算法,實(shí)現(xiàn)對(duì)應(yīng)關(guān)系(戶(hù)號(hào)與號(hào)碼對(duì)應(yīng)關(guān)系)增量有效識(shí)別;
(5) 基于大數(shù)據(jù)平臺(tái)分布式計(jì)算環(huán)境,采用分布式計(jì)算方法(MapReduce計(jì)算、Spark內(nèi)存計(jì)算),并行地實(shí)現(xiàn)數(shù)據(jù)加工處理、模型計(jì)算,提升模型計(jì)算高效迭代性,實(shí)現(xiàn)模型快速、高效精準(zhǔn)輸出。