陳大龍 郭柏龍 孟 維 唐大鵬 魏東迎
南京華蘇科技有限公司
近幾年來,隨著我國通信市場個人用戶趨于飽和,傳統(tǒng)運營商均面臨著用戶難以增長的問題,競爭便從增量市場轉(zhuǎn)到了存量市場,如4G 用戶向5G 轉(zhuǎn)化,語音用戶向?qū)拵в脩艮D(zhuǎn)化等。
在如此激烈的市場競爭背景下,如何提高用戶滿意度,減少用戶流失,成為運營商保持用戶和收入增長的重要手段之一。要提升用戶滿意度,就需要運營商加強用戶重點投訴原因的分析,解決滿意度各類短板問題,不斷提升服務品質(zhì),以期留住用戶。
這是一則有關香港南丫島撞船事故的報道,整個語篇不足130字,篇幅短小,字字有用,句句有著落。沒有廢話,不拖沓,不冗長。修辭語義清楚明白,不費解,不含糊,讀者一看即明。再看新華網(wǎng)的:
當前運營商服務質(zhì)量管理工作的主要問題在于,手工收集來源廣泛的數(shù)據(jù)容易出錯,且對比分析工作量繁重。因此,使用大數(shù)據(jù)挖掘技術輔助運營商改善用戶滿意度的需求亟待解決,而電信運營商在用戶數(shù)據(jù)方面有著天然的優(yōu)勢。
通信用戶的海量數(shù)據(jù)均存儲在運營商的OSS、BSS 和MSS 三個域中:
目前,臨床上主要應用化學藥如胰島素增敏劑、降血脂藥等治療NAFLD,但這類藥物效果并不十分理想,且容易導致患者出現(xiàn)并發(fā)癥[7]。近些年來,中醫(yī)藥治療NAFLD開始引起人們的廣泛關注。許多中藥不僅具有良好的抗脂肪肝效果,而且毒副作用小、價格低廉、宜長期使用,在治療NAFLD方面顯示出良好的發(fā)展前景[8]。
以上是歌曲《我和2035有個約》的歌詞片斷,你讀了有怎樣的感觸和思考?請根據(jù)歌詞內(nèi)容確定立意,以“我和2035有個約”為標題寫一篇文章,要求選好角度,明確文體,自擬標題;不要套作,不得抄襲;不少于800字。
基于4.1 的樣本分析,由于樣本比例失衡,因此在訓練分類模型時,嘗試了不同的正負樣本組合方法,通過預留的驗證集測試模型效果(定義驗證集中5 分及以下為資費不滿意用戶),采用XGBoost 分類算法作為建模方法并保持默認參數(shù)不變,實驗結(jié)果如表1 所示。
(2)BSS 域(business support system)即業(yè)務支持系統(tǒng)。主要包含運營商的計費系統(tǒng)、客服系統(tǒng)、帳務系統(tǒng)、結(jié)算系統(tǒng)以及經(jīng)營分析系統(tǒng)等。
(3)MSS 域(management support system)即管理支撐系統(tǒng)。主要包含ERP 企業(yè)管理、門戶、項目管理系統(tǒng)等。
針對資費套餐服務滿意度主觀性較強的問題,提出一種基于機器學習的建模方法,從海量數(shù)據(jù)中分析用戶個體行為特征,通過用戶的多維度特征,高效且低成本地挖掘出對資費套餐服務滿意度較低的用戶,從而針對性地改善用戶感知,提升運營商整體滿意度。
實驗組問卷調(diào)查結(jié)果顯示97.0%及以上學生認為以多維度案例圖庫為基礎并微信輔助的新型示教模式可以激發(fā)學習興趣和熱情,增強自主學習能力,提高分析問題、解決問題能力,鍛煉語言表達能力,訓練臨床思維,提高閱片能力,加強師生交流,融洽師生關系(見表2)。
該方法具體包括以下步驟:
邏輯回歸模型本質(zhì)上是線性回歸,只是在特征到結(jié)果的映射中加入了一層函數(shù)映射,即先把特征線性求和,然后使用函數(shù)g(z)將作為假設函數(shù)來預測。
步驟二:使用機器學習算法通過樣本數(shù)據(jù)訓練出一個分類模型,并用該模型預測全量用戶的資費不滿意概率;
步驟三:使用機器學習算法,對資費不滿意概率較高的用戶的不滿意權重進行計算。
本方法中使用的數(shù)據(jù)均來自于某地市運營商,該運營商主要經(jīng)營移動語音、數(shù)據(jù)、寬帶、IP 電話和多媒體業(yè)務。
本方法采集了樣本數(shù)據(jù)與用戶信息數(shù)據(jù)。
(1)樣本數(shù)據(jù)
資費滿意度模型的訓練需要使用滿意與不滿意用戶作為正負樣本,因此本文采集了近一年的資費滿意度用戶調(diào)研詳單。
通過CATI(Computer Assisted Telephone Interview,計算機輔助電話訪問)方式開展客戶滿意度調(diào)研。評分0-10 分,10 分表示非常滿意,0 分表示非常不滿。9-10 分為推薦者,7-8分為中立者,0-6 分為貶損者。
(2)用戶信息數(shù)據(jù)
特征分箱是為了防止模型出現(xiàn)過擬合而將連續(xù)型特征進行離散化的處理方法,在分箱后,將分箱結(jié)果與原始特征均保留,同時放入模型進行特征篩選。
基礎信息:包括年齡、性別、入網(wǎng)時長、用戶星級等指標;
終端信息:包括是否合約機、是否4/5G 終端等指標;
投訴信息:包括是否歷史投訴用戶、當月投訴次數(shù)等指標;
五網(wǎng)屬性:包括是否集團網(wǎng)/家庭網(wǎng)用戶等指標;
寬帶信息:包括是否寬帶用戶、寬帶帶寬等指標;
消費行為:包括當月通話分鐘數(shù)、當月流量使用數(shù)、當月短信條數(shù)等指標;
套餐信息:包括流量主體套餐名稱、套餐費用等指標;
電視信息:包括是否互聯(lián)網(wǎng)電視用戶、電視觀看時長等指標;
1978年,我國實行改革開放政策。黨的十一屆三中全會決定“把黨的工作重心轉(zhuǎn)移到社會主義現(xiàn)代化建設上來”,自此我國體育開始了強國之路。在發(fā)展競技體育的同時,群眾體育也發(fā)生翻天覆地的變化,無論是群眾體育發(fā)展的模式、思路、觀念都發(fā)生了很大的變化。得益于社會大環(huán)境的改變和政府的協(xié)助,我國群眾體育無論是在橫向或縱向都有了突破性的進展,而國內(nèi)學者對于群眾體育的橫向研究較多,對于群眾體育的縱向研究相對較少,在此借改革開放40周年之際,對我國群眾體育發(fā)展進行縱向研究并展望。
自我國實現(xiàn)改革開放后,社會經(jīng)濟體制得到了迅速發(fā)展,而當代企業(yè)的發(fā)展在這樣的環(huán)境下也得到了大力推進,以此同時,其在發(fā)展過程中也面臨著諸多挑戰(zhàn)。由此,當代企業(yè)必須加強對危急意識的培養(yǎng),在不斷完善自身管理體系的同時,結(jié)合社會的發(fā)展需求成立一套具備針對性的企業(yè)管理系統(tǒng)。所謂管理會計是指將企業(yè)管理以及會計工作相互結(jié)合,不僅突破了傳統(tǒng)財務管理的局限性,同時能夠分析企業(yè)生產(chǎn)環(huán)節(jié)以及財務數(shù)據(jù)等方面來實現(xiàn)對企業(yè)管理重點的有效預測,以此為企業(yè)的生產(chǎn)經(jīng)營等提供可靠保障。
營銷案信息:包括營銷案個數(shù)、營銷案到期月份等指標;
掌廳使用信息:包括掌廳登錄天數(shù)、掌廳套餐業(yè)務接觸次數(shù)等指標。
人參為五加科植物人參Panax ginseng C.A.Mey.的干燥根和根莖[1]。具有大補元氣、復脈固脫、補脾益肺、生津養(yǎng)血、安神益智等作用。多于秋季采挖,洗凈經(jīng)曬干或烘干。栽培的俗稱“園參”;播種在山林中并在野生狀態(tài)下自然生長的稱“林下山參”,習稱“籽?!?。其炮制品為人參、紅參。西洋參為五加科植物西洋參Panax quinquefolium L.的干燥根[1]。均系栽培品。秋季采挖,洗凈,曬干或低溫干燥。西洋參與人參為同科植物,且所含有效成分與人參基本一致,因此經(jīng)炮制后的西洋參亦可入藥,但在中藥質(zhì)量控制過程中需對人參、紅參、西洋參的不同藥材及炮制品進行區(qū)分。
XGBoost 模型是一種決策樹集成算法。XGBoost 的擬合過程是基于加法訓練模型的啟發(fā)式算法,其目標不再是直接優(yōu)化整個目標函數(shù),而是通過不斷添加決策樹并進行特征分裂來生長一棵決策樹,來擬合之前的預測殘差。整個過程如下所示:
由于低分用戶樣本過少,需要通過負樣本的過采樣以及正樣本的欠采樣來保證分類模型的樣本均衡,同時盡量使用更低分的用戶作為負樣本。從表1 可看出,使用5 分及以下用戶作為負樣本效果較好,在此基礎上,使用不同正負樣本比例調(diào)優(yōu)模型,實驗結(jié)果如表2 所示。
因為使用的損失函數(shù)是MSE,因此上式可變?yōu)椋?/p>
對于一般的損失函數(shù),需要將其作泰勒二階展開,如下所示:
其中:
對于本項目的分類模型,損失函數(shù)為:
模型優(yōu)化的目的是使目標函數(shù)最小化:
為了防止過擬合,在本項目中,添加了正則化項:
由此,目標函數(shù)可轉(zhuǎn)變?yōu)椋?/p>
可求解為:
至此就可以先求最佳的樹結(jié)構(gòu),這個定出來后,最佳的葉子結(jié)點的值實際上在上面已經(jīng)求出來了。
步驟一:從不同維度的用戶數(shù)據(jù)中,提取出與用戶個體行為特征相關的指標;
將原始的線性回歸表達式帶入g(z),就可得到邏輯回歸的表達式:
一般情況下,葡萄酒的蘋-乳發(fā)酵發(fā)生在酒精發(fā)酵之后,此時葡萄糖基本轉(zhuǎn)化成乙醇,此時乙醇濃度約為12%vol,因此能夠進行蘋乳發(fā)酵的乳酸菌應該具備較強的耐酒精能力。我們按照方法1.2.2對45株乳酸菌進行了耐酒精能力測試,同時以商業(yè)乳酸菌株CH35(O.oeni)作為對照菌,進行酒精耐受性試驗,結(jié)果見表1,對照組為不加乙醇組。
大量研究證明配戴角膜塑形鏡可以顯著控制近視增長,并獲得良好的日間裸眼視力[2,3],但Chang和Liao[5]對201名小學生的調(diào)查發(fā)現(xiàn)只有53.2%的兒童日間摘鏡后可以獲得0.8以上裸眼視力。隨著近視患病率的逐年升高,配戴角膜塑形鏡的兒童人數(shù)也快速增加[1]。因此,探討去片視力低下的原因以及對近視的控制作用對于提升驗配效果意義重大。本研究通過回顧分析北京同仁醫(yī)院驗光配鏡中心驗配角膜塑形鏡的50名近視青少年兒童,發(fā)現(xiàn)驗配前球鏡度越高,去片后的裸眼視力越差,而裸眼視力差兒童的近視增長同樣得到了有效控制。
本文使用的樣本數(shù)據(jù)來自于某地市運營商在2020 年4 月至2021 年2 月期間進行的用戶滿意度調(diào)研,如圖1 所示。
圖1 資費滿意度分布圖
從資費滿意度分布圖中可以看出,在一共7689個用戶中,資費滿意度10 分用戶數(shù)量占比極高(48.11%),資費滿意度7 至9 分用戶占比較高(38.07%),而資費滿意度0 至6 分用戶占比最少(13.82%)。
將該地市的全量用戶的基本信息數(shù)據(jù)進行清洗,包括缺失值填充、錯誤數(shù)據(jù)修改、字符串型特征轉(zhuǎn)換、多類別型特征嵌入、套餐價格提取等步驟。其中套餐價格提取,是基于“流量套餐名稱”、“語音套餐名稱”、“其他套餐名稱”的文本信息中匹配出價格信息。
在模型訓練之前,需要基于原始數(shù)據(jù)進行特征擴維、特征分箱、數(shù)據(jù)歸一化、特征篩選等特征工程。
特征擴維是基于采集到的用戶信息,對原始特征進行擴維,包括計算“流量套餐飽和度”、“超流量套餐流量數(shù)”、“超流量套餐費用”、“語音套餐飽和度”、“超語音套餐分鐘數(shù)”、“超語音套餐費用”等指標。
從一般滿意用戶(5-8 分)與愉悅用戶(9-10 分)的差距,和對滿意度的影響權重來看,需要重點改善的感知要素包括:手機上網(wǎng)、價格水平、宣傳、新業(yè)務;其次改善的有:促銷、資費套餐、終端。因此,本方法采集了以下幾類用戶信息數(shù)據(jù)進行建模(本方法使用的數(shù)據(jù)集中,涉及到用戶個人隱私的敏感信息均進行了脫敏處理):
精干設置黨政部門及其內(nèi)設機構(gòu)。嚴格執(zhí)行中央規(guī)定的機構(gòu)限額,嚴格限定省市縣黨政機關最小規(guī)模。省市原則上不設20名行政編制以下機構(gòu),縣級原則上不設10名行政編制以下機構(gòu)。省級原則上不設5人以下處室,市縣原則上不設3人以下內(nèi)設機構(gòu)。綜合性內(nèi)設機構(gòu)不超過內(nèi)設機構(gòu)總數(shù)的三分之一。
在使用邏輯回歸模型時,對連續(xù)型特征進行了標準化處理,將訓練集的均值和方差當做是總體的均值和方差。樣本x的標準分數(shù)計算如下:
其中u 是訓練樣本的均值,s 是訓練樣本的標準偏差。
本文采用了Boosting 中的特征重要性排序進行特征篩選,某個特征的重要性就是它在所有樹中出現(xiàn)的次數(shù)之和。在特征重要性排序后,保留了前100 個特征進入模型。
銀行業(yè)的發(fā)展離不開創(chuàng)新技術的支持,當前銀行業(yè)要想提升自身的競爭力,同樣需要借助新技術的支持與應用。但是,在應用新技術的時候需要能夠適應銀行的高風險、高收益、運轉(zhuǎn)周期長的特點,并形成一個新型的金融服務方式,以此來促使更多的資金支持技術創(chuàng)新。同時,銀行業(yè)還需要不斷的提升互聯(lián)網(wǎng)技術的更新,運用人工智能、云技術等現(xiàn)代化的科技來提升銀行業(yè)的服務效率,降低成本,以此來提升銀行業(yè)的服務實體經(jīng)濟能力,促使銀行業(yè)更好的發(fā)展。
(1)OSS 域(operation support system)即運營支撐系統(tǒng)。指的是電信運營商的后臺支撐系統(tǒng),包括各設備廠商自有的操作維護系統(tǒng)、統(tǒng)一調(diào)度的綜合網(wǎng)管系統(tǒng)、以及綜合資管系統(tǒng)等。
表1 負樣本采樣表
在第t 步時,添加了一棵最優(yōu)的CART 樹f_t,就是在現(xiàn)有的t-1 棵樹的基礎上,使得目標函數(shù)最小的那棵CART 樹,如下所示:
表2 樣本比例調(diào)優(yōu)表
?
最終確實使用1:1 的正負樣本比例進行模型訓練。通過反復實驗,確定超參數(shù)如表3 所示。
表3 樣本超參數(shù)
使用以上最優(yōu)參數(shù)訓練模型時,可以得到預留的驗證集結(jié)果,如表4 所示。
表4 實驗結(jié)果表
其中0_precision 是預測出不滿意用戶的實際不滿意率,是隨機用戶差評率(8.86%)的2.58 倍,說明模型效果顯著。
在訓練分類模型后,將全量用戶數(shù)據(jù)放入模型,即可輸出全量用戶的資費不滿意概率,取出排名靠前的若干用戶作為潛在資費不滿意用戶。
為了便于運營商有針對性地解決資費不滿意問題,在輸出潛在資費不滿意用戶后,使用了歸因分析的方法對用戶的資費不滿意問題進行分析。
通過構(gòu)建邏輯回歸模型得到變量系數(shù),從而計算出各個特征對資費不滿意的貢獻度。
鹽脅迫會抑制植物的生長發(fā)育。當土壤含鹽量過高時,會嚴重影響冰葉日中花的生理生化反應,造成其減產(chǎn),甚至導致植株死亡。
在邏輯回歸中變量 x 與概率是非線性關系:
如果x1增加一個單位,則勝率:
例5:蕭炎和父親之間的對話,父親一直喚他為炎兒,“呵呵炎兒這么晚了怎么還待在這上面呢?”“炎兒還在想下午測驗的事呢?”“炎兒你十五歲了吧?”
以系數(shù)β1為例,如果x1是連續(xù)變量,當x1變化一個單位且其他變量保持不變時,勝率變成了原來的eβ1倍。
因此,可以近似認為在特征統(tǒng)一量綱的前提下,邏輯回歸的系數(shù)可以看成勝率的權重(eβ),注意是勝率而不是概率p。系數(shù)可以表示,它的存在使得概率如何變化。
基于4.2 中劃分后的樣本,使用邏輯回歸算法訓練一個分類模型,并提取出邏輯回歸模型的系數(shù),如圖2 所示。
圖2 回歸系數(shù)分布
使用4.2中訓練好的模型預測全量用戶的資費不滿意概率,輸出不滿意概率最高的50 萬用戶,根據(jù)邏輯回歸模型的系數(shù)與用戶特征,分別計算出該50 萬用戶的特征貢獻度,如圖3所示。
圖3 特征貢獻度
最后將每個用戶特征貢獻度排名前三的特征輸出,作為潛在的資費不滿意原因,如圖4 所示。
圖4 潛在資費不滿意顯著指標輸出列表
以某地市電信運營商地市數(shù)據(jù)為例,未使用模型前,使用規(guī)則篩選資費不滿意用戶,準確率僅15%。使用模型預測后,模型輸出不滿意概率最高的50 萬用戶,在全量用戶隨機抽潛在取資費不滿意用戶,用戶出現(xiàn)在概率最高的50 萬用戶范圍內(nèi)的準確率高達50%。為在全量用戶下使用規(guī)則篩選的3.3 倍。
本文以某地市電信運營商數(shù)據(jù)為例,對其用戶數(shù)據(jù)清洗、下鉆等特征工程,通過人工智能的機器學習算法,訓練了資費不滿意預測模型以及不滿意歸因分析模型,從海量用戶數(shù)據(jù)中,快速聚焦?jié)撛谫Y費不滿意用戶,從預測出的潛在資費不滿意用戶中隨機抽取驗證,差評率是全量隨機用戶差評率的2.58 倍,效果顯著;同時針對性地鎖定可能造成該潛在資費不滿意用戶體驗較差的原因,為電信運營商改進服務質(zhì)量、提升用戶滿意度等工作提供了參考依據(jù),助推電信運營商工作的降本增效。