亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        銀行客戶交易場景智能分類

        2023-04-29 00:00:00黃麗胡丹妮李普
        科技智囊 2023年4期

        摘" 要:如何聚合多維度海量數(shù)據(jù),充分挖掘數(shù)據(jù)的內(nèi)在價值,是商業(yè)銀行數(shù)字化轉(zhuǎn)型的重要目標(biāo)之一。文章以銀行個人客戶支付交易數(shù)據(jù)為例,探索Textgrocery與FastText兩類自然語言處理算法對交易所屬場景的分類效果。實驗表明,Textgrocery效果在分場景和整體方面均優(yōu)于FastText,故文章最終選擇Textgrocery算法對交易數(shù)據(jù)所屬場景開展自動化、智能化、高效化分類。模型場景分類結(jié)果可以幫助銀行為個人客戶建立消費(fèi)行為維度的客戶標(biāo)簽,從而使數(shù)據(jù)資源變得可使用、有價值。

        關(guān)鍵詞:自然語言處理;海量數(shù)據(jù)智能化分類;非結(jié)構(gòu)化數(shù)據(jù)處理;Textgrocery;FastText

        中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A DOI:10.19881/j.cnki.1006-3676.2023.04.10

        一、引言

        金融行業(yè)在運(yùn)營過程中生成海量金融數(shù)據(jù),這些數(shù)據(jù)中蘊(yùn)含了交易場景等重要的客戶消費(fèi)行為信息,但大部分涉及交易場景的高價值信息以文字形式存在于訂單詳情等字段中,屬于非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù),無法通過簡單的正則方法加工處理,信息挖掘難度大。而采用人工打標(biāo)方式逐一對上億量級的交易數(shù)據(jù)進(jìn)行場景分類,則存在分類標(biāo)準(zhǔn)不一、成本高、效率低等問題。如何利用人工智能賦能銀行業(yè)海量數(shù)據(jù)挖掘,提高分析效率,增加分類準(zhǔn)確性,降低處理成本,是銀行數(shù)字化轉(zhuǎn)型中亟待解決的問題。

        基于此,筆者將以脫敏后支付交易數(shù)據(jù)為對象,探索人工智能等新方法賦能海量數(shù)據(jù)挖掘和分析的方案,幫助銀行更好地洞察客戶行為,完善個人客戶畫像。[1]筆者針對海量支付交易數(shù)據(jù)場景分類問題,提出一種基于人工智能的支付交易場景分類模型,引入自然語言處理算法,對支付交易數(shù)據(jù)中訂單詳情等字段進(jìn)行文本分析,并實現(xiàn)交易場景的自動化、智能化分類,利用人工智能算法為海量數(shù)據(jù)處理賦能。[2]相比于傳統(tǒng)的交易流向分析方法,研究中模型的創(chuàng)新點包括如下3個方面:其一,針對交易數(shù)據(jù)特點,探索非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)處理及應(yīng)用方式,擴(kuò)充數(shù)據(jù)挖掘覆蓋數(shù)據(jù)類型,豐富分析數(shù)據(jù)來源。其二,結(jié)合人工智能技術(shù)與銀行業(yè)現(xiàn)實需求,通過分析用戶交易數(shù)據(jù),實現(xiàn)海量交易智能化自動分類。其三,探索自然語言處理方法與常用工具,對比基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類代表算法Textgrocery和基于深度學(xué)習(xí)的文本分類代表算法FastText,從而更好地挖掘交易數(shù)據(jù)中文本信息存儲的高價值信息,豐富客戶畫像維度。

        二、自然語言處理方法

        人工智能是使用計算機(jī)來模擬人的各種思維或行為,再利用計算機(jī)的儲存、計算等優(yōu)勢對人的智能進(jìn)行擴(kuò)展延伸的過程。1自然語言處理則是人工智能的一個重要分支,融合了計算機(jī)科學(xué)、語言學(xué)、邏輯學(xué)等領(lǐng)域知識。自然語言處理使用計算機(jī)來模擬人類對自然語言的理解與生成方式,目的是使人類可以用自然語言形式與計算機(jī)進(jìn)行有效通信。[3]

        常見的自然語言處理任務(wù)包括文本分類、情感分析、信息檢索、詞性標(biāo)注、機(jī)器翻譯等。其中文本分類是指計算機(jī)通過算法對輸入的文本按照一定的分類標(biāo)準(zhǔn)進(jìn)行自動化歸類的過程。筆者將使用交易詳情等字段分析交易場景,該字段內(nèi)容長短不一,用語不規(guī)范,且文本字符數(shù)量大多小于60個字符,待解決的問題可歸類于短文本分類問題。相較于長文本,短文本詞匯個數(shù)少、描述信息弱,具有稀疏性和不規(guī)范性等特點,因此如何準(zhǔn)確提取并表示短文本的特征,及如何選擇文本分類算法是實現(xiàn)短文本分類的關(guān)鍵。短文本分類主要包括兩類方法:傳統(tǒng)文本分類(即基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類)和基于深度學(xué)習(xí)的文本分類。

        (一)基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類

        基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類通常需人工對特征進(jìn)行提取,再應(yīng)用各類傳統(tǒng)機(jī)器學(xué)習(xí)算法對文本進(jìn)行分類,其過程主要包括文本預(yù)處理、文本表示、特征提取、模型構(gòu)建等步驟(見圖1)。[4-5]

        文本預(yù)處理的目的是把文本轉(zhuǎn)化為適合機(jī)器處理的形式,并保留對分類有意義的特征,主要包括分詞、降噪、去除停用詞、劃分訓(xùn)練集與驗證集等流程。文本表示的目的主要是把預(yù)處理后的文本數(shù)據(jù)轉(zhuǎn)換為機(jī)器能識別的結(jié)構(gòu)化數(shù)據(jù)(即詞向量),通??墒褂迷~袋(BOW)、向量空間模型等方法。特征提取的目的是借助特征選擇方法實現(xiàn)關(guān)鍵特征提取,降低向量空間的維度,提高分類效率,因此特征提取的質(zhì)量對文本分類效果有較大影響,向量空間模型的特征提取對應(yīng)特征選擇和特征權(quán)重兩部分,通??墒褂肨F-IDF方法。模型構(gòu)建主要是基于線性回歸、邏輯回歸、支持向量機(jī)、樸素貝葉斯、決策樹等分類模型進(jìn)行訓(xùn)練。[6-7]

        筆者計劃采用Textgrocery作為傳統(tǒng)機(jī)器學(xué)習(xí)文本分類算法的代表。Textgrocery是一個基于LibLinear中SVM(支持向量機(jī))算法和結(jié)巴分詞的短文本分類工具,其特點是高效易用,同時支持中文和英文語料,在小樣本集上表現(xiàn)良好。原生的SVM只支持二分類,無法解決多分類問題。而Textgrocery的底層雖然也是SVM,但經(jīng)過包裝后已支持多分類,且訓(xùn)練及預(yù)測速度較快。

        (二)基于深度學(xué)習(xí)的文本分類

        基于深度學(xué)習(xí)的文本分類是通過深度學(xué)習(xí)模型對數(shù)據(jù)進(jìn)行訓(xùn)練,無需人工提取特征,數(shù)據(jù)量和迭代次數(shù)是影響文本分類效果的重要因素?;谏疃葘W(xué)習(xí)的文本分類可根據(jù)算法類型分為兩類:第一類是使用詞向量對文本進(jìn)行表示后,運(yùn)用端到端的神經(jīng)網(wǎng)絡(luò)算法對文本進(jìn)行分類,依靠算法而非人工手段進(jìn)行特征提取。第二類則無需手動進(jìn)行詞向量表示,使用預(yù)訓(xùn)練語言模型,通過大數(shù)據(jù)預(yù)訓(xùn)練加小數(shù)據(jù)微調(diào),減少對于人工調(diào)參的依賴。第二類的出現(xiàn)是由于各類任務(wù)對于上下文語義理解的需求不斷加深,同時希望解決同義詞所帶來的問題,從而促使技術(shù)不斷發(fā)展。

        在研究中,由于交易詳情等特征為短文本,具有稀疏性和不規(guī)范性,其內(nèi)容對句法和語義理解的需求較低,因此只需使用淺層網(wǎng)絡(luò)即可滿足本文需求。因此筆者選擇了FastText模型作為基于深度學(xué)習(xí)的文本分類算法代表。FastText是Facebook于2016年開源的一個輕量級詞向量表示與文本分類工具,典型應(yīng)用場景是“帶監(jiān)督的文本分類問題”。與基于神經(jīng)網(wǎng)絡(luò)的分類算法相比,F(xiàn)astText的優(yōu)點一是在保持高精度的情況下加快了訓(xùn)練及測試速度,二是FastText不需要預(yù)訓(xùn)練詞向量,因為在運(yùn)算過程中FastText會自己訓(xùn)練詞向量。FastText結(jié)合了自然語言處理和機(jī)器學(xué)習(xí)中最成功的理念,在傳統(tǒng)算法Word2vec的基礎(chǔ)上進(jìn)行了兩類重要優(yōu)化,分別是子詞特征(N-gram)和層次(SoftMax)。N-gram子詞特征通過隱藏表征在類別間共享信息,層次SoftMax則利用類別不均衡分布的優(yōu)勢來加速運(yùn)算過程。[8-9]

        FastText模型輸入文本,即詞的序列,輸出這個詞序列屬于不同類別的概率。序列中的詞和詞組組成特征向量,特征向量通過線性變換映射到中間層,中間層再映射到標(biāo)簽。FastText在預(yù)測標(biāo)簽時使用了非線性激活函數(shù),但在中間層不使用非線性激活函數(shù)。

        N-gram是基于語言模型的算法,基本思想是將文本內(nèi)容按照字節(jié)順序進(jìn)行大小為N的窗口滑動操作,最終形成窗口為N的字節(jié)片段序列。N-gram包括字粒度的N-gram和詞粒度的N-gram,在英文中也可以以字符粒度工作。N-gram除了獲取上下文信息,還可以讓模型學(xué)習(xí)到局部單詞順序的部分信息,將語言的局部順序保持住。例如“羊吃草”,如果不考慮順序,可能會出現(xiàn)“草吃羊”的語義不正確問題。因此在使用N-gram時,會將N個字向量取平均后得到大小為N的詞的向量,通過這種方式關(guān)聯(lián)相鄰的幾個詞,讓模型在訓(xùn)練的時候保持詞序信息。然后在隱藏層將得到的所有N-gram的詞向量求平均,得到最終的一個向量。

        SoftMax函數(shù)常在神經(jīng)網(wǎng)絡(luò)輸出層充當(dāng)激活函數(shù),目的就是將神經(jīng)元輸出構(gòu)造成概率分布,主要就是起到將神經(jīng)元輸出值歸一化到[0,1]的作用。在標(biāo)準(zhǔn)的SoftMax中,計算一個類別的SoftMax概率時,需要對所有類別概率做歸一化處理。這種做法在類別數(shù)量很大情況下非常耗時,因此提出了層次SoftMax。其思想是利用了類別不均衡,即一些類別出現(xiàn)次數(shù)比其他類別更多的事實,通過使用Huffman算法建立用于表征類別的樹形結(jié)構(gòu)來代替標(biāo)準(zhǔn)SoftMax,令頻繁出現(xiàn)類別的樹形結(jié)構(gòu)的深度比不頻繁出現(xiàn)類別的樹形結(jié)構(gòu)的深度更小,進(jìn)一步使得計算效率更高,通過層次SoftMax可以將復(fù)雜度從N降低到log(N)。

        三、模型實驗流程及結(jié)果

        筆者主要構(gòu)建基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類算法(Textgrocery)和基于深度學(xué)習(xí)的文本分類算法(FastText)模型,并在同一數(shù)據(jù)集上進(jìn)行測試和效果對比。

        (一)數(shù)據(jù)來源

        2020年7月1日—2020年12月31日樣本客戶脫敏后的支付交易數(shù)據(jù)。

        (二)數(shù)據(jù)預(yù)處理

        由于模型文本信息輸入來自多個字段,需將各字段合并為單一字段文本信息,并進(jìn)行語料清洗,去除符號、數(shù)字等無意義字符,僅保留中英文內(nèi)容。處理后對交易記錄進(jìn)行再次篩選,僅保留文本信息不為空交易記錄作為有效數(shù)據(jù)。

        (三)分類打標(biāo)

        分類打標(biāo)主要是用于模型訓(xùn)練,確定分類規(guī)則。研究希望通過對交易數(shù)據(jù)進(jìn)行細(xì)分,了解各交易場景分布情況。分類打標(biāo)的另一個作用是將驗證樣本自動分類后的類別與預(yù)先打標(biāo)好的類別進(jìn)行對比,借助評價指標(biāo)評估模型分類效果的好壞。研究根據(jù)業(yè)務(wù)經(jīng)驗把支付交易場景分為45類,包括商超便利、理財投資等。樣本數(shù)據(jù)方面,隨機(jī)選取4.2萬余條數(shù)據(jù)用于模型訓(xùn)練及驗證,并逐條對交易數(shù)據(jù)場景分類進(jìn)行人工標(biāo)注。

        (四)模型訓(xùn)練步驟

        1.切分訓(xùn)練集和驗證集

        模型的X變量為交易詳情中的文本信息,Y變量為人工標(biāo)注的45類交易場景。建模數(shù)據(jù)樣本按照訓(xùn)練集80%,驗證集20%的比例隨機(jī)拆分整體數(shù)據(jù),并進(jìn)行人工核查確保訓(xùn)練集和驗證集均涵蓋45類交易場景數(shù)據(jù)。

        2.基于Textgrocery的短文本分類流程

        (1)入模數(shù)據(jù)標(biāo)準(zhǔn)化

        訓(xùn)練集數(shù)據(jù):將每一條訓(xùn)練集數(shù)據(jù)輸入轉(zhuǎn)化為Textgrocery的標(biāo)準(zhǔn)輸入格式,('分類標(biāo)簽','輸入文本')。

        示例:[('商超便利','便利店')]

        驗證集數(shù)據(jù):與訓(xùn)練集數(shù)據(jù)格式保持一致。

        (2)模型訓(xùn)練

        將訓(xùn)練集數(shù)據(jù)輸入Textgrocery模型中,訓(xùn)練并保存模型結(jié)果。再將驗證集數(shù)據(jù)送入訓(xùn)練好的模型中,分析模型評價指標(biāo)以確定模型表現(xiàn)。

        3.基于FastText的短文本分類流程

        (1)結(jié)巴分詞切割文本

        使用結(jié)巴分詞的精確模式對每一條數(shù)據(jù)中的文本信息進(jìn)行切分,詞與詞之間以空格間隔。

        (2)入模數(shù)據(jù)標(biāo)準(zhǔn)化

        訓(xùn)練集數(shù)據(jù):將每一條訓(xùn)練集數(shù)據(jù)輸入轉(zhuǎn)化為FastText的標(biāo)準(zhǔn)輸入格式,'__label__分類標(biāo)簽\t輸入文本'。

        示例:['__label__基金\t諾安','__label__基金\t基金']

        驗證集數(shù)據(jù):將以空格間隔的切割后文本信息作為輸入。

        (3)模型訓(xùn)練

        將訓(xùn)練集數(shù)據(jù)輸入Fasttext模型中,訓(xùn)練并保存模型結(jié)果。再將驗證集數(shù)據(jù)送入訓(xùn)練好的模型中,分析模型評價指標(biāo)以確定模型表現(xiàn)。

        (4)參數(shù)調(diào)優(yōu)

        對模型參數(shù)進(jìn)行獨立或聯(lián)合調(diào)優(yōu),將在驗證集上表現(xiàn)最好的一組參數(shù)作為模型的最終參數(shù),訓(xùn)練所得模型作為最終應(yīng)用模型。

        最終確定模型參數(shù)為:WordNgrams=1,Epoch=40,Lr=0.3,Dim=100,Loss=softmax(WordNgrams:單詞n-gram的最大長度,wordNgrams=1表示只有一個單詞;Epoch:迭代次數(shù);Lr:學(xué)習(xí)率;Dim:向量維度;Loss:損失函數(shù)類型)。

        (四)模型評價

        對于文本分類效果的評價,通常使用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值來評價,具體計算公式如下:

        Accuracy=" " " " " " " " "(1)

        其中,TP為正樣本預(yù)測正確的個數(shù),F(xiàn)N為正樣本預(yù)測錯誤的個數(shù),TN為負(fù)樣本預(yù)測正確的個數(shù),F(xiàn)P為負(fù)樣本預(yù)測錯誤的個數(shù)。準(zhǔn)確率(Accuracy)為預(yù)測正確的樣本與總樣本的比值。通常來說,準(zhǔn)確率越高,模型效果越好。

        Precision=" " " " " " " " " " " " "(2)

        其中,精確率(Precision)為預(yù)測正確的正樣本數(shù)與預(yù)測為正樣本數(shù)的比值。

        Recall=" " " " " " " " " " " " " " (3)

        其中,召回率(Recall)為所有的正樣本中,模型預(yù)測正確的比例,衡量的是所有正例能被發(fā)現(xiàn)多少。

        F1==(4)

        其中,F(xiàn)1值是精確率和召回率的調(diào)和平均值,F(xiàn)1值認(rèn)為精確率和召回率一樣重要。

        (五)訓(xùn)練結(jié)果對比

        為了驗證不同算法的性能,分別使用Textgrocery和FastText在同一數(shù)據(jù)集上進(jìn)行訓(xùn)練,對比結(jié)果類別為商超便利、理財投資等45類,具體見圖2-圖4。

        由圖2可知,Textgrocery在大部分場景分類中的精確率均高于FastText,僅有公共交通、理財投資等5個場景(詳見圖2中標(biāo)記點)的精確率低于FastText。

        由圖3可知,Textgrocery在大部分場景分類中的召回率均高于FastText,但在數(shù)碼電器、共享生活、理財投資等10個場景(詳見圖3中標(biāo)記點)的召回率低于FastText。

        由圖4可知,Textgrocery在大部分場景分類中的F1值均高于FastText,僅有數(shù)碼電器、共享生活、理財投資等7個場景(詳見圖4中標(biāo)記點)的F1值低于FastText。

        由表1可知,整體情況方面,Textgrocery算法在準(zhǔn)確率、精確率、召回率、F1值方面效果均優(yōu)于FastText算法0.011左右。綜上所述,不論是分交易場景還是整體方面,Textgrocery效果均優(yōu)于FastText,故筆者選擇Textgrocery算法對全部交易數(shù)據(jù)進(jìn)行短文本分類,得到對應(yīng)的交易類別。

        四、重點交易場景關(guān)鍵詞分析

        根據(jù)Textgrocery算法開展場景自動化、智能化分類的結(jié)果,筆者選取理財投資場景進(jìn)一步開展訂單詳情關(guān)鍵詞分析。篩選支付交易數(shù)據(jù)中被分入理財投資場景的對應(yīng)文本信息數(shù)據(jù),使用結(jié)巴分詞工具將這些文本數(shù)據(jù)進(jìn)行詞語切分。按照場景類別分別對每個場景下所有分詞結(jié)果進(jìn)行詞頻統(tǒng)計,選取該場景下出現(xiàn)次數(shù)最多的前300個關(guān)鍵詞,并刪除其中空格、單個字母、亂碼字符等無意義詞語。同時,使用永洪BI工具將關(guān)鍵詞表按照詞頻繪制詞云圖,詞云中以較大形式呈現(xiàn)的詞語表示出現(xiàn)頻率較高,反之則出現(xiàn)頻率相對較低(見圖5)。

        在理財投資場景中(見圖5),出現(xiàn)頻率較高的為基金及支付渠道相關(guān)名詞:基金、管理、支付寶。次之是一些常見的基金公司及產(chǎn)品名稱,如天弘、華安、景順、廣發(fā)基金等。一些基金的屬性名詞也會被分出來,如醫(yī)療、白酒、定期、成長等。

        此外,借助自然語言處理技術(shù)對交易數(shù)據(jù)開展自動化、智能化分類,還可以幫助銀行為個人客戶建立消費(fèi)行為方面的客戶標(biāo)簽,從而使得數(shù)據(jù)資源變得易理解、可使用、有價值。例如,基金公司購買基金、在全家便利店買零食等交易,則可為其打上理財投資、商超便利的標(biāo)簽,并分析不同標(biāo)簽下消費(fèi)情況。

        五、結(jié)語

        筆者通過運(yùn)用人工智能技術(shù)賦能數(shù)據(jù)分析的一次探索和嘗試,借助自然語言處理技術(shù)實現(xiàn)了對海量交易數(shù)據(jù)的場景自動化、智能化分類,解決了支付交易數(shù)據(jù)中文字信息無法直接用于數(shù)據(jù)建模的問題,幫助銀行將描繪客戶的維度從資產(chǎn)、收入、征信、還款行為等靜態(tài)、低頻數(shù)據(jù)擴(kuò)展至個人客戶衣、食、住、行、娛等動態(tài)、高頻消費(fèi)行為數(shù)據(jù),可以為銀行個人客戶標(biāo)簽提供有力補(bǔ)充,形成更加完善的客戶畫像?;趫鼍胺诸惤Y(jié)果,運(yùn)用RFMP方法,可從消費(fèi)行為維度完善客戶畫像,后續(xù)結(jié)合機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等算法開展數(shù)據(jù)建模分析,可為銀行精準(zhǔn)營銷、風(fēng)險管理等業(yè)務(wù)領(lǐng)域提供有力支持。精準(zhǔn)營銷方面,可運(yùn)用大數(shù)據(jù)分析客戶多維度信息,描繪千人千面的客戶畫像,將分析顆粒度從客戶群體精細(xì)化到每個客戶,更好地洞察客戶需求,滿足客戶潛在金融和非金融服務(wù)需求,并提供個性化的產(chǎn)品推薦,幫助銀行挖掘優(yōu)質(zhì)客戶,實現(xiàn)精準(zhǔn)營銷。風(fēng)險管理方面,可整合銀行內(nèi)部客戶信息、資產(chǎn)信息,及司法、稅務(wù)、社保等外部機(jī)構(gòu)數(shù)據(jù),構(gòu)建個人客戶信用評價體系,用于貸前、貸中、貸后的風(fēng)控管理,不斷提升信用評價工作的效率和準(zhǔn)確性。

        在大力發(fā)展數(shù)字經(jīng)濟(jì)的背景下,商業(yè)銀行也需加快數(shù)字賦能的腳步,積極推進(jìn)數(shù)字化轉(zhuǎn)型。首先,銀行可不斷提升數(shù)據(jù)治理和應(yīng)用能力,充分挖掘自身經(jīng)營中積累的海量數(shù)據(jù),真正將原始數(shù)據(jù)資源轉(zhuǎn)化為數(shù)據(jù)資產(chǎn),充分發(fā)揮數(shù)據(jù)資產(chǎn)的價值潛力。其次,銀行應(yīng)加強(qiáng)與政府部門、公共資源機(jī)構(gòu)、運(yùn)營商等外部機(jī)構(gòu)的跨界合作,通過與外部機(jī)構(gòu)數(shù)據(jù)的“合縱連橫”,打破數(shù)據(jù)孤島,擴(kuò)展數(shù)據(jù)維度,豐富數(shù)據(jù)應(yīng)用場景。最后,銀行還需及時跟進(jìn)隱私計算、區(qū)塊鏈、人工智能等前沿技術(shù)發(fā)展,探索和研究新技術(shù)與金融服務(wù)的有機(jī)融合,建設(shè)企業(yè)級隱私計算平臺,形成數(shù)據(jù)安全聯(lián)合共享能力,發(fā)揮數(shù)據(jù)要素價值潛力。[10]

        注釋:

        1. 該定義引自百度詞條“人工智能(計算機(jī)科學(xué)的一個分支)”,該詞條由“科普中國”科學(xué)百科詞條編寫與應(yīng)用工作項目組審核。

        參考文獻(xiàn):

        [1] 楊唯實.人工智能發(fā)展前景及金融行業(yè)應(yīng)用[J].金融電子化,2017(06):52-54.

        [2] 馬千,趙洪丹,陳麗爽.金融科技的創(chuàng)新發(fā)展及趨勢研判[J].科技智囊,2022(07):23-29.

        [3] 李睿晶,房超,陳凱.新時代我國人工智能發(fā)展回顧與發(fā)展[J].科技智囊,2023(01):14-21.

        [4] 馮園園.短文本分類技術(shù)及其場景應(yīng)用研究—基于某某寶交易數(shù)據(jù)[D].杭州:浙江工商大學(xué),2017.

        [5] 李銳.面向新聞分類的文本表示方法研究[D].南京:南京信息工程大學(xué),2020.

        [6] 張彥超,王杰,陳生,王彥博.NLP在銀行網(wǎng)絡(luò)金融業(yè)務(wù)中的應(yīng)用[J].銀行家,2020(11)22-24.

        [7] 呂俊鋒,陳宏曉,張誠,秦雷.NLP技術(shù)在農(nóng)行信用卡風(fēng)險管理領(lǐng)域的應(yīng)用[J].中國金融電腦,2019(11)29-34.

        [8] 王光慈,汪洋.基于FastText的短文本分類[J].電子設(shè)計工程,2020(03):98-101.

        [9] 林國祥,詹先銀,薛醒思,等.基于fastText的股票咨詢案例中文短文本分類技術(shù)[J].寶雞文理學(xué)院學(xué)報(自然科學(xué)版),2020(03):48-52.

        [10] 葛紅玲,方盈贏,李韞珅.北京數(shù)字經(jīng)濟(jì)發(fā)展特點及提升方向[J].科技智囊,2023(02):11-19.

        Intelligent Classification of Bank Customer Transaction Scene

        HUANG" Li" " HU" Danni" " LI" Pu

        (Bank of China Limited,Head Office,Beijing,100818)

        Abstract:How to aggregate multi-dimensional massive data and fully tap the intrinsic value of data is one of the important objectives in commercial bank digital transformation. Taking the payment transaction data of individual customers as an example,the article explores the classification effect of two kinds of natural language processing algorithms,Textgrocery and FastText,on the classification of transaction data scenes. The experimental results show that the effect of Textgrocery is superior to FastText in both scene segmentation and overall performance,so the article finally applies Textgrocery algorithm on automatically,intelligently and efficiently classification of the scenes of transaction data. The results of scene classification model can help banks to establish labels for individual customers in the dimension of consumption behavior,thus making data resources usable and valuable.

        Key words:Natural language processing;Intelligent classification of massive data;Unstructured data processing;Textgrocery;FastText

        作者簡介:黃麗,女,1987年生,碩士,經(jīng)理,研究方向:數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等。胡丹妮,女,1995年生,碩士,助理經(jīng)理,研究方向:數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等。李普,男,1987年生,本科,經(jīng)理,研究方向:數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等

        国产艳妇av在线出轨| 亚洲成av人在线观看网址| 亚洲国产av玩弄放荡人妇系列| 亚洲av综合国产av日韩| 少妇高潮惨叫久久久久久电影 | 一本到亚洲av日韩av在线天堂| 亚洲 欧美 偷自乱 图片| 日韩欧群交p片内射中文| 国产一级免费黄片无码AV| 国色天香精品亚洲精品| 国产亚洲亚洲精品视频| 粉色蜜桃视频完整版免费观看在线| 亚洲精品乱码久久久久久| 欧美bbw极品另类| 国产精品毛片久久久久久l| 亚洲粉嫩av一区二区黑人| 在线国人免费视频播放| www婷婷av久久久影片| 欧美大屁股xxxx高跟欧美黑人| 亚洲影院天堂中文av色| 国产美女黄性色av网站| 国产精品国产三级野外国产| 免费无码毛片一区二区app| 国产精品欧美日韩在线一区| 国产在线h视频| 日韩精品一区二区亚洲观看av| 国产av一区二区三区性入口| 亚洲av蜜桃永久无码精品| 极品 在线 视频 大陆 国产| 性色国产成人久久久精品二区三区| 欧美激情肉欲高潮视频| 国产av无码专区亚洲av| 免费观看一区二区| 日韩精品午夜视频在线| 国内少妇毛片视频| 色94色欧美sute亚洲线路二| 日本av在线精品视频| 国产一区二区三区的区| 国产成人无码18禁午夜福利p| 国产在线精品一区二区| 欧美a级在线现免费观看|