[摘要]簡述NLP的發(fā)展過程與各類應(yīng)用場景,并針對車企所需的內(nèi)容,著重在輿情監(jiān)控與語音文本數(shù)據(jù)處理方面加強構(gòu)建具體的應(yīng)用系統(tǒng),提高車企對非結(jié)構(gòu)化數(shù)據(jù)處理的程度,利用NLP中BERT模型與機器學(xué)習(xí)方法能高效地挖掘出數(shù)據(jù)的價值,讓產(chǎn)品體驗不斷提升。
[關(guān)鍵詞] NLP;輿情監(jiān)控;文本數(shù)據(jù)
中圖分類號:U463.6 " 文獻標(biāo)志碼:A " " "文章編號:1003-8639(2023)06
Application of NLP in Automobile Enterprises
ZHANG Sen,CHENG Deng,SONG Guan-yu,LIU Wei,DING Xiao-wen,MO Chun-jin
(SAIC GM Wuling Automoblie Co.,Ltd .,Guangxi Laboratory of New Energy Automobile,Guangxi Key Laboratory of Automobile Four New Features,Liuzhou,545007,China)
[Abstract]This paper introduces the development mileage and various application scenarios of NLP,and focuses on building specific application systems in public opinion monitoring and voice data processing to improve the degree of unstructured data processing of car enterprises. It uses the Bert model in NLP and the machine learning to mine the data value efficiently,so as to continuously improve the product experience.
[Key words]NLP;public opinion monitoring;text data
收稿日期:2022-11-23
作者簡介:張森(1995—),男,助理工程師,研究方向為汽車大數(shù)據(jù)相關(guān)。
1 "引言
在新能源汽車紅火的當(dāng)下,汽車行業(yè)內(nèi)各企業(yè)都愈發(fā)敢于嘗試,開始擁抱理解并吸收更多的新技術(shù),并將其運用在售前、研發(fā)、售后等各個業(yè)務(wù)節(jié)點當(dāng)中。隨著人工智能的不斷發(fā)展,深度學(xué)習(xí)、機器學(xué)習(xí)等內(nèi)容不斷沖擊著汽車行業(yè),原本深奧的技術(shù)正在走向大眾。其中,自然語言處理(Natural Language Processing,NLP)是一座鏈接人與機器的橋梁,激活了人與系統(tǒng)交流的通道,是人工智能行業(yè)重要的發(fā)展內(nèi)容與方向。車企可以利用自然語言處理技術(shù),深切落地運用人工智能項目,不斷在輿情監(jiān)控、語音數(shù)據(jù)處理等方面推進,登上高峰,高效打造更多優(yōu)質(zhì)體驗的產(chǎn)品。
2 "自然語言處理概述
自然語言處理橫跨計算機科學(xué)、人工智能和語言學(xué)三大領(lǐng)域,是人工智能發(fā)展的重要組成部分(圖1)。語言是信息的重要載體,為了讓系統(tǒng)了解語言,無數(shù)科學(xué)家前仆后繼。自然語言處理發(fā)展從“鳥飛派”受慣性思維的影響,到利用強大數(shù)學(xué)、概率的“統(tǒng)計派”,并依靠各類模型的優(yōu)化與計算機的進化,壯大至今。自然語言處理技術(shù)目的是讓計算機‘理解’自然語言,以此人們通過日常交流方式傳輸?shù)闹噶?,而不是相比較更晦澀地計算機語言進行輸入至系統(tǒng)并處理相關(guān)內(nèi)容。
圖1 "自然語言處理與人工智能
自然語言處理主要分為2個流程:自然語言理解(Natural language Understanding,NLU)和自然語言生成(Natural language Generation,NLG)。NLU主要是理解文本的含義,具體到每個單詞和結(jié)構(gòu)都需要被理解;NLG與理解相反,分3個階段,確定目標(biāo),通過評估情況和可用的交際資源來計劃如何實現(xiàn)目標(biāo),并將計劃形成為文本[1]??偨Y(jié)NLP內(nèi)容可分為兩大類,6種模型。第1大類,輸入聲音進行處理,分別可以輸出為文本、另一種聲音、文本類型;第2大類,輸入文本進行處理,分別可以輸出為聲音、另一種文本、文本類型(圖2)。
圖2 "自然語言處理基本模型分類
3 "車企中NLP的具體運用
基于以上模型分類,NLP實際可以在語音識別、語種翻譯、從文本到聲音、聲音轉(zhuǎn)換等場景進行運用。利用AI技術(shù)快速發(fā)展自身業(yè)務(wù),打造優(yōu)質(zhì)產(chǎn)品也是各家車企最迫切的需求。如今智能網(wǎng)聯(lián)車輛發(fā)展愈發(fā)蓬勃,語音是智能網(wǎng)聯(lián)中最為主要的交互方式之一,自然語言處理為語音識別提供了最基礎(chǔ)的能力。除此之外,結(jié)合實際工作業(yè)務(wù),車企可以利用自然語言處理技術(shù),不斷在輿情監(jiān)控、語音數(shù)據(jù)處理等方面進行突破和創(chuàng)新。
3.1 "打造智能輿情檢測系統(tǒng)
輿情監(jiān)測,是產(chǎn)品定義與改進的重要參考依據(jù)。市場瞬息萬變,積極把握人民群眾對產(chǎn)品的評價與喜好,全面“TOC”,能更好、更快速地實現(xiàn)人民對優(yōu)秀產(chǎn)品的基本訴求。利用自然語言處理技術(shù)制作短文本相似度、評論觀點抽取、情感傾向分析等接口后,打造輿情檢測系統(tǒng),實時分析在售前、售中、售后、線上社交平臺采集到的評論文本數(shù)據(jù),利用得到的數(shù)據(jù)建立某一特征產(chǎn)品數(shù)據(jù)庫,輸出結(jié)構(gòu)化數(shù)據(jù),制作可視化大屏供給分析使用。
傳統(tǒng)輿情信息收集方式多為人工獲取,收集效率低,又存在數(shù)據(jù)易遺漏、來源單一、時效性差等缺點,需要一套高效智能的系統(tǒng)來完成信息采集和分析工作。如今輿情分析需要選擇足夠有代表性,同時也可以敏銳反應(yīng)市場變化的輿情數(shù)據(jù)。基于新時代特點,車企對于外部公開平臺,需要關(guān)注各自媒體平臺評論、各大新聞平臺輿論導(dǎo)向、線上用戶之聲留言、各搜索平臺指數(shù)、汽車類門戶網(wǎng)站反饋及相關(guān)負面新聞等;而對于內(nèi)部平臺,更多需要關(guān)注取得的售后反饋問題記錄、車主調(diào)研等信息。輿情數(shù)據(jù)來源如圖3所示。通過大數(shù)據(jù)平臺工具,收集到需要關(guān)注的輿情信息后,借助于語言處理基礎(chǔ)技術(shù)進行智能處理。
1)短文本相似度:消除重復(fù)度高的新聞報道、各類評論,提高分析數(shù)據(jù)的品質(zhì)。
2)情感傾向分析:各平臺評論信息的情感傾向是一項重要的參考指標(biāo),有助于分析產(chǎn)品或車企風(fēng)格等是否受歡迎,了解新產(chǎn)品的市場反響,幫助車企提高后續(xù)作品的品質(zhì),特別是對消極中立級別的新聞和評論的監(jiān)控,可以及時將負面消息進行處理,提高客訴響應(yīng)速度。
3)評論觀點抽?。禾崛≡u論的觀點,匯總統(tǒng)計后得到對產(chǎn)品評價的核心觀點,對真實建議與意見做歸納整理,為產(chǎn)品迭代或版本優(yōu)化提供有效支撐。
將數(shù)據(jù)輸入系統(tǒng),自動化處理,為設(shè)計、運營、優(yōu)化提供決策參考,提升產(chǎn)品體驗。
圖3 "輿情數(shù)據(jù)來源
3.2 "打造語音數(shù)據(jù)處理系統(tǒng)
目前,各家車企對智能座艙都投以資源進行開發(fā)與優(yōu)化,其中語音交互又是最主要的提升亮點。經(jīng)過發(fā)展,各家車企都逐步研制具有特色的語音交互產(chǎn)品,其中,自主研發(fā)能力較強的車企會不斷在遵循法規(guī)的條件下采集各類的語音/文本數(shù)據(jù),以優(yōu)化語音交互系統(tǒng),提高產(chǎn)品體驗。
數(shù)據(jù)可根據(jù)其特性及治理方法差異劃分為內(nèi)部數(shù)據(jù)與外部數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù),元數(shù)據(jù)與主數(shù)據(jù)等,而語音/文本數(shù)據(jù)根據(jù)分類皆為非結(jié)構(gòu)化數(shù)據(jù)。從車企內(nèi)部的數(shù)據(jù)類型來看,非結(jié)構(gòu)化數(shù)據(jù)增長速度保持在高位,但開發(fā)程度不足30%,長期以來,其價值未得到充分有效利用。另,非結(jié)構(gòu)化數(shù)據(jù)的信息含量又是較為豐富的,從中挖掘出的價值能夠直接運用在語音交互系統(tǒng)優(yōu)化操作中,既能直發(fā)掘到用戶痛點,又能即時響應(yīng),縮短客訴處理時間,最重要的是,車企真實地利用AI為業(yè)務(wù)賦能。隨著非結(jié)構(gòu)化數(shù)據(jù)的積累,增加與AI應(yīng)用的數(shù)據(jù)需求推動,車企對非結(jié)構(gòu)化數(shù)據(jù)的價值化需求將加速釋放,利用NLP加快對語音數(shù)據(jù)處理進程變得愈發(fā)重要。
語音交互系統(tǒng)由車端、云端兩大部分組成。不同語音系統(tǒng)兩端的分工有所區(qū)別,以常見架構(gòu)為例,車端一般負責(zé)處理拾音、降噪、轉(zhuǎn)換等內(nèi)容,利用強大的通信能力,在云端部署了ASR、NLP、TTS等在線服務(wù)等待或主動服務(wù)車端。由此得知,語音數(shù)據(jù)大多為云端收集到的脫敏后的語音交互數(shù)據(jù),包括交互中產(chǎn)生的系統(tǒng)識別結(jié)果、用戶表達的指令樣式、系統(tǒng)主動回復(fù)內(nèi)容等,均以文本樣式存儲。
完整的一次交互內(nèi)容確定輸入與輸出,系統(tǒng)響應(yīng)內(nèi)容與識別到的用戶意圖是否一致,若系統(tǒng)響應(yīng)內(nèi)容與用戶需求一致,即認為本次交互基本滿足實際要求。在語音系統(tǒng)的開發(fā)過程中,已經(jīng)盡最大可能收集海量的說法存入系統(tǒng)中,以便提高命中的概率,但車輛作為具體的產(chǎn)品,用戶群體分布又是極為廣泛的,中國地域遼闊,每個地方的語言、發(fā)音等習(xí)慣或多或少存在差異,同一種意圖與請求可能出現(xiàn)多種說法。為此,在車企中,利用NLP可以在語音系統(tǒng)運營的過程中高效處理語音文本的數(shù)據(jù),挖掘其中的說法、語言價值,優(yōu)化系統(tǒng)整體適用性,提高用戶體驗?;诩寄苊械慕嵌龋梢詫⒄Z音文本數(shù)據(jù)分為:命中數(shù)據(jù)與未命中數(shù)據(jù),而打造的語音數(shù)據(jù)處理系統(tǒng)則以處理本部分的命中數(shù)據(jù)與未命中數(shù)據(jù)為主。
3.2.1 "未命中數(shù)據(jù)處理
NLP在語音交互系統(tǒng)中已經(jīng)處理了大部分識別需求內(nèi)容,從根本上分析,處理邏輯基于系統(tǒng)已存在的說法規(guī)則、詞庫、意圖等內(nèi)容與拾音識別結(jié)果的匹配關(guān)系。完整的、符合意圖的識別結(jié)果可命中具體內(nèi)容并進行回復(fù),但由于部分說法規(guī)則、熱詞等未收錄系統(tǒng),識別文本未能找到對應(yīng)的處理方案則產(chǎn)生未命中數(shù)據(jù)。絕大部分未命中數(shù)據(jù)在系統(tǒng)中由最基礎(chǔ)的閑聊回復(fù)作為兜底,一般為“沒有聽到你說話哦,有什么可以幫你?”等表達未能識別意圖的內(nèi)容。根據(jù)此類內(nèi)容,回顧交互中用戶語音輸入可以發(fā)現(xiàn),未命中數(shù)據(jù)中存在有真實意圖可做系統(tǒng)優(yōu)化說法進行增加。
谷歌公司AI團隊在2018年發(fā)布了預(yù)訓(xùn)練語言表示模型——BERT(Bidirectional Encoder Representations from Transformers)模型[2],并刷新了11項自然語言處理任務(wù)的精度,引起了廣泛重視。與其他語言表征模型不同的是,BERT的設(shè)計目的是通過對標(biāo)記的文本上進行預(yù)訓(xùn)練,調(diào)節(jié)各個層的參數(shù),學(xué)習(xí)上下文表示[3]。通過大規(guī)模通用語料和預(yù)訓(xùn)練任務(wù)學(xué)習(xí)通用的語言表示,這種預(yù)訓(xùn)練模型可以為下游自然語言處理任務(wù)提供豐富的語言表示信息[4]。而Adhkari A等人首次將BERT用于文本分類,通過對BERT模型進行微調(diào)以獲取分類結(jié)果,并證實BERT在文本分類中依然可以取得較好的結(jié)果。
基于考慮選擇BERT預(yù)訓(xùn)練語言模型,對語料文本進行逐字切割,生成動態(tài)字向量。BERT預(yù)訓(xùn)練模型中的BERT-base Chinese模型為BERT預(yù)訓(xùn)練模型中支持中文的單語言模型。采集的未命中語料數(shù)據(jù)的各語句關(guān)聯(lián)性不強,考慮選擇單一的詞語層Attention機制,計算各特征向量的權(quán)重,從而實現(xiàn)更精確有效的特征提取語音數(shù)據(jù)處理系統(tǒng)對收集的文本數(shù)據(jù)進行數(shù)據(jù)清洗,清除文本中的空值,并去重。針對文本信息“有/無意義”類別的區(qū)分,根據(jù)語音業(yè)務(wù)使用場景,將句式結(jié)構(gòu)完整、語義明晰等語音文本則劃分至“有意義”的范疇中,而識別錯誤、缺詞斷句等語音文本劃分至“無意義”的范疇中。
經(jīng)過系統(tǒng)處理后的數(shù)據(jù),將“有意義”的數(shù)據(jù)保留,經(jīng)過人工復(fù)核處理后作技能優(yōu)化直接的指導(dǎo)意見,“無意義”數(shù)據(jù)不做進一步人工復(fù)核處理。此類辦法極大提高了語音交互系統(tǒng)運營工作的效率,從海量數(shù)據(jù)中不斷提取最新的用戶說法,從而使系統(tǒng)能更好地服務(wù)產(chǎn)品的具體受眾。
3.2.2 "命中數(shù)據(jù)處理
從數(shù)據(jù)分類上考慮,還存在已命中系統(tǒng)技能數(shù)據(jù)。系統(tǒng)對此類內(nèi)容,均做了技能反饋,形成了具體的標(biāo)簽,但由于置信度、各技能說法重疊、系統(tǒng)識別錯誤等問題,造成了部分命中數(shù)據(jù)出現(xiàn)反饋與用戶真實意圖不符合的情況。其中有可能表現(xiàn)為:用戶語音輸入后,系統(tǒng)識別文本數(shù)據(jù)呈現(xiàn)的意圖可能是某一問題,命中的技能卻是音樂。因此,對命中數(shù)據(jù)處理可依據(jù)以下流程:首先利用分詞工具進行文本分詞與過濾停用詞的處理,隨后選取特征運用TF-IDF模型進行文本的向量化,并利用XGBoost機器學(xué)習(xí)算法進行分類預(yù)測[5],將系統(tǒng)識別意圖與真實意圖做差標(biāo)注,得到命中數(shù)據(jù)可進行下一步人工復(fù)核處理的部分。
人工復(fù)核得到命中數(shù)據(jù)中需要關(guān)注優(yōu)化系統(tǒng)的內(nèi)容,將錯誤的說法規(guī)則、技能順序等內(nèi)容進行調(diào)整,確保對應(yīng)的語音需求能夠有正確的反饋。
4 "結(jié)語
本文研究NLP在車企中的運用,分析在輿情監(jiān)控與語音文本數(shù)據(jù)處理中關(guān)鍵的思維脈絡(luò),并提供一定的實驗方案,切實提高車企在AI領(lǐng)域的實踐。綜合來看,NLP作為AI領(lǐng)域的掌上明珠,有著更宏大的未來,針對已提出的場景應(yīng)用,有著更為豐富的解決辦法。輿情監(jiān)控中的情感分類,需要有更嚴謹?shù)姆桨敢?guī)定各級別閾值,使決策內(nèi)容更加明確詳實。語音文本數(shù)據(jù)處理,在預(yù)處理階段可以引入更多分詞庫作為參考,把握好特征值,將正確率不斷提升。
參考文獻:
[1]趙京勝,宋夢雪,高祥. 自然語言處理發(fā)展及應(yīng)用綜述[J]. 信息技術(shù)與信化,2019(7):142-145.
[2]賈澎濤,孫煒. 基于深度學(xué)習(xí)的文本分類綜述[J]. 計算機與現(xiàn)代化,2021(7):29-37.
[3]李琳,董璐璐,馬洪超. 基于BERT的漢語作文自動評分研究[J]. 中國考試,2022(5):73-80.
[4]沈自強,李曄,丁青艷,等. 基于BERT模型的科技政策文本分類研究[J]. 數(shù)字圖書館論壇,2022(1):10-16.
[5]劉威,張森,宋冠諭,等. 基于多種機器學(xué)習(xí)算法的車載語音文本分類研究[J]. 信息與電腦(理論版),2021,33(23):68-70.
(編輯 "凌 "波)