亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘的高速公路不合格綠通車致因機理建模

        2023-11-22 05:54:12陳嬌娜陶偉俊靳引利
        交通科技與經濟 2023年6期
        關鍵詞:特征文本模型

        陳嬌娜, 陶偉俊 , 靳引利

        (1.西安石油大學 電子工程學院,西安 710065;2.長安大學 電子與控制工程學院, 西安 710061)

        近年來,鮮活農產品的運輸需求、通行量、運輸范圍不斷擴大,高速公路鮮活農產品免費政策自執(zhí)行以來對降低農產品物流成本、推動區(qū)域經濟發(fā)展發(fā)揮了重要作用。高速公路綠通車的檢查策略是“寬進嚴出”,綠通車在收費站出口檢查通過即可免繳通行費。隨著信息化水平的不斷提升,使得收費站稽查業(yè)務數據采集更加便捷,同時稽查業(yè)務的流程記錄更加細致。綠通車涉及減免的車次以及金額數量巨大,是高速公路收費稽查不容忽視的重要環(huán)節(jié),如何將龐雜的業(yè)務數據轉化為業(yè)務知識是高速公路運營管理部門亟待解決的問題。

        高速公路綠通車過站檢查時會形成電子運單數據和檢測設備采集圖像數據,一些學者針對這些數據源構建了假冒綠通車識別模型:陳浩泰[1]利用陜西省10 146條樣本建立針對家禽肉運輸的邏輯回歸(LR)模型;申長春[2]利用裝袋算法(BA)將多個基分類器集成為強神經網絡分類器,提升假冒綠通車判斷的有效率;張凡等[3]采用SMOTE過采樣算法構建基于Logistic回歸的非綠通車預警模型,準確性和特異性均超過0.89;王萍等[4]提出綠通車運載貨物放射源圖像六分類識別模型;劉昱崗等[5]利用決策樹建立假冒綠通車預測模型,提出的預測模型準確率高于邏輯回歸模型和隨機森林模型;孔令帥等[6]利用社會網絡分析法研究綠通車生鮮農產品區(qū)域時空流通模式。通過以上文獻研究和實際調研可知,目前對高速公路綠通車查驗方面的研究內容還不夠豐富,數據集主要針對稽查業(yè)務數據和聯(lián)網收費數據中的結構化屬性字段,尚未涉及業(yè)務數據中文本記錄信息?,F(xiàn)有理論模型多為綠通車是否合格的概率研判,并未對查驗不合格車輛的致因機理深入討論。

        現(xiàn)階段,社會公眾對綠通車政策的關注逐漸增加,同時,貨車司機對查驗效率、業(yè)務過程體驗的要求不斷提升。由于對政策不熟悉或其他外部原因會出現(xiàn)車輛駕駛員意外違規(guī)。據統(tǒng)計,在不合格綠通車中故意違規(guī)的占比較小,絕大多數為意外違規(guī)。對查驗不合格車輛的文本信息進行挖掘,有利于識別且及時更新易混淆農產品目錄、典型逃費作弊手段等項目,而且對鮮活農產品運輸從業(yè)人員裝載指導、收費稽查人員業(yè)務培訓均有實際意義和價值。Diaz等[7]開展關聯(lián)規(guī)則在文本社交媒體的應用;Hong等[8]采用關聯(lián)規(guī)則挖掘算法研究高速公路危險品運輸事故;Zheng[9]介紹網頁文本的挖掘方法;Wang等[10]提出電力設備運行維護中的短文本挖掘框架;Halim等[11]和Liu等[12]利用自然語言處理分別建立管道事故的因果模型;吳伋等[13]利用文本挖掘分析內河船舶碰撞事故致因的重要因素;李玨等[14]和薛楠楠等[15]分別提取建筑施工安全事故的致因集合和關鍵因素;陳農田等[16]基于民航文本信息提出進近著陸致險因素重要度分析方法;Wang等[17]構建基于歷史缺陷文本的電力設備缺陷分析模型;Li等[18]和Qiu等[19]分別提出文本挖掘的煤礦安全風險因素識別方法。還有一些學者[20-22]開展了文本信息中的風險因素識別研究,這些研究為高速公路不合格綠通車文本信息挖掘提供了技術基礎。

        綜上所述,以高速公路綠通車查驗業(yè)務數據中自然語言描述的文本信息為研究對象,探討不合格綠通車致因機理;運用文本挖掘、社會網絡分析和關聯(lián)規(guī)則算法,確定致因要素之間的耦合關系以及層次結構;通過分析查驗不合格致因關鍵因素,挖掘綠通車查驗業(yè)務規(guī)律,可以為綠通車數據治理、數據資源化提供技術支持,對提高收費站通行效率、服務水平以及服務質量具有積極意義。

        1 數據來源與預處理

        1.1 數據來源

        以2020年1月至2022年6月陜西省高速公路綠通車查驗業(yè)務數據為基礎數據源,業(yè)務數據中記錄了查驗時間、判別結果、出口收費站、車輛重量等屬性字段,同時,對于查驗結果為不合格的記錄會對原因進行文本描述。不合格樣本量為26 099條,其中具有文本信息記錄樣本14 811條。文本記錄示例如表1所示,當一條樣本中存在多個不合格原因時分別計數。樣本數據查驗不合格類型分布如表2 所示。由表2可知,“未達核定載質量和車廂容積80%以上”“貨物非《目錄》內”“混裝非鮮活農產品”依次為比例最高的不合格類型,利用數據集進行文本挖掘對業(yè)務知識發(fā)現(xiàn)具有實際意義。

        表1 文本記錄示例

        表2 樣本數據查驗不合格類型統(tǒng)計

        1.2 文本信息預處理

        文本信息是一種非結構化數據,需要經過預處理轉化為結構化數據。文本數據預處理主要包括自定義詞典、分詞、去停用詞、詞組合并。

        1)自定義詞典。建立綠通車業(yè)務詞典,包括專有名詞、交通術語、農產品目類、業(yè)務縮略詞等。例如,電子不停車收費(ETC)、高速公路復合通行卡(CPC)、綠通、稽查、圣女果、小西紅柿、黑布林、百香果、牛油果、車厘子、娃娃菜等。

        2)分詞。結合分詞詞典和自定義詞典,采用Jieba算法中的精確模式對文本進行分詞。

        3)去除停用詞。剔除標點符號、數字、語氣詞及與挖掘主題無關的詞,例如,這、該、此、車輛、車廂、該車等。

        4)詞組合并。由于不同業(yè)務人員表述習慣不同,會出現(xiàn)語義相同但表述不同的詞組,對該類詞組進行歸并。例如{圣女果,小西紅柿,小番茄}{混裝,混雜,夾雜,混雜}{司機,駕駛員}等。

        根據預處理結果動態(tài)調整以上步驟,重復多次分詞直至符合挖掘要求。

        1.3 統(tǒng)計性描述

        采用詞袋模型表示原始文本特征項,即忽略語法和語序的影響,認為每個詞匯都是獨立的,統(tǒng)計每個詞匯的出現(xiàn)次數。文本信息經過預處理后得到4 144個獨立詞匯,詞頻的描述性統(tǒng)計如表3所示。由表3可知,詞頻分布方差較大,且大部分詞匯出現(xiàn)頻率極低。通過高頻詞匯提取關鍵詞可實現(xiàn)文本數據的降維。

        表3 詞頻描述性統(tǒng)計

        2 基于文本挖掘的致因機理建模

        2.1 模型架構

        基于文本挖掘的高速公路不合格綠通車致因機理建模過程如圖1所示。預處理后的詞袋模型具有高維稀疏的特點,需要降維以減小計算復雜度。建立降維后的關鍵詞共現(xiàn)矩陣,運用社會網絡模型分析每個獨立詞匯在致因網絡中的重要程度。同時,利用聚類算法量化獨立詞匯之間的耦合關系和關聯(lián)規(guī)則。最后,對分析結果進行業(yè)務知識解釋,以實現(xiàn)綠通車業(yè)務數據資源化。

        圖1 不合格綠通車致因機理建模過程

        2.2 關鍵詞提取

        由表3可知詞頻的平均值為11.16,且偏度大于0,說明詞頻分布呈偏態(tài)。綜合考慮詞頻的統(tǒng)計特征,選取12作為頻數指標閾值,即將詞頻大于12的詞匯作為關鍵詞。此時文本特征項數量為327,小于10%×4 144=414.4,說明文本特征項共現(xiàn)矩陣維度由4 144×4 144下降為327×327。對詞頻進行直方圖統(tǒng)計,不同頻數閾值的累計百分比如圖2所示。由圖2可得,頻數大于12的詞匯累計占比為92.7%,此時涵蓋了絕大多數的文本信息。可見,關鍵詞提取閾值選取恰當。按照詞頻從大到小對文本特征項進行編號,部分關鍵詞如表4所示。繪制關鍵詞的詞云圖(見圖3),圖中字的大小與該特征項頻數成正比。

        圖2 不同頻數閾值的累計百分比

        圖3 關鍵詞詞云

        表4 關鍵詞提取示例

        2.3 共現(xiàn)矩陣

        表5 共現(xiàn)矩陣

        2.4 社會網絡分析

        采用社會網絡分析方法,以文本特征項Di為網絡節(jié)點i,共現(xiàn)性程度xij為節(jié)點間的該網絡邊聯(lián)系強度,量化分析網絡中群體間以及個體間的層級特征和關聯(lián)關系。通過網絡密度和度中心度分析某個特征項Di(節(jié)點)在網絡中的重要程度,構建基于文本特征項的不合格綠通車致因網絡模型,該網絡為無向圖。

        步驟1:計算絕對點度中心度Ci,也稱絕對中心度,表示節(jié)點i與其他n-1個節(jié)點的直接聯(lián)系總數,如式(1)所示。

        (1)

        式中:Ci為絕對點度中心度;xij為共現(xiàn)性程度;n為網絡節(jié)點個數,n=327。

        (2)

        步驟3:計算點度中心度占比Pi,表示節(jié)點i在整個網絡中的占比,如式(3)所示。

        (3)

        式中:Pi為點度中心度占比。

        步驟4:計算網絡密度T,算式如式(4)所示。

        (4)

        式中:T為網絡密度;L為實際網絡聯(lián)系數。

        2.5 凝聚子群分析

        凝聚子群指在集合中具有直接、緊密或者積極關系的子集合。分析網絡中的凝聚子群個數以及每個凝聚子群包含的成員,可以刻畫凝聚子群間關系及聯(lián)接方式,揭示群體內部子群結構狀態(tài)。

        文中采用迭代相關收斂法(CONCOR)和層次聚類法分別對共現(xiàn)矩陣進行凝聚子群分析,標記凝聚子群成員。

        2.5.1 迭代相關收斂法(CONCOR)

        步驟1:采用皮爾遜積距系數計算共現(xiàn)矩陣X各行與各列之間的相關系數,得到相關系數矩陣A1。

        步驟2:將矩陣A1作為輸入,繼續(xù)計算各行與各列之間的相關系數,得到新的相關系數矩陣A2。

        步驟3:重復步驟2進行迭代計算,當得到一個僅由1和-1組成的相關系數矩陣Ak時停止迭代。

        步驟4:對矩陣Ak的各個行和列同時進行置換,以實現(xiàn)將所對應的特征項Di分區(qū)。分區(qū)越細致,各個區(qū)中的特征項就越少,每個區(qū)中的特征項Di數量至少大于3。

        步驟5:繪制樹形圖表示各個分區(qū)之間的結構對等性程度,并標記出各分區(qū)的網絡成員。當樹形圖中存在孤立點時,則凝聚子群具有穩(wěn)定性,當不存在孤立點時則不穩(wěn)定。

        步驟6:以分區(qū)中特征項最小數目為分割度,計算不同分割度條件下的決定系數R2。凝聚子群穩(wěn)定條件下決定系數最高對應的分割度即為最優(yōu)分割度,以最優(yōu)分割度生成的凝聚子群即為最優(yōu)凝聚子群,計算此時各個凝聚子群的網絡密度。

        2.5.2 層次聚類

        采用層次聚類由下向上對小的類別進行聚合,分析特征項之間的關聯(lián)規(guī)則。相異性系數計算時選取Jaccard距離。

        3 實例分析

        對數據集的文本特征項共現(xiàn)矩陣進行網絡結構和層級結構分析,驗證模型超參數調優(yōu)方法的有效性,并對分析結果進行業(yè)務知識解釋。

        3.1 社會網絡中心性分析

        表6 特征等級閾值標準

        根據特征等級閾值標準對文本特征項進行等級劃分,結果如表7所示。由表7可知,{CPC,未預約,混裝}是導致不合格的關鍵特征,{貨物,容積,司機,重量,ETC}是不合格致因的重要特征。{免費,非,農產品,質量,政策}是不合格致因的次要特征??梢?混裝、容積/重量、免費/非/農產品等影響因素是不合格綠通車的顯著致因,說明目前不合格綠通車中大多數來源于司機對農產品裝載要求未達到免費標準。針對這類非主觀性違規(guī)致因,可以通過加強政策宣傳、政策解釋、共享經驗等方式改善司機對綠通車免費標準的熟悉程度。同時,需要進一步對特征項進行層級結構分析,深入挖掘顯著致因的關聯(lián)因素和規(guī)律。

        表7 特征等級分析結果

        3.2 CONCOR凝聚子群分析

        按照CONCOR迭代相關收斂法分析步驟,繪制不同分割度的樹形圖以判斷穩(wěn)定性,并計算相應的決定系數,凝聚子群結果如表8所示。由表8可知,分割度為3時網絡結構穩(wěn)定,且決定系數較高,此時凝聚子群效果最優(yōu),相應的子群數量為8。

        表8 不同分割度的凝聚子群結果分析

        計算8個子群的網絡密度,結果如圖4所示。由圖4可知,密度較大的子群為第1和第2子群,這兩個子群在整個群體中貢獻度較大,其對應的關鍵詞分別為{CPC,未預約,補費,觀賞魚,魚苗,不新鮮,發(fā)硬,紅蔥,落果,ETC,水箱,足額,不符,免征,發(fā)芽,菌,不享受,仔豬,正常}{稱重,噸,未達標,不達標,未達,未達到,達標,均達,不足,不夠,免費標準,標準,質量,重量,體積,容積,噸位,荷載,車貨,超限,芹菜,鮮奶}。對第1子群分析可知,運輸貨物為觀賞魚、魚苗、落果、菌類、仔豬時與補繳通行費關聯(lián)性較強,即此時不符合免費標準。同時,稽查人員業(yè)務培訓中需要包含觀賞魚或魚苗辨別、水果是否為落果等知識內容,這對稽查效率具有實際指導意義。對第2子群分析可知,芹菜或鮮奶與容積或重量不合格關聯(lián)性較高。當運輸貨物含有芹菜或鮮奶時,查驗人員應優(yōu)先查驗容積或重量是否符合要求。綜上可知,通過凝聚子群分析能夠將非結構化的文本記錄轉化成結構化的業(yè)務規(guī)律,幫助查驗人員提高稽查效率。同時,可以歸納稽查業(yè)務培訓需涵蓋的業(yè)務知識和業(yè)務技巧,促進查驗業(yè)務培訓的有效性和針對性,具有實際應用價值。

        圖4 凝聚子群網絡密度

        3.3 層次聚類

        以杰卡德(Jaccard)系數為相異性系數,對高速公路不合格綠通車致因的特征項進行層次聚類。通過分析不同Jaccard距離下的凝聚簇個數變化來確定最佳簇數。凝聚簇個數變化曲線中顯著拐點即為最佳簇數,此時簇間距離的變化較大。令Jaccard系數以0.25為間隔,在凝聚簇個數范圍[1,327]內,繪制凝聚簇個數和Jaccard系數變化曲線,如圖5所示。由圖5可知,Jaccard系數為1.0時曲線具有顯著拐點,此時凝聚簇個數為137,即為最佳簇數。最佳簇數下文本特征項的聚類結果(前20凝聚子群)如表9所示。

        圖5 不同Jaccard系數的凝聚簇個數

        表9 層次聚類結果(前20條示例)

        由表9可知,顯著的不合格致因包括司機不配合、容積未達標、大件運輸車輛、未提供行駛證原件等。在文本特征項的凝聚簇基礎上,可實現(xiàn)不合格綠通車致因機理解析和業(yè)務知識發(fā)現(xiàn)。在查驗業(yè)務中需要重點關注的問題:空箱子、空框子;豬肉是否混裝板油、內臟、豬蹄等;區(qū)分死魚、活魚、凍魚;花生和大棗是否新鮮。同時,通過層次聚類結果能夠建立易混淆目錄。

        1)同類農產品不同狀態(tài)下的易混淆目錄,例如{豆腐,豆腐干}、{大蒜,干蒜,剝皮}等。其中,大蒜屬于免費目錄,但是干蒜不屬于“鮮活”,剝皮屬于“深加工”,均不屬于免費標準。

        2)同類目鮮活農產品的易混淆目錄,例如{櫻桃,車厘子}{旱黃瓜,黃瓜,乳瓜}等。

        3)不在《鮮活農產品品種目錄》內的鮮活農產品,例如{榴蓮,藍莓,山竹,火龍果,菠蘿蜜,牛油果}等。

        利用綠通車查驗業(yè)務數據資源化,能夠揭示不合格綠通車致因規(guī)律,可以指導綠通車司機避免非主觀查驗不合格,同時有利于收費站稽查人員儲備業(yè)務知識、提高工作效率。

        4 結 語

        1)利用高速公路綠通車稽查記錄的業(yè)務數據,提出基于文本挖掘的不合格綠通車致因機理建模方法,利用社會網絡分析建立不合格致因網絡,揭示不合格致因文本特征項的網絡結構和關聯(lián)規(guī)則,提出并驗證了模型超參數尋優(yōu)方法的有效性。

        2)提出一種以非結構化文本記錄提取結構化業(yè)務經驗知識的技術路線,能夠實現(xiàn)不合格致因規(guī)律和關聯(lián)規(guī)則的挖掘,為高速公路綠通車數據資源化和數據治理提供技術支持。

        3)由于自然語言處理技術的不斷深入,利用預訓練模型和深度學習模型進行文本信息挖掘是后續(xù)進一步研究的重要方向。

        猜你喜歡
        特征文本模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        在线视频99| 在线亚洲高清揄拍自拍一品区| 国产精品天堂avav在线| 国产山东熟女48嗷嗷叫| 国产性一交一乱一伦一色一情| 伊人久久网国产伊人| 亚洲综合AV在线在线播放| 日本一区二区三区看片| 亚洲免费福利视频网站| 亚洲欧洲免费无码| 国内精品久久久久影院一蜜桃| 99久久人妻无码精品系列蜜桃| 亚洲国产av中文字幕| 国产精品亚洲一二三区| 又紧又大又爽精品一区二区| 藏春阁福利视频| 亚洲日日噜噜噜夜夜爽爽| 91精品国产九色综合久久香蕉| 日韩精品真人荷官无码| 韩国19禁主播深夜福利视频| 少妇无码av无码去区钱| 国产午夜在线观看视频| 欧美性猛交xxxx乱大交极品| 一本一道av无码中文字幕| 日韩av一区二区三区四区av| 青青自拍视频成人免费观看| 男女18视频免费网站| 风韵多水的老熟妇| 香蕉久久人人97超碰caoproen| 国产亚洲精品国看不卡| 久久亚洲中文字幕精品二区| 狠狠色综合7777久夜色撩人ⅰ| 欧美日韩亚洲国产精品| 91在线区啪国自产网页 | 99久久精品一区二区国产| 国产精品嫩草99av在线| 国产另类综合区| 麻豆激情视频在线观看| 体验区试看120秒啪啪免费| 97无码人妻福利免费公开在线视频| 中国精品久久久久国产|