亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本挖掘在新能源汽車領(lǐng)域中的應(yīng)用

        2023-06-21 01:58:40黃潤才
        智能計算機與應(yīng)用 2023年6期
        關(guān)鍵詞:新能源汽車文本

        張 雨, 黃潤才

        (上海工程技術(shù)大學電子電氣工程學院, 上海 201620)

        0 引 言

        文本挖掘是一種整合信息的工具,能夠有效地提取文本中有用、創(chuàng)新、易懂和有價值的元素。 用戶可以自由訪問科學研究、新聞資訊、商業(yè)信息、娛樂報道等各種類型的信息。 這些信息構(gòu)成了一個被廣泛使用的異構(gòu)性和開放性數(shù)據(jù)庫,而在這個數(shù)據(jù)庫中存放的是非結(jié)構(gòu)化的文本數(shù)據(jù)。 在人工智能的發(fā)展過程中,自然語言處理和計算機科學被整合到一起,從此網(wǎng)絡(luò)挖掘和文本挖掘誕生了。

        網(wǎng)頁中包含很多類型的數(shù)據(jù),如文本、鏈接和用戶訪問等,因此網(wǎng)絡(luò)挖掘也有多種類型,例如文本挖掘、數(shù)據(jù)挖掘和圖像挖掘。 文本挖掘注重于把大量文本信息處理成可被人使用的信息。

        在新能源汽車領(lǐng)域中,文本挖掘被用于分析中國新能源汽車產(chǎn)業(yè)政策,消費者評價新能源汽車時也使用了文本挖掘技術(shù),在新能源汽車故障診斷中也會使用文本挖掘技術(shù)。

        文本挖掘技術(shù)運用在新能源汽車領(lǐng)域的同時,也帶來了挑戰(zhàn):

        (1)數(shù)據(jù)來源多樣化。 新能源汽車領(lǐng)域數(shù)據(jù)發(fā)布主體主要有個人、企業(yè)、媒體、政府機構(gòu)等,具體表現(xiàn)形式也有很多,如社交平臺(推特、微博、論壇等)、研究論文、公司企業(yè)年報、季報,政府機構(gòu)定期或不定期發(fā)布的各類信息等。

        (2)數(shù)據(jù)信息展示。 數(shù)據(jù)體量呈現(xiàn)了幾何式增長,使用文本挖掘技術(shù)從海量數(shù)據(jù)中挖掘信息,還需要將數(shù)據(jù)信息展現(xiàn)出來。

        本文采用文本挖掘技術(shù),如中文中的分詞、詞向量、降維、聚類、數(shù)據(jù)可視化等方法對CNKI 和Web Of Science 中的論文進行分析,展示新能源汽車領(lǐng)域的研究趨勢及發(fā)展。

        本文主要進行了以下幾個方面的研究:“數(shù)據(jù)與方法”部分描述了從中國知網(wǎng)(CNKI)獲得的16 293篇文章的數(shù)據(jù)源,和從Web Of Science 獲取的10 328篇文章,并介紹了本文所使用的文本挖掘方法;“結(jié)果與討論”部分通過主題河流圖展現(xiàn)了論文中關(guān)鍵詞隨年份的演變,展現(xiàn)了新能源汽車領(lǐng)域的研究熱點變化趨勢;通過中國地圖展示了研究新能源汽車的作者機構(gòu)空間分布圖,使用關(guān)系圖來揭示CNKI 中論文作者的關(guān)系;通過聚類算法和數(shù)據(jù)可視化揭示論文研究點的分布情況并給出相應(yīng)的預測;討論了本文所使用文本挖掘技術(shù)的局限性。 本研究的潛在貢獻體現(xiàn)在對新能源汽車領(lǐng)域的回顧和預測,有助于研究人員了解新能源汽車領(lǐng)域的研究趨勢和研究熱點。

        1 數(shù)據(jù)與方法

        1.1 數(shù)據(jù)獲取

        本文分析的所有數(shù)據(jù)均來自CNKI 及Web Of Science,搜索條件如下:

        (1)在CNKI 中以“new energy vehicle”為關(guān)鍵詞獲取相關(guān)碩博論文、以及發(fā)表在學術(shù)及行業(yè)期刊上的論文;

        (2)在Web Of Science 中同樣以“new energy vehicle”為關(guān)鍵詞,獲取相關(guān)的會議或期刊論文。

        1.2 數(shù)據(jù)構(gòu)成

        在CNKI 中,獲取的數(shù)據(jù)包含標題、作者、摘要、關(guān)鍵詞、作者機構(gòu)等信息;在Web Of Science 中,獲取的數(shù)據(jù)包含標題、作者、摘要等信息。 由于部分論文存在缺失信息的情況,本文對所收集的數(shù)據(jù)進行了初步篩選,剔除了一部分不滿足條件的數(shù)據(jù),最終所獲得CNKI 論文16 293 篇,Web Of Science 論文10 328篇。

        1.3 中文分詞

        中文分詞(Chinese Word Segmentation)就是將一句通順的漢字序列根據(jù)特有規(guī)范分割為多個獨立的詞序列[1]。 目前的分詞方法可以歸納為3 個類別:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法[2]。

        基于統(tǒng)計的中文分詞方法已然占據(jù)了主流位置,該方法是在已有大量被分詞過的文本的基礎(chǔ)上,使用統(tǒng)計機器學習模型來學習詞語切分的規(guī)律(稱為訓練),以此實現(xiàn)對未知文本的切分。

        在實際的應(yīng)用中,基于統(tǒng)計的分詞系統(tǒng)都需要使用分詞詞典來進行字符串匹配分詞,同時使用統(tǒng)計方法識別一些新詞,即將字符串頻率統(tǒng)計和字符串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。 在本文中使用的jieba(結(jié)巴)分詞方法。

        1.4 詞嵌入

        本文使用 GloVe ( Global Vectors for Word Representation)生成詞向量。 其是一個基于全局詞頻統(tǒng)計(Count-Based and Overall Statistics)的詞表征(Word Representation)工具[3]。

        GloVe 的構(gòu)建過程:

        (1)根據(jù)語料庫構(gòu)建一個共現(xiàn)矩陣,元素Zij表示在矩陣中任意單詞i和其上下文單詞j在規(guī)定范圍內(nèi)的上下文窗口中共同出現(xiàn)的次數(shù);

        (2)構(gòu)建詞向量(Word Vector)和共現(xiàn)矩陣之間的近似關(guān)系,其目標函數(shù)為式(1):

        其中,和是最終要求解的詞向量,bi和分別是兩個詞向量的偏置項。

        這個損失函數(shù)的基本形式就是最簡單的均方誤差損失函數(shù),只不過在此基礎(chǔ)上加了一個分段權(quán)重函數(shù)f(Xij),式(2):

        其中,x為Xij,xmax達到最大值時x的取值,當x小于xmax時為一個非遞減函數(shù),達到一定程度后取值不再增加。

        從損失函數(shù)出發(fā),只需要找到兩個值,其中一個代表詞向量,另外一個代表其真實標簽,就可以借助平方誤差損失函數(shù)讓初始值與最終值越來越接近,最后得到詞向量。

        1.5 降維

        T - SNE (T - Distributed Stochastic Neighbor Embedding)是用于降維的一種機器學習算法,由Laurens van der Maaten 等在2012 年提出[4]。 TSNE 是一種非線性降維算法,常用于高維數(shù)據(jù)降維到2 維或者3 維,以便進行可視化。 該算法具有有效性,越相似的數(shù)據(jù)點,t分布在低維空間中聚合更緊密;而對于不相似的數(shù)據(jù)點,t分布在低維空間中的距離則需要遠一點。

        T-SNE 的梯度更新有兩大優(yōu)勢:

        (1)對于不同簇之間的點,可以利用短距離帶來的大梯度使這些點互相疏遠;

        (2) 這種互相疏遠不會變的無窮遠(梯度中分母),以避免不同簇的點過分疏遠。

        1.6 聚類

        K-Means 算法是一種常用的聚類算法,但其算法本身存在一定的問題,如在大數(shù)據(jù)量下的計算時間過長等[5]。 因此,一種基于K-Means 的變種聚類算法Mini Batch K-Means 應(yīng)運而生。

        Mini Batch K-Means 既可以利用小批量的數(shù)據(jù)子集大幅度縮短計算時長,又可以優(yōu)化目標函數(shù)。所謂的小批量是指每次訓練算法時隨機抽取數(shù)據(jù)子集進行訓練,大大縮短了計算時長,與此同時還可以保持聚類的準確性,此算法的優(yōu)勢是減少了K 均值的收斂時間。

        該算法的迭代步驟有兩步:

        (1)首先從數(shù)據(jù)集中隨機選取部分數(shù)據(jù),分配給距離最近的聚簇中心點;

        (2)通過計算平均值來更新聚簇的中心點值,并把數(shù)據(jù)分配給這個聚簇中心點值,迭代次數(shù)越多,聚簇中心點值變化越小,直到中心點趨于穩(wěn)定或者達到迭代次數(shù),才停止計算。

        2 結(jié)果與討論

        2.1 發(fā)文量分析

        將獲取到的論文數(shù)量信息做可視化處理,得到的結(jié)果如圖1、圖2 和表1 中所示。 無論是在WOS數(shù)據(jù)庫中還是在CNKI 中,對新能源汽車領(lǐng)域的研究都呈現(xiàn)了一個上升的趨勢。 從表2 的增速可以看出,最近五年與2011 ~2015 年相比,分別增長了105.65%和137.54%,且都在2019 年達到了各自的峰值,分別為1 570 條和3 496 條。 在WOS 數(shù)據(jù)庫中,2012 年出現(xiàn)了一個猛增的趨勢,接著就是逐年增長;而在CNKI 中,2017 年以前都是逐步增長,而到了2018 年反而下降,這說明在2018 年中國國內(nèi)汽車市場低迷,呈現(xiàn)出了負增長的趨勢,新能源汽車領(lǐng)域受到了影響。

        表1 在2011~2015 年的論文數(shù)量Tab. 1 Number of papers in 2011~2015

        表2 特征詞在論文中被提及的頻率(2011~2015)Tab. 2 The frequency of feature words mentioned in papers(2011~2015)

        圖1 WOS 中論文數(shù)量折線圖(2011~2020)Fig. 1 Line chart of the number of papers in WOS (2011~2020)

        圖2 CNKI 中論文數(shù)量折線圖(2011~2020)Fig. 2 Line chart of the number of papers in CNKI (2011~2020)

        2.2 研究熱點變化趨

        由于在CNKI 中,2015 ~2020 年間新能源汽車領(lǐng)域的論文數(shù)量波動較大,本文選取了2015 ~2020年間CNKI 論文,提取論文的關(guān)鍵詞見表2,利用中文分詞的方法,根據(jù)詞頻進行分析,得到研究熱點的變化趨勢如圖3 所示。

        圖3 CNKI 中關(guān)鍵詞主題河流圖(2015~2020)Fig. 3 River diagram of keyword theme in CNKI (2015~2020)

        從表2 和圖3 可以發(fā)現(xiàn),“新能源汽車”、“電動汽車”作為新能源汽車領(lǐng)域的主要特征詞,在2015~2020 年間的每一年都保持了一個極高的出現(xiàn)頻率。 而“發(fā)展戰(zhàn)略”及“戰(zhàn)略性新興產(chǎn)業(yè)”則呈現(xiàn)了一個出現(xiàn)頻率遞減的趨勢,這與中國推廣新能源汽車政策有關(guān),2015 年中國正處于新能源汽車發(fā)展的第二階段。 關(guān)鍵詞“鋰離子電池”、“動力電池”、“永磁同步電機”的出現(xiàn)頻率表現(xiàn)出了增長的趨勢,年均增長率分別達到25.55%、20.11%和16.72%,說明在CNKI 中與新能源汽車的動力電池有關(guān)的研究中,永磁同步電機及鋰離子電池逐漸成為了研究熱點。

        2.3 作者空間分布及關(guān)系

        將CNKI 中的文章分為期刊論文和碩博論文。對于期刊論文,篩選出在新能源汽車領(lǐng)域文章數(shù)量前十的期刊,并以玫瑰圖的形式展現(xiàn)出來。 本文使用的英語處理工具(Kadriu 2013),在中文摘要中使用jieba 分詞,實驗結(jié)果如圖4 所示,可以直觀的看出相關(guān)的期刊都是與汽車相關(guān)的,其次便是與電源有關(guān),這與大多新能源汽車是以電池作為動力源有關(guān)。 對于碩博論文,則以作者所在的單位進行研究,用同樣的實驗方法根據(jù)其所在省份得到中國對新能源汽車領(lǐng)域研究的空間分布,顯示各個省份對新能源汽車都有研究,其中北京、上海、重慶、天津研究人數(shù)較多。

        圖4 CNKI 新能源汽車領(lǐng)域的文章數(shù)量top10 期刊Fig. 4 The top-10 journals in CNKI with most articles in the field of new energy vehicles

        為了得到WOS 數(shù)據(jù)庫和CNKI 中新能源汽車領(lǐng)域論文作者的關(guān)系圖,本文對所收集的數(shù)據(jù)進行預處理,選取了2019 年兩大數(shù)據(jù)庫的作者信息,分別得到了各自的作者關(guān)系圖如圖5 和圖6 所示,可以得到在CNKI 中由于論文多數(shù)來自于碩博論文,作者關(guān)系相比WOS 數(shù)據(jù)庫中更為簡單。

        圖5 CNKI 新能源領(lǐng)域作者關(guān)系圖Fig. 5 Diagram of author relationship in CNKI in the field of new energy

        圖6 WOS 新能源領(lǐng)域作者關(guān)系圖Fig. 6 Diagram of author relationship in WOS in the field of new energy

        2.4 論文研究熱點聚類分析

        本文選取了CNKI 中獲取的數(shù)據(jù)進行研究,對數(shù)據(jù)中的摘要部分進行提取,使用jieba 算法進行中文分詞,通過分詞和去除停用詞得到處理后的摘要數(shù)據(jù),使用glove 訓練獲得詞向量。 訓練后得到的詞向量為200 維,詞向量維度過高會導致維度爆炸,因此采用了T-SNE 算法進行降維,將數(shù)據(jù)降維至2維,實驗結(jié)果如圖7 所示,可以看出,這些詞分為4類。 并使用小批量K 均值聚類得到如圖8 所示的更詳細的信息。

        圖7 T-SNE 降維圖Fig. 7 T-SNE dimension reduction result

        圖8 CNKI 論文研究點分布圖Fig. 8 Distribution map of research topics in CNKI

        圖8 中顯示為綠色的這一大類主要分布的詞有“制造業(yè)”、“生產(chǎn)”、“營銷”、“產(chǎn)業(yè)結(jié)構(gòu)”、“資本”、“建設(shè)”等,說明在新能源汽車領(lǐng)域中,學者們很注重新能源汽車從制造到生產(chǎn)、銷售整個產(chǎn)業(yè)的結(jié)構(gòu)建設(shè)方面的研究;顯示為藍色的這一類別中,“汽車行業(yè)”、“環(huán)境污染”、“壓力”、“質(zhì)量”、“低碳”、“消費者”、“新能源”、“價格”等詞作為主要關(guān)鍵詞,反映了新能源汽車由于使用新能源能夠緩解環(huán)境污染問題,使消費者能夠低碳出行,同時價格也影響著新能源汽車行業(yè);顯示為粉色的這一類別中,分布的詞數(shù)較少,主要有“燃料電池”、 “成本”、 “電化學”、“材料” 、“電網(wǎng)負荷”等詞,這一類別代表了對新能源汽車領(lǐng)域的燃料及所需成本的研究;顯示為橙色的類別里,可以看到“新能源汽車”、 “simulink”、“開發(fā)”、“設(shè)計”、“方案”、“電動汽車”、“車身”、“控制策略”、“發(fā)動機”等關(guān)鍵詞,本文認為這象征著對新能源汽車進行開發(fā)設(shè)計時通常包含了車身、發(fā)動機等汽車的主要部件的研究,同時新能源汽車研究較多的是電動汽車,在設(shè)計方案時使用了simulink等仿真軟件確定最優(yōu)的策略。

        最后,由于新能源汽車領(lǐng)域關(guān)于燃料的研究較少,所以結(jié)合圖2 所示的主題河流圖,本文做出以下預測:

        (1)在未來關(guān)于新能源汽車領(lǐng)域的研究中,可以著重關(guān)注于純電動汽車及各種電池及永磁同步機的研究;

        (2)由于各種電池如鋰離子電池等所需要的電化學反應(yīng)不同,所需材料的成本也不同,可以針對不同的燃料電池所需花費的成本及大規(guī)模投放后對電網(wǎng)所產(chǎn)生的負荷影響進行研究。

        2.5 文本挖掘技術(shù)的不足

        通過本文所介紹的文本挖掘算法及數(shù)據(jù)可視化方法,雖然已經(jīng)得到了2011 ~2020 十年間WOS 數(shù)據(jù)庫和CNKI 中的數(shù)據(jù)信息,但仍有不足:

        (1)T-SNE 傾向于保存局部特征,沒有唯一最優(yōu)解,而且在T-SNE 中距離本身沒有意義,都是概率分布問題;

        (2)Mini Batch K-Means 為了減少數(shù)據(jù)規(guī)模,隨機從整體選取出一小部分數(shù)據(jù)代替整體,雖然算法收斂速度大大加快,但是代價是聚類的精確度相比標準算法會有一些降低。

        3 結(jié)束語

        本文使用文本挖掘算法,如jieba 分詞、glove 詞向量、T-SNE 降維、Mini Batch K-Means 聚類算法,研究了WOS 數(shù)據(jù)庫和CNKI 中以新能源汽車為主題的論文,通過主題河流圖、作者關(guān)系圖、作者空間分布圖、研究點分布圖直觀的展示了文本挖掘所得到的數(shù)據(jù)信息。 研究結(jié)果表明在國內(nèi)外對于新能源汽車領(lǐng)域都在持續(xù)關(guān)注,尤其是電動汽車;預測了研究人員對于新能源汽車應(yīng)當在燃料電池、成本及電網(wǎng)負荷方面進行關(guān)注。

        猜你喜歡
        新能源汽車文本
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        汽車的“出賣”
        買不買新能源汽車
        汽車們的喜怒哀樂
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        “新能源門”的背后
        風能(2015年4期)2015-02-27 10:14:36
        順應(yīng)新能源發(fā)展趨勢
        風能(2015年4期)2015-02-27 10:14:34
        3D 打印汽車等
        決策探索(2014年21期)2014-11-25 12:29:50
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        亚洲深深色噜噜狠狠网站| AV无码系列一区二区三区| 亚洲av日韩av天堂久久不卡 | 18禁裸男晨勃露j毛免费观看| 日韩永久免费无码AV电影| 国产精品国产三级国产专区51区| 少妇bbwbbw高潮| 国产精品国产三级国产an不卡| 国产av无码专区亚洲a∨毛片 | 99精品视频69V精品视频| 欧美a视频在线观看| 国产一区二区三区影片| 二区三区三区视频在线观看| 亚洲av无码一区东京热| 国产无遮挡又黄又爽又色| 第十色丰满无码| 亚洲美女主播内射在线| 精品国产乱码久久久久久郑州公司 | 青青草好吊色在线观看| 国产极品女主播国产区| 亚洲国产精品久久久久秋霞影院 | 亚洲狼人社区av在线观看| 人妻中文字幕在线一二区| 人妻激情偷乱视频一区二区三区| 日本无遮挡吸乳呻吟视频| 精品一区二区三区在线观看l| av在线不卡免费中文网| 麻豆婷婷狠狠色18禁久久| 久久夜色精品国产| 亚洲色欲大片AAA无码| 中文字幕色一区二区三区页不卡| 亚洲网站一区在线播放| 久久久无码精品亚洲日韩按摩| 四虎影视亚洲精品| 亚洲av高清在线一区二区三区| 国产情侣一区二区三区| 好吊色欧美一区二区三区四区| 69av视频在线| 与最丰满美女老师爱爱视频| 无码人妻精品一区二区| 乱码午夜-极国产极内射 |