摘 要:中小企業(yè)作為我國產(chǎn)學(xué)研合作的重要組成部分,在改革發(fā)展中十分需要獲得政府與高校在技術(shù)、資金、政策和人才等方面的支持。實際上,當(dāng)中小企業(yè)遇到技術(shù)創(chuàng)新與改革難題時,面對數(shù)以萬計的相關(guān)領(lǐng)域?qū)<遥虝r間內(nèi)很難找到比較合適的人員進行咨詢。針對這一問題,本文基于數(shù)據(jù)挖掘和機器學(xué)習(xí)的相關(guān)技術(shù),設(shè)計了為中小企業(yè)服務(wù)的安全領(lǐng)域?qū)<彝扑]系統(tǒng)。該系統(tǒng)主要面向安全領(lǐng)域,包括交通安全、建筑生產(chǎn)安全,電力安全等領(lǐng)域。
關(guān)鍵詞:推薦系統(tǒng);矩陣分解算法;神經(jīng)網(wǎng)絡(luò)
近年來,機器學(xué)習(xí)算法已在眾多領(lǐng)域得到廣泛的應(yīng)用,如機器翻譯、計算機視覺等方面。目前,深度學(xué)習(xí)在推薦系統(tǒng)領(lǐng)域的應(yīng)用也越來越多,它對捕獲非線性和非平凡的項目關(guān)系,并進行更復(fù)雜的高層數(shù)據(jù)表示有較優(yōu)的效果;同時它可以從原始數(shù)據(jù)中學(xué)習(xí)復(fù)雜的用戶偏好,從而提高推薦的效果。
一、推薦系統(tǒng)
隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,獲取信息的方式越來越多,信息量也以幾何倍數(shù)式爆發(fā)增長,人們已經(jīng)從主動獲取信息逐漸向被動接受信息轉(zhuǎn)變,由于對信息的獲取具有需求性與有效性的要求,推薦系統(tǒng)應(yīng)運而生。
推薦系統(tǒng)是一種工具,它基于用戶的歷史行為數(shù)據(jù)或物品數(shù)據(jù),通過一定的算法為用戶推薦符合要求的內(nèi)容,是目前相當(dāng)火熱的研究方向,在學(xué)術(shù)界和工業(yè)界得到廣泛的關(guān)注。它主要解決兩個問題,信息過載和用戶需求的多樣性。一個完整的推薦系統(tǒng)主要包含三個方面:用戶、內(nèi)容提供方和網(wǎng)站。用戶希望看到自己喜歡的內(nèi)容,內(nèi)容提供方希望將內(nèi)容全面的推送給用戶,網(wǎng)站則需要平衡兩者關(guān)系,達到利益最大化。只有平衡 好三方的需求,才能體現(xiàn)出推薦系統(tǒng)的價值。
二、數(shù)據(jù)的獲取與存儲
通過分析課程教學(xué)過程中存在的不足,研究項目引導(dǎo)教學(xué)模式,把整個學(xué)習(xí)過程分解為若干個具體項目,分階段設(shè)計項目教學(xué)方案,按實踐回路設(shè)計教學(xué)思路,有效建立課堂與實際應(yīng)用。
爬蟲按照功能分為數(shù)據(jù)采集,處理,儲存三個部分,具體步驟為從某一網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,并且在抓取網(wǎng)頁的過程中,從當(dāng)前頁面通過某一規(guī)則進入新的URL,直到滿足設(shè)定的停止條件為止。
IPC分類號是根據(jù)《國際專利分類斯特拉斯堡協(xié)定》編制的,其作為國際通用的專利文獻分類和檢索工具,為世界各國所必備。目前我國也使用這套國際專利分類體系,下表為專利按“部”分類表,見表2-1所示。
(一)文本特征提取
TF-IDF(Term Frequency-Inverse Document Frequency)是一種用于文本挖掘與處理的常用加權(quán)技術(shù),用來評估在語料庫中某個詞或詞語的重要程度。通常情況下,某個字詞在文檔中出現(xiàn)次數(shù)越多,則其重要性會越高。因此,TF-IDF加權(quán)的形式常被應(yīng)用到搜索引擎,作為查詢相關(guān)程度的度量或評級。
Word2Vec詞向量模型是Google公司在2013年提出的一款以深度學(xué)習(xí)算法思想為基礎(chǔ),將詞語表征轉(zhuǎn)化為實數(shù)值詞向量的高效開源工具。主要是一種利用深度學(xué)習(xí)方法,采用無監(jiān)督的方式,從大量文本中學(xué)習(xí)語義知識的模型。
(二)支持向量機分類算法
針對軟件建模與分析課程理論性和實踐性強的特點,并且充分考慮到不同教學(xué)方法在不同類型的教學(xué)內(nèi)容中的合理運用,才能有效地改進課堂教學(xué)的效果,鑒于此,課程組教師在該課程的教學(xué)過程中開展教學(xué)方法的創(chuàng)新研討,取得了一定的效果。
支持向量機模型是讓所有點到超平面的距離大于一定的距離,即讓所有的分類點要在各自類別的支持向量兩邊。K最近鄰(KNN)分類算法采用測量不同特征值之間的距離方法進行分類。其思路大體如下:如果一個樣本在特征空間中的k個最相似的樣本中的。大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。
一般情況下,KNN有以下幾個流程:(1)收集數(shù)據(jù),確定訓(xùn)練樣本集合中的測試數(shù)據(jù);(2)計算測試數(shù)據(jù)和訓(xùn)練樣本集中每個樣本數(shù)據(jù)的距離;(3)按照距離遞增的順序排序;(4)選取距離最近的K個點;
三、CNN模型訓(xùn)練過程
卷積神經(jīng)網(wǎng)絡(luò)分類模型的數(shù)據(jù)集劃分如下:訓(xùn)練集(10000*4),測試集(1000*4),驗證集(500*4)。即訓(xùn)練集中有四個類別的文本信息,每個類別有一萬條數(shù)據(jù);測試集中有四個類別的文本信息,每個類別有一千條數(shù)據(jù)。
按照上文所提供的參數(shù)進行配置,第一層網(wǎng)絡(luò)將詞向量嵌入到一個低維的向量中。下一層網(wǎng)絡(luò)利用多個卷積核在前一層網(wǎng)絡(luò)上進行卷積操作。比如,每次滑動3、4個或者5個單詞。第三層網(wǎng)絡(luò)是一個max-pool層,從而得到一個長向量,并且添加上dropout正則項。最后,我們使用softmax函數(shù)對進行分類。
由于卷積神經(jīng)網(wǎng)絡(luò)分類模型中,不同的參數(shù)對結(jié)果產(chǎn)生較大的影響,通過多次修改參數(shù),包括學(xué)習(xí)率,卷積層層數(shù),卷積核個數(shù),池化層層數(shù)等,以提高準(zhǔn)確率,如表3-1所示。
四、總結(jié)
介紹了搭建安全領(lǐng)域?qū)<彝扑]系統(tǒng)的重要環(huán)節(jié)。其中介紹了爬蟲技術(shù)、文本分詞、去停用詞、文本特征提取,以及對樸素貝葉斯分類算法、支持向量機分類算法、KNN分類算法以及卷積神經(jīng)網(wǎng)絡(luò)算法做了詳細(xì)的介紹,通過實驗對比,本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)和Word2Vec的分類算法在準(zhǔn)確率上面有了比較大的提升,具有非常重要的應(yīng)用和實踐意義。
參考文獻:
[1]周齊.基于機器學(xué)習(xí)的推薦系統(tǒng)[J].電子技術(shù)與軟件工程,20120,No.98(24):173.
[2]涂添翼. 大數(shù)據(jù)環(huán)境下面向鄰域粗糙計算流式并行化研究與應(yīng)用[D].電子科技大學(xué),2019.