亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隨機森林和Apriori 的心理問題預(yù)測技術(shù)研究

2022-12-01 06:00:52劉俠賈妮

電子設(shè)計工程 2022年23期

劉俠，賈妮

（陜西中醫(yī)藥大學(xué)，陜西咸陽 712000）

隨著社會經(jīng)濟的快速發(fā)展，人們生活質(zhì)量提高的同時，所面對的壓力也隨之增加。高校生由于就業(yè)、學(xué)習(xí)、情感等方面的影響，心理壓力也存在逐年上升的趨勢[1]。因此，學(xué)校和家長除了關(guān)注學(xué)生的教育外，還應(yīng)當關(guān)注其心理健康狀態(tài)，及時發(fā)現(xiàn)問題，并提前做好預(yù)防措施。根據(jù)當前的相關(guān)研究來看，有些青年學(xué)生由于從小受到的挫折較少，所以當其面對較大壓力或挫折時，較容易產(chǎn)生負面情緒。同時，這類人群從主觀上又抵制通過與人交流來緩解情緒，從而造成了一定程度的心理問題[2-4]。但目前對心理問題的智能化分析研究仍相對較少，而已有的算法也或多或少存在效率和準確率不足等問題?；谏鲜霈F(xiàn)象，亟需建立一套完整的心理問題預(yù)測方法，從而對高校生心理狀態(tài)進行有效的監(jiān)測與防控。

為此，該文將人工智能與數(shù)據(jù)分析領(lǐng)域的數(shù)據(jù)挖掘算法引入到心理問題研究中，提出了基于隨機森林數(shù)據(jù)挖掘算法的心理問題預(yù)測方法。該方法通過對數(shù)據(jù)庫中的原始數(shù)據(jù)進行選擇、預(yù)處理、深度挖掘等操作，實現(xiàn)對知識的挖掘。同時，還能將挖掘出的知識通過可視化界面進行展示。最后三項實驗結(jié)果驗證了該文方法的有效性與可靠性，為有效監(jiān)測學(xué)生心理健康狀態(tài)，并及時采取對應(yīng)措施提供了重要參考。

1 數(shù)據(jù)挖掘

1.1 基本原理

數(shù)據(jù)挖掘（Data Mining，DM）是一種融合計算機學(xué)、人工智能、數(shù)據(jù)庫等多種學(xué)科的數(shù)據(jù)處理技術(shù)，其是數(shù)據(jù)庫知識發(fā)現(xiàn)（KDD）的重要環(huán)節(jié)[5-6]。具體是指從海量的、未處理的、模糊的應(yīng)用數(shù)據(jù)中，獲取隱藏在數(shù)據(jù)深層、人們之前不了解但是又具有研究意義的信息與知識的過程，這些信息包括趨勢、特征、規(guī)則以及相關(guān)性等。與傳統(tǒng)數(shù)據(jù)分析不同，數(shù)據(jù)挖掘所得出的結(jié)果不依賴于任何的假設(shè)，其能夠較大程度地避免主觀因素的影響，從而保證結(jié)果的客觀性與準確性。

一個典型的數(shù)據(jù)挖掘系統(tǒng)通常由數(shù)據(jù)源層、數(shù)據(jù)挖掘?qū)右约叭藱C交互層三部分組成[7-9]，具體如圖1 所示。

圖1 數(shù)據(jù)挖掘系統(tǒng)組成

其中，數(shù)據(jù)源層在功能上可以分為兩部分：

1）數(shù)據(jù)庫、數(shù)據(jù)倉庫以及一些其他的數(shù)據(jù)存儲器。其功能是存儲通過各種方式獲取到的信息數(shù)據(jù)。數(shù)據(jù)倉庫與數(shù)據(jù)庫所存儲的數(shù)據(jù)有所差異，區(qū)別主要在于數(shù)據(jù)庫中存儲的是未經(jīng)過任何處理的原始數(shù)據(jù)；而數(shù)據(jù)倉庫中則是包含一些為了滿足實際數(shù)據(jù)分析而對原始數(shù)據(jù)進行簡單處理后所得到的數(shù)據(jù)[10]。

2）數(shù)據(jù)（倉）庫服務(wù)器。其主要功能是根據(jù)用戶的個性化數(shù)據(jù)挖掘請求在數(shù)據(jù)庫等數(shù)據(jù)存儲器中調(diào)取符合要求的數(shù)據(jù)。

數(shù)據(jù)挖掘?qū)邮钦麄€系統(tǒng)的關(guān)鍵層，負責(zé)接收和處理用戶請求，同時反饋最終的數(shù)據(jù)挖掘結(jié)果，其包括數(shù)據(jù)挖掘引擎、知識庫等。

人機交互層負責(zé)給用戶提供一個與系統(tǒng)交互的可視化界面，用戶可通過該層輸入其所需信息。此外，數(shù)據(jù)挖掘系統(tǒng)也可通過該層將最終的數(shù)據(jù)處理結(jié)果直觀地反饋給用戶。

1.2 數(shù)據(jù)挖掘過程

數(shù)據(jù)挖掘通常是指從原始數(shù)據(jù)中獲取所需知識的完整過程。數(shù)據(jù)挖掘系統(tǒng)對數(shù)據(jù)的挖掘可分為三個階段[11]：數(shù)據(jù)準備、數(shù)據(jù)挖掘以及知識解釋與表達。其過程如圖2 所示。

圖2 數(shù)據(jù)挖掘過程

各環(huán)節(jié)的詳細解釋如下：

1）數(shù)據(jù)準備

數(shù)據(jù)挖掘所面對的是海量的數(shù)據(jù)，這些數(shù)據(jù)通常儲存在數(shù)據(jù)庫中，同時并未經(jīng)過任何加工處理，且無法直接用于深層信息的挖掘，因此需要首先進行數(shù)據(jù)準備。數(shù)據(jù)準備由數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理及數(shù)據(jù)轉(zhuǎn)換組成，數(shù)據(jù)選擇是指根據(jù)用戶的數(shù)據(jù)挖掘請求從數(shù)據(jù)庫中挑選出符合要求的原始數(shù)據(jù)，即目標數(shù)據(jù)；數(shù)據(jù)預(yù)處理則是為了解決原始數(shù)據(jù)中包含的諸多問題，例如噪聲、缺省等，該預(yù)處理內(nèi)容包括數(shù)據(jù)清洗、推導(dǎo)缺值數(shù)據(jù)、去除重復(fù)信息以及數(shù)據(jù)類型轉(zhuǎn)換等[12]；數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)從一種表現(xiàn)形式變成另一種表現(xiàn)形式的過程，將預(yù)處理后的數(shù)據(jù)轉(zhuǎn)換成所需的數(shù)據(jù)表現(xiàn)形式。數(shù)據(jù)準備是整個數(shù)據(jù)挖掘過程中耗時較長的一步，其質(zhì)量較大程度上影響了后續(xù)數(shù)據(jù)挖掘的效率及結(jié)果的準確性。

2）數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是整個系統(tǒng)的核心過程，也是技術(shù)難點所在，通過對目標數(shù)據(jù)的個性化分析，進而挖掘其內(nèi)在知識。這一步首先根據(jù)用戶需求確定具體的挖掘任務(wù)，然后根據(jù)挖掘任務(wù)確定最適合數(shù)據(jù)處理的數(shù)據(jù)挖掘算法，最后則是進行數(shù)據(jù)挖掘操作，以獲得最終結(jié)果[13]。目前常用的數(shù)據(jù)挖掘算法包括決策樹算法、隨機森林、邏輯回歸、支持向量機以及樸素貝葉斯算法等，在實際選擇中，需根據(jù)具體的挖掘任務(wù)確定。

3）知識解釋與表達

知識解釋與表達是指將數(shù)據(jù)挖掘的結(jié)果用可視化且易于理解的方式進行解釋與表達，從而確保用戶能夠了解知識的使用方式[14]。值得注意的是，數(shù)據(jù)挖掘階段所得到的結(jié)果可能存在冗余或無關(guān)的知識，此時就需要進行去除操作；此外，也有可能得到不滿足用戶需求的結(jié)果，則需要重新進行上述步驟。

2 心理問題預(yù)測

2.1 設(shè)計架構(gòu)

該文利用數(shù)據(jù)挖掘提出的心理問題預(yù)測技術(shù)主要是對心理數(shù)據(jù)的分析與處理，以便及時發(fā)現(xiàn)其中存在的問題。其具體的技術(shù)設(shè)計架構(gòu)如圖3 所示。

圖3 心理問題預(yù)測技術(shù)架構(gòu)

2.2 隨機森林

隨機森林（Random Forest，RF）是解決實際應(yīng)用中分類問題的一種高度、靈活的數(shù)據(jù)挖掘算法[15]。分類通常是指將待分類項按照一定規(guī)則映射到預(yù)先定義好的類的過程。隨機森林從根本上是若干相互獨立的“樹”共同完成數(shù)據(jù)分析的方法，其基本組成單元是決策樹。構(gòu)建隨機森林模型的示意圖如圖4 所示。

圖4 構(gòu)建隨機森林模型示意圖

上述過程可簡單描述為：首先根據(jù)實際需要將待處理數(shù)據(jù)集（訓(xùn)練數(shù)據(jù)集）進行隨機采樣，以此得到n個訓(xùn)練子集，各決策樹根據(jù)逐一對應(yīng)的訓(xùn)練子集獨立進行模型的學(xué)習(xí)與訓(xùn)練，進而得到n個不同的決策樹。這些決策樹既相互獨立又相互聯(lián)系，共同組成隨機森林。隨機森林中的“隨機”一方面體現(xiàn)在訓(xùn)練數(shù)據(jù)集的選擇“隨機”，另一方面也體現(xiàn)在決策樹訓(xùn)練時，屬性（特征）的選擇“隨機”。

利用隨機森林模型對新樣本數(shù)據(jù)進行處理時，其中包含的所有決策樹均會判斷該樣本應(yīng)屬于哪個類別，并進行內(nèi)部投票。進而選取最優(yōu)解作為隨機森林的分類預(yù)測結(jié)果。

2.3 Apriori算法

Apriori 算法是一種解決關(guān)聯(lián)規(guī)則問題的數(shù)據(jù)挖掘算法[16]，文中提出Apriori 算法的目的在于探尋海量信息之間的隱含聯(lián)系或相關(guān)性。其常用于挖掘信息中出現(xiàn)次數(shù)最多的信息集合（即頻繁集），這些集合通常能夠指導(dǎo)事務(wù)的決策。Apriori 算法的工作流程如圖5 所示。

圖5 Apriori算法工作流程示意圖

該算法在整體上可以分為兩個過程：連接過程和剪枝過程。其中，各自對應(yīng)的核心算法為候選項集產(chǎn)生函數(shù)和頻繁項集剪枝函數(shù)。Apriori 算法的工作流程可描述為：

1）對待處理數(shù)據(jù)集進行掃描，同時計算各項支持度，產(chǎn)生候選項集；

2）根據(jù)預(yù)先設(shè)定的最小支持度閾值，對候選項集中的數(shù)據(jù)進行過濾，形成頻繁項集；

3）對頻繁項集進行連接，形成新的候選項集，重復(fù)進行步驟2）直至滿足終止條件為止，即頻繁項集對應(yīng)的候選項集為空集；

4）輸出此時的頻繁項集，并將其進行連接，形成最終的關(guān)聯(lián)規(guī)則。

3 實驗測試

為了驗證該文提出的基于隨機森林數(shù)據(jù)挖掘方法的心理問題預(yù)測技術(shù)的有效性與可靠性，驗證方法性能是否滿足要求且功能是否完善，該文進行了三項實驗，分別為單元測試、性能測試及預(yù)測效果測試。

3.1 環(huán)境搭建

在進行實驗前需要搭建測試系統(tǒng)環(huán)境，相關(guān)環(huán)境信息如表1 所示。

表1 測試環(huán)境系統(tǒng)參數(shù)

3.2 單元測試

單元測試也稱為功能測試，是對系統(tǒng)、方法、算法等使用最廣泛的一種測試。單元測試是對組成模塊的獨立測試，主要是為了測試各組成模塊能否按設(shè)計要求實現(xiàn)所對應(yīng)的功能。該測試可以無需等到開發(fā)完成后進行，在設(shè)計開發(fā)階段便可展開。該項實驗的測試內(nèi)容及測試結(jié)果如表2 所示。

表2 單元測試結(jié)果

由表2 可知，利用該文方法建立的系統(tǒng)涉及到的各組成模塊均能夠按照設(shè)計需求較好地實現(xiàn)其所對應(yīng)的功能，并為后續(xù)進行的其他項測試奠定了良好的基礎(chǔ)。

3.3 性能測試

性能測試主要測試系統(tǒng)在多種正常、負載、峰值測試情況下的實際表現(xiàn)。通過多次實驗發(fā)現(xiàn)，利用該文方法建立的系統(tǒng)始終處于良好的工作狀態(tài)，并保持較高的運行速度。同時，CPU 使用率也低于預(yù)期值，且資源耗費較少。相關(guān)性能測試的結(jié)果如表3所示。

表3 性能測試結(jié)果

3.4 預(yù)測效果測試

最后是心理問題的預(yù)測效果測試。為了體現(xiàn)該文提出方法的優(yōu)勢，設(shè)置人工分析和關(guān)聯(lián)分析算法作為結(jié)果對照組。實驗數(shù)據(jù)為某高校的年度心理問卷調(diào)查結(jié)果，預(yù)測效果如表4 所示。

表4 不同算法的心理問題預(yù)測準確率

由4 表可以得出，該文預(yù)測準確率平均值為88.74%，而人工分析和關(guān)聯(lián)分析預(yù)測準確率平均值分別為68.22%和57.38%，該文方法對于心理問題預(yù)測的準確率明顯高于其他兩種方法，平均準確率能夠達到88.74%，這對于及時發(fā)現(xiàn)學(xué)生人群中所存在的心理問題具有重要意義。

4 結(jié)束語

該文介紹了數(shù)據(jù)挖掘系統(tǒng)的基本原理，分析了數(shù)據(jù)挖掘系統(tǒng)從原始數(shù)據(jù)中獲取所需知識的完整過程，根據(jù)數(shù)據(jù)挖掘中用來處理分類問題的隨機森林算法與用來處理關(guān)聯(lián)規(guī)則問題的Apriori 算法，提出了基于隨機森林數(shù)據(jù)挖掘方法的心理問題預(yù)測方法。采用該方法完成對系統(tǒng)的搭建并進行了單元測試、性能測試以及預(yù)測效果測試，測試結(jié)果表明，各組成模塊均能夠按照設(shè)計需求較好地實現(xiàn)對應(yīng)功能，且系統(tǒng)整體可在負載、正常、峰值下穩(wěn)定運行。