亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自然語言處理的結(jié)構(gòu)設(shè)計規(guī)范分類方法

        2022-10-27 11:40:22張吉松張慶森趙麗華任國乾
        土木建筑工程信息技術(shù) 2022年4期
        關(guān)鍵詞:分類文本

        張吉松 張慶森 趙麗華 劉 鑫 任國乾

        (1.大連交通大學土木工程學院,大連 116028; 2.大石橋建筑設(shè)計院有限公司,營口 115100; 3.卡迪夫大學工學院,英國威爾士卡迪夫CF24 3AA)

        引言

        BIM技術(shù)是推動建筑業(yè)向數(shù)字化、網(wǎng)絡(luò)化和智能化發(fā)展的重要載體,對促進傳統(tǒng)建設(shè)行業(yè)轉(zhuǎn)型升級發(fā)揮著越來越重要的作用。住建部在近些年發(fā)布一系列BIM模型審查標準,推進BIM審圖模式,提高信息化監(jiān)管能力和審查效率,提升建筑業(yè)信息化水平。基于BIM模型的審查(施工圖審查)是確保建筑設(shè)計質(zhì)量、保障設(shè)計工程建造的關(guān)鍵環(huán)節(jié),是進行BIM模型審查的發(fā)展趨勢[1]。

        目前,在世界范圍內(nèi)能夠支持或部分支持BIM合規(guī)性審查的系統(tǒng)和軟件平臺[2]包括:Solibri Model Checker(SMC)、EXPRESS Data Manager(EDM)、SMARTcodes、DesignCheck、LicA、CORENET和廣州的BIM審圖系統(tǒng)等。國內(nèi)外關(guān)于BIM自動化審查的科研方法包括:基于決策表[3]、基于對象表示法[4]、基于規(guī)則的語言方法[5]、基于邏輯的方法[6]以及基于語義規(guī)則語言的方法[7]等。盡管存在以上各種方法,但是目前還沒有一個特別有效且被廣泛接受的方法。Eastman及其團隊[4]將基于BIM的合規(guī)性審查大致分為四個階段:規(guī)范轉(zhuǎn)譯、模型準備、規(guī)則執(zhí)行和報告生成,其中規(guī)范轉(zhuǎn)譯是關(guān)鍵環(huán)節(jié)之一,在實現(xiàn)BIM自動化審查中扮演重要角色。

        規(guī)范轉(zhuǎn)譯是指將設(shè)計規(guī)范中的文本、表格、公式等內(nèi)容轉(zhuǎn)換為計算機可識別、可處理的特定格式,以便計算機推理。規(guī)范轉(zhuǎn)譯的第一步是將設(shè)計規(guī)范自動分類,以便為后續(xù)文本轉(zhuǎn)譯、規(guī)則提取和編碼做準備。規(guī)范轉(zhuǎn)譯的方法有很多,包括基于XML方法[8]、基于形式語言[9]、基于語義網(wǎng)方法[10]、基于自然語言處理(Natural Language Processing,NLP)[11]的方法等。一般情況下,NLP有兩種處理方式[12]:一種是基于規(guī)則來理解自然語言,另一種是基于統(tǒng)計方法的機器學習來理解自然語言。其中,基于機器學習的各種算法可以很好地實現(xiàn)文本的自動分類。

        目前,國內(nèi)外采用基于機器學習進行文本分類的研究較多。Hanika等人[13]利用最大熵分類器與樸素貝葉斯分類器相結(jié)合,通過對兩個分類器的結(jié)果進行線性組合的算子來預(yù)測查詢中的文檔類別; 朱文峰[14]利用傳統(tǒng)的文本特征提取方法和支持向量機(Support Vector Machine,SVM)進行數(shù)據(jù)挖掘與分析,同時為減少人為因素的影響,在充分考慮文本的語義信息的基礎(chǔ)上,利用神經(jīng)網(wǎng)絡(luò)學習的特點進行文本分類; Mursitama等人[15]根據(jù)提出的量化方法,將使用Nave-Bayes方法獲得的準確度值的結(jié)果與其它方法進行比較,以查看所用方法的有效性,從而來描述新聞文本分類機器學習的準確性; Salama[16]提出了一種基于語義的機器學習文本分類算法,將不同的文件和部分文件(如合同條款)用于支持自動化合規(guī)檢查結(jié)構(gòu)的一般條件分類子句中,將多標簽分類問題轉(zhuǎn)化為一組二分類問題; R. Kiran[17]等人提出一種將CNN與雙向LSTM的特性相結(jié)合的方法,從而解決情感極性分類的問題。盡管以上算法基本實現(xiàn)了文本的自動分類,但是在建筑設(shè)計領(lǐng)域中,國內(nèi)結(jié)構(gòu)設(shè)計規(guī)范有其自身的特點和復(fù)雜性以及語料庫的缺乏,故在此方面基于自然語言處理的結(jié)構(gòu)設(shè)計規(guī)范分類研究相對較少。

        為了實現(xiàn)人工智能化結(jié)構(gòu)設(shè)計規(guī)范審查,本文基于國內(nèi)外BIM模型合規(guī)性審查的研究現(xiàn)狀,結(jié)合國內(nèi)外結(jié)構(gòu)審計規(guī)范的實際情況,建立了建筑結(jié)構(gòu)設(shè)計領(lǐng)域語料庫。采用Python語言對結(jié)構(gòu)設(shè)計規(guī)范條文分類進行處理,提出了一種基于自然語言處理的設(shè)計規(guī)范自動分類的方法。本研究的分類目錄采用了基于IFC((Industry Foundation Classes,工業(yè)基礎(chǔ)類)的實體名稱,對《混凝土結(jié)構(gòu)設(shè)計規(guī)范》[18](GB 50010—2010,以下簡稱《混規(guī)》)與《建筑抗震設(shè)計規(guī)范》[19](GB 50011—2010,以下簡稱《抗規(guī)》)這兩本結(jié)構(gòu)設(shè)計規(guī)范進行分類。研究過程如下:首先,進行數(shù)據(jù)準備和文本預(yù)處理; 其次,進行特征提取和選擇; 最后,進行分類器的訓練、測試和評估。本研究為BIM模型審查中規(guī)范轉(zhuǎn)譯的自動分類提供了一種參考方法。

        1 數(shù)據(jù)準備與文本處理

        本文采用Python語言對結(jié)構(gòu)設(shè)計規(guī)范進行分類,原因如下:

        (1)Python語言設(shè)計風格上清晰簡約,語法簡單,具有開放軟件和代碼;

        (2)編寫程序時無需考慮如何管理程序使用的內(nèi)存一類的底層細節(jié);

        (3)可以被移植到Linux、Windows、Macintosh等眾多平臺;

        (4)不僅支持面向過程編程,還支持面向?qū)ο缶幊蹋?/p>

        (5)標準庫龐大,包括正則表達式、文檔生成等,以及其他與系統(tǒng)有關(guān)的操作;

        (6)Python解釋器把源代碼轉(zhuǎn)換為字節(jié)碼的中間形式,然后再把它翻譯成計算機使用的機器語言。在模型測試的開發(fā)環(huán)境中,為了更好地調(diào)試 Python語言代碼和運行,本研究的運行環(huán)境采用Pycharm作為使用Python語言開發(fā)平臺,用Anaconda作為管理Python運行環(huán)境和工具包下載的平臺,如表1所示。同時,下文所述的文本數(shù)據(jù)以及代碼操作等,都將所有目錄存儲在計算機的硬盤中。

        表1 文本分類運行環(huán)境

        IFC是一種非專有的、開放的數(shù)據(jù)模型技術(shù)規(guī)范,旨在實現(xiàn)建筑領(lǐng)域中建模軟件應(yīng)用程序之間的互操作性,進而實現(xiàn)工程項目中不同信息系統(tǒng)之間的信息共享。IFC最新版本包括大約850多個實體(Entity),358個屬性集和121種數(shù)據(jù)類型。通過了解國內(nèi)外BIM合規(guī)性審查的研究中發(fā)現(xiàn),Eastman[20]、Kang[21]、Pauwels[22]等人采用的方法都是基于分析IFC或數(shù)據(jù)結(jié)構(gòu)為基礎(chǔ)實現(xiàn)。因此,為了測試設(shè)計規(guī)范自動分類的可行性,本研究將IFC部分實體的名稱作為結(jié)構(gòu)設(shè)計規(guī)范條文的分類目錄,如梁(IfcBeam)、板(IfcSlab)、柱(IfcColumn)、墻(IfcWall)等。

        1.1 文本數(shù)據(jù)收集

        由于目前國內(nèi)現(xiàn)存的語料庫并沒有專門針對結(jié)構(gòu)設(shè)計領(lǐng)域的語料庫,因此,對該領(lǐng)域語料庫的建立進行了初步的嘗試,手動將其按照實體進行分類(即將文本按照類別分成多個Txt純文本文檔)作為語料庫。《混規(guī)》與《抗規(guī)》根據(jù)相關(guān)實體類別的章節(jié)與規(guī)范內(nèi)容,按照材料(IfcMaterialList)、鋼筋(IfcReinforcingBar)等各自分成6個相同的實體類別(如圖1所示),每個類別包含一個Txt文檔,文檔里面是該分類方面的內(nèi)容。文本手動分類時具有以下幾個原則:

        (1)根據(jù)每條規(guī)范內(nèi)容描述的實體分類;

        (2)當一條規(guī)范具有多個實體時,按照實體出現(xiàn)次數(shù)進行分類。例如《混規(guī)》11.3.6條第二款“框架梁梁端截面的底部和頂部縱向受力鋼筋截面面積的比值,除按計算確定外,一級抗震等級不應(yīng)小于0.5,二、三級抗震等級不應(yīng)小于0.3”,該規(guī)范文本可分到類別“梁(IfcBeam)”內(nèi)或分到類別“鋼筋”內(nèi),但是“梁”出現(xiàn)的次數(shù)高,因此分到類別“梁”內(nèi);

        (3)選取相關(guān)實體特征的內(nèi)容進行分類,對于不屬于任何類別的內(nèi)容(無用的特征)不進行選取,例如表格、圖片、公式等無特征信息。按照以上原則,將分類后的《混規(guī)》作為訓練集; 《抗規(guī)》作為測試集進行語料庫構(gòu)建。在建筑結(jié)構(gòu)設(shè)計領(lǐng)域,本文建立的語料庫是一個初步的嘗試,語料庫中的規(guī)范只提取了《混規(guī)》和《抗規(guī)》中的各自6個實體類別,共1 080條規(guī)范,數(shù)據(jù)庫較小。

        圖1 實體類別

        1.2 中文分詞

        結(jié)構(gòu)設(shè)計規(guī)范是由若干個章節(jié)構(gòu)成,章節(jié)是由很多款條文組成,條文是由很多個詞匯組成的,也就是規(guī)范條文的主要信息是詞匯。從這個角度來看,用一些關(guān)鍵詞來描述文檔方式是可行的。提取文檔中的關(guān)鍵詞,就得先對文檔進行分詞。分詞方式一般有兩種:第一種是字符串匹配; 第二種是統(tǒng)計和機器學習。分詞的精準度會對文本后續(xù)特征提取和選擇、訓練分類過程有很大的影響。所以選擇一種準確、快速的分詞算法極其重要。目前,在國際上支持分詞的工具中,有Jieba、HanLP、Jcseg、Sego、FoolNLTK、NLTY、SpaCy和StanfordcoreNLP等。其中Jieba分詞庫相較于其它分詞庫在中文分詞方面具有更加準確、使用簡單等特點。因此本文將1.1小節(jié)得到的原始語料文本采用統(tǒng)計和機器學習的分詞方式,通過下載Jieba分詞工具庫,導入相應(yīng)的Python環(huán)境,將各個文本內(nèi)容的文字序列切分成一個個單獨的詞匯或字,這樣才能在詞匯的基礎(chǔ)上,對文本進行分詞。

        運行Python語言,讀取語料庫中所有Txt文本,將6個實體分類的文本分別進行分詞; 通過Python語言來獲取每個目錄(類別)下的所有文件,將原文本多余的空格、空行、回車等無關(guān)緊要的字符去掉,變成只有標點符號做間隔的緊湊文本內(nèi)容; 最后通過Jieba庫中的算法對文本內(nèi)容進行分詞,最終得到分詞后的語料庫。以實體柱(IfcColumn)部分內(nèi)容為例,如圖2所示。

        圖2 部分設(shè)計條款(柱)分詞后的內(nèi)容

        本研究選擇Sklearn中Datas儲存數(shù)據(jù)方式,將分詞后的語料庫數(shù)據(jù)集通過創(chuàng)建Bunch實例,在Bunch對象中創(chuàng)建了四個成員Target-name、Label、Filenames和Contents,對文本數(shù)據(jù)集進行儲存。通過代碼運行,最終將訓練集與測試集進行數(shù)據(jù)轉(zhuǎn)化分別存儲在文件Train_word_bag和Test_word_bag中。

        2 特征提取和選擇

        2.1 構(gòu)建向量空間模型

        一般情況下,文本特征向量化的方法包括;

        (1)詞集模型:One-Hot編碼向量化;

        (2)詞袋模型和IDF結(jié)合:TF-IDF向量化文本;

        (3)哈希向量化文本。

        本研究選用第二種方法即詞袋模型與和TF-IDF結(jié)合。用向量空間模式對文本進行表示,所謂詞向量空間模型就是將文本表示為標識符向量的代數(shù)模型,是用來信息過濾、索引以及相關(guān)排序的過程。

        對分詞后的訓練集文本中的詞統(tǒng)一到同一個詞向量空間中,為節(jié)省空間,首先將訓練集中每個文本中一些垃圾詞匯去掉,調(diào)用相關(guān)函數(shù)進行去噪、刪減,訓練集中不規(guī)范且沒有意義的文本、標點符號及去掉標點符號和沒有意義的符號或數(shù)字等。本文采用詞作為特征項,對訓練集中的各個文本進行歸一化和權(quán)重賦值等處理,從而轉(zhuǎn)化為所需的詞向量模型。

        圖3 TF-IDF詞向量空間構(gòu)建

        2.2 構(gòu)建TF-IDF模型

        TF-IDF(詞頻—逆文檔頻率)算法[23]是一種評估字詞對語料庫中一份文件重要程度的統(tǒng)計方法。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比減少。該算法在數(shù)據(jù)挖掘、文本處理和信息檢索等領(lǐng)域得到了廣泛應(yīng)用,能夠經(jīng)過濾后保留出影響整個文本的關(guān)鍵字詞。TF(Term Frequency,詞頻),即一個單詞在文檔中出現(xiàn)的次數(shù)越多,次數(shù)越重要。IDF(Inverse Document Frequency,逆向文檔詞頻),即一個單詞在文檔中的區(qū)分度,一個單詞出現(xiàn)在文檔的次數(shù)越少,其對該文檔就越重要,就越能通過它把該文檔和其它文檔區(qū)分開。在規(guī)范分類中,一個單詞或字的TF-IDF實際上就是TF×IDF。TF-IDF越大,說明這個名詞對這篇文章的區(qū)分度就越高,TF-IDF值較大的幾個詞,就作為特征或關(guān)鍵詞。其中公式(2)為了避免分母為0(有些單詞不在文檔中出現(xiàn)),所以在分母上加1。

        TF與IDF計算公式如下:

        TF=單詞出現(xiàn)次數(shù)/文檔中總字數(shù)

        (1)

        IDF=log(總文檔數(shù)/含該單詞文檔數(shù)+1)

        (2)

        通過以上TF-IDF方式進行權(quán)重矩陣構(gòu)建,實現(xiàn)訓練集和測試集的所有文本詞向量空間統(tǒng)一。構(gòu)建權(quán)重矩陣語言編程的部分代碼圖3所示。在此代碼中,定義函數(shù)創(chuàng)建TF-IDF詞向量空間過程中讀取停用詞文件(Stopword_path),導入分詞后的詞向量Bunch對象,通過TfidfVectorizer函數(shù)設(shè)定閾值(Max_df)描述單詞在文檔中的最高頻率,構(gòu)建結(jié)構(gòu)設(shè)計規(guī)范文本中的特征詞頻,用Vectorizer.fit_transform(bunch.contents)語句得到TF-IDF權(quán)重矩陣,最后將計算得到的TF-IDF權(quán)重矩陣以.dat文件格式存放在Train_word_bag文件夾中。

        3 分類器的訓練、測試與評估

        3.1 分類器模型選擇

        傳統(tǒng)機器學習的文本分類方法主要包括基于概率的樸素貝葉斯分類器、基于實例可用非線性分類的K近鄰分類器、基于擅長處理二分類問題的統(tǒng)計學理論支持向量機分類器、基于處理兩分類問題的Logistic回歸線性分類器以及基于適合處理有缺失屬性值文本的決策樹分類器等。樸素貝葉斯分類器是貝葉斯方法中最常用的一種條件概率獨立的統(tǒng)計方法,樸素貝葉斯分類器簡單有效,在處理類似結(jié)構(gòu)設(shè)計規(guī)范類這種多屬性多特征數(shù)據(jù)集文本時,有著良好的應(yīng)用效果,在文本分類領(lǐng)域表現(xiàn)出了優(yōu)越的性能。因此,本文主要采用樸素貝葉斯分類算法來實現(xiàn)結(jié)構(gòu)設(shè)計規(guī)范的自動分類。

        3.2 貝葉斯原理及其樸素貝葉斯算法

        3.2.1 貝葉斯原理

        貝葉斯原理是英國數(shù)學家托馬斯·貝葉斯于18世紀提出,即“不能直接計算一件事情(A)發(fā)生的可能性大小,間接計算與這件事情有關(guān)的事情(X,Y,Z)發(fā)生的可能性大小,從而間接判斷事情(A)發(fā)生的可能性大小”。

        貝葉斯公式:

        (3)

        等號右邊分子部分,P(Bi)為先驗概率,P(A|Bi)為條件概率; 等號右邊整個分母部分為邊緣概率; 等號左邊P(Bi|A)為后驗概率,它是由先驗概率、條件概率與邊緣概率計算得出。

        3.2.2 樸素貝葉斯方法

        樸素貝葉斯[24]在貝葉斯的基礎(chǔ)上做了一個假設(shè),它假設(shè)多個特征之間互不影響、相互獨立,即事件A 與事件B的發(fā)生互不干擾,相互獨立。用數(shù)學公式表示如下:

        P(A,B)=P(A)×P(B)

        (4)

        樸素貝葉斯分類模型表示方法如圖4所示。

        圖4 樸素貝葉斯分類方法模型圖

        圖中表示(A,B,C……)為類別節(jié)點,ABC等是類別節(jié)點(A,B,C……)下文本表示的n個屬性結(jié)點,充分表明各個文本的獨立性,基于這一簡化算法,能夠大幅度降低運算時間,減少運算復(fù)雜程度,提高運算效率,從而降低成本。

        基于樸素貝葉斯算法的文本分類中,首先需要構(gòu)造的是每個類別的特征向量空間。有一個屬性為m的待分類文檔Di(x1,x2,x3,……,xm),其中文本的m個屬性描述為Xi(i=1,2,……,m)。如果A為類別集合,訓練集分成n類特征向量空間,即A={A1,A2,……,An},因此每個文本類別就有一個表示該類別文本的特征向量空間。然后將文本D屬于類別Ai的概率表示為P(Ai|D),尋找使P(Ai|D)最大的類別Ai(其中 i=1,2,……,n)是分類的主要任務(wù)。根據(jù)公式式(3)用P(Ai|D)(i=1,2,……,n)計算得到每個類別的條件概率。最后,對得出的眾多后驗概率進行比較大小,找到的最大的那個概率的類別則是該文檔所屬的類別。通過公式表示得出:P(Ak|D)=max{P(A1|D),……,P(An|D)},則D∈Ak。因此,基于樸素貝葉斯算法的文本分類關(guān)鍵步驟是P(Ak)和P(Ak|D)的計算,這個過程也是模型訓練的過程。

        3.3 樸素貝葉斯的實現(xiàn)

        Sklearn(全稱Scikit-Learn)是基于Python語言的機器學習工具,具有簡單高效的數(shù)據(jù)挖掘與分析、在復(fù)雜環(huán)境中可重復(fù)使用等特點。Sklearn包括六大任務(wù)模塊,分別是分類、回歸、聚類、降維、模型選擇和預(yù)處理。本研究將用到分類模塊進行操作。Sklearn庫中的Naive_Bayes模塊實現(xiàn)了4種樸素貝葉斯算法:

        (1)伯努利樸素貝葉斯(Naive_Bayes.BernoulliNB類):適用于離散型數(shù)據(jù),適合特征變量是布爾變量,符合0/1分布,在文檔分類中特征是單詞是否出現(xiàn);

        (2)高斯樸素貝葉斯(Naive_Bayes.GaussianNB類):適用于特征變量是連續(xù)型數(shù)據(jù),符合高斯分布;

        (3)多項式樸素貝葉斯(Naive_Bayes.MultinomialNB類):適用于特征變量是離散型數(shù)據(jù),符合多項分布。在文檔分類中特征變量體現(xiàn)在一個單詞出現(xiàn)的次數(shù),或者是單詞的TF-IDF值等;

        (4)補充樸素貝葉斯(Naive_Bayes.Complement NB類):多項式樸素貝葉斯算法的一種改進。

        本文結(jié)合結(jié)構(gòu)審計規(guī)范與4種樸素貝葉斯的特點相比較,最終選取多項式樸素貝葉斯函數(shù)獲取訓練集的權(quán)重矩陣和標簽,進行訓練,然后獲取測試集的向量化空間,進行預(yù)測(給出預(yù)測標簽)。在樸素貝葉斯應(yīng)用中,首先導入多項式貝葉斯,然后讀取Bunch對象,導入訓練集和測試集,通過在訓練分類器中輸入詞袋向量和分類標簽。如果一個單詞在訓練樣本中沒有出現(xiàn),這個單詞的概率就會是0。但訓練集樣本只是整體的抽樣情況,不能因為沒有觀察到,就認為整個事件的概率為0。為了解決這個問題,需要做平滑處理:在0

        圖5 樸素貝葉斯分類方法模型

        3.4 模型的評估和預(yù)測

        分類結(jié)果采用精確率、召回率和F1分數(shù)作為實驗結(jié)果的衡量標準,如公式(5)~(7)所示。其中TP為是將正類預(yù)測為正類數(shù)、TN是將負類預(yù)測為負類數(shù)、FP是將負類預(yù)測為正類數(shù)(誤報)、FN是將正類預(yù)測為負類數(shù)(漏報)。

        精確率:是針對預(yù)測結(jié)果,其含義是在被所有預(yù)測為正的樣本中實際為正樣本的概率,表達式如下:

        (5)

        召回率:是針對原樣本,其含義是在實際為正的樣本中被預(yù)測為正樣本的概率,表達式如下:

        (6)

        F1分數(shù)(F1-score):同時考慮精確率和召回率,讓兩者同時達到最高,取得平衡,表達式如下:

        (7)

        為評估本文研究模型在結(jié)構(gòu)設(shè)計規(guī)范文本分類中的效果,分別與支持向量機、K鄰近法的模型進行對比。在對比實驗中,訓練和測試時的各項參數(shù)保持一致,評價指標采用精確率、召回率、F1分數(shù)值,為方便對比,指標結(jié)果全部選取6個類別的平均值,得出各模型的評價結(jié)果,如表2所示。

        表2 文本分類測試結(jié)果

        將其它兩種相關(guān)模型與本文提出的方法進行比較,通過測試結(jié)果發(fā)現(xiàn):樸素貝葉斯算法相比于支持向量機,F(xiàn)1分數(shù)值提高了16.7%; K鄰近算法,F(xiàn)1分數(shù)值提高了36.1%; 采用樸素貝葉斯算法得到預(yù)測的評價指標,平均精度為75.0%、平均召回率為83.3%、F1分數(shù)為77.8%,測試結(jié)果優(yōu)于其他對比實驗,具有較好的分類效果,驗證了本文思路的有效性。

        4 結(jié)論

        很多年來,手動進行施工圖合規(guī)性檢查通常耗時、主觀易錯且耗費資源,BIM技術(shù)的出現(xiàn)使得未來實現(xiàn)自動化和智能化合規(guī)性檢查成為可能。規(guī)范轉(zhuǎn)譯和規(guī)則提取是BIM模型合規(guī)性審查的重要步驟,而充分實現(xiàn)規(guī)范轉(zhuǎn)譯和規(guī)則提取的第一步是設(shè)計條款的自動分類。由于IFC是目前世界各國普遍采用的BIM交換格式,因此,基于IFC的設(shè)計規(guī)范自動分類是重要的基礎(chǔ)工作。

        本研究通過Jieba分詞庫對語料庫進行分詞,利用TF-IDF模型進行空間特征權(quán)重矩陣的構(gòu)建,通過樸素貝葉斯分類器對語料庫進行分類,從而對模型進行評估與預(yù)測。根據(jù)測試結(jié)果表明,本文基于機器學習的文本分類算法,提出的結(jié)構(gòu)設(shè)計規(guī)范自動分類方法,在實現(xiàn)結(jié)構(gòu)設(shè)計規(guī)范文本自動分類的過程中取得了較好的效果。同時,本研究只是一個初步的嘗試,今后還需要進行更深入的研究和完善,主要包括:

        (1)目前國內(nèi)現(xiàn)存的語料庫并沒有結(jié)構(gòu)設(shè)計領(lǐng)域的語料庫,本文根據(jù)IFC實體名稱,對結(jié)構(gòu)設(shè)計中最常用的《混規(guī)》和《抗規(guī)》兩本規(guī)范進行整理,初步建立了建筑結(jié)構(gòu)設(shè)計領(lǐng)域的語料庫。由于《混規(guī)》和《抗規(guī)》僅是眾多結(jié)構(gòu)設(shè)計規(guī)范中的兩本,在以后的研究中,可以考慮擴展到其余結(jié)構(gòu)設(shè)計規(guī)范以及規(guī)范內(nèi)容的全面性,例如圖表信息、其它描述性語言等。在大規(guī)模的結(jié)構(gòu)設(shè)計語料庫上進行訓練,對訓練結(jié)果進行綜合分析,從而最終實現(xiàn)所有結(jié)構(gòu)設(shè)計規(guī)范的自動分類。

        (2)關(guān)于論文1.2小節(jié)中文分詞,是文本分類前的一項關(guān)鍵步驟,對后面分類器的構(gòu)建起著至關(guān)重要的作用。因此,在以后的分詞研究中,應(yīng)提高此方面的分詞效果,從而提高算法的準確率。Jieba對于未登錄詞,采用隱馬爾科夫(HMM)和Viterbi算法,在今后可以嘗試更多方法(例如N-gram)進行詞向量訓練。同時,特征提取和選擇是文本分類最為關(guān)鍵的步驟之一,除了以計數(shù)向量和TF-IDF向量作為特征以外,今后還可以采用詞嵌入作為特征(例如Word2vec,GloVe等)、基于文本的特征和以主體模型作為特征來進行特征識別。

        (3)在機器學習中,可以用作本文分類的算法有很多,例如邏輯回歸、K-臨近(KNN)、支持向量機(SVM)、樸素貝葉斯和決策樹等等。本文主要描述了樸素貝葉斯算法,該算法是通過統(tǒng)計特征項頻率來計算特征項的權(quán)重方法,但是它建立在獨立條件和獨立位置假設(shè)的基礎(chǔ)上,在現(xiàn)實文本中,這兩個假設(shè)是不成立的。因此,在以后的測試中,可以加強特征間可能存在的依賴關(guān)系,采用Bigram或N-gram等模型相結(jié)合的方式來削弱樸素貝葉斯的條件獨立假設(shè)從而進行優(yōu)化。同時,將今后更多的算法可以應(yīng)用到結(jié)構(gòu)設(shè)計規(guī)范的分類中,以便探尋最優(yōu)的方法。

        (4)從本研究的結(jié)果來看,精確率和召回率雖然能夠滿足一定要求,但仍然有較大的提升高空間。這個現(xiàn)象的原因是多方面的,(例如語料庫、和算法選擇和,特征識別等原因),其中一個重要原因是,機器學習本身的查準率問題。然而,深度學習需要大量的文本數(shù)據(jù)作為支撐,在未來可以嘗試在深度學習中使用遷移學習,以便更適用于專業(yè)領(lǐng)域的小樣本數(shù)據(jù)問題(例如結(jié)構(gòu)設(shè)計規(guī)范分類)。

        猜你喜歡
        分類文本
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        91青青草在线观看视频| 97精品国产手机| 日韩毛片在线| 久久久婷婷综合五月天| 精品亚洲国产日韩av一二三四区| 中文字幕有码无码人妻av蜜桃| 国产免费丝袜调教视频| 手机看片国产日韩| 国产在线视频一区二区三| 免费a级毛片无码免费视频首页| 国产97色在线 | 日韩| 午夜无码一区二区三区在线| 国产av一区仑乱久久精品| 国产av自拍视频在线观看| 五级黄高潮片90分钟视频| 亚洲都市校园激情另类| 中文字幕乱码在线婷婷| 人妻少妇被粗大爽.9797pw| 欧美性开放bbw| 538亚洲欧美国产日韩在线精品 | 国产亚洲中文字幕久久网| 色一情一乱一伦麻豆| 国产亚洲av手机在线观看| 亚洲中文字幕女同一区二区三区 | 亚洲va中文字幕无码一二三区| 福利视频一二三在线观看| 大屁股少妇一区二区无码| 亚洲av成人一区二区| 中文字幕乱码一区av久久不卡| 激情五月婷婷综合| 国产91精品清纯白嫩| av天堂午夜精品一区| 色偷偷av亚洲男人的天堂| 国产日韩三级| 亚洲中文字幕九色日本| 一区二区三区国产| 免费毛片性天堂| 免费av一区男人的天堂| 99久久99久久精品免费看蜜桃 | 日本av一区二区在线| 国内精品久久久人妻中文字幕|