亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于IFC標(biāo)準(zhǔn)的BIM自適應(yīng)分詞方法

        2021-05-13 13:31:42周小平
        圖學(xué)學(xué)報(bào) 2021年2期
        關(guān)鍵詞:分詞術(shù)語(yǔ)語(yǔ)料

        張 鑫,周小平,2,王 佳,2

        基于IFC標(biāo)準(zhǔn)的BIM自適應(yīng)分詞方法

        張 鑫1,周小平1,2,王 佳1,2

        (1. 北京建筑大學(xué)電氣與信息工程學(xué)院,北京 100044; 2. 建筑大數(shù)據(jù)智能處理方法研究北京市重點(diǎn)實(shí)驗(yàn)室,北京 102616)

        建筑信息模型(BIM)已經(jīng)成為建筑行業(yè)信息技術(shù)應(yīng)用的有效方案。隨著BIM數(shù)據(jù)不斷增長(zhǎng),為了高效使用BIM數(shù)據(jù),很多研究將自然語(yǔ)言處理(NLP)引入BIM應(yīng)用中。在中文環(huán)境中,由于缺乏建筑行業(yè)的術(shù)語(yǔ)特征,導(dǎo)致基礎(chǔ)環(huán)節(jié)的中文分詞在建筑領(lǐng)域BIM應(yīng)用中的適應(yīng)性較差。通過分析當(dāng)前流行的BIM數(shù)據(jù)格式工業(yè)基礎(chǔ)類(industry foundation class, IFC)文件,從中提取BIM模型特征,配合建筑領(lǐng)域術(shù)語(yǔ)特征加入分詞模型中,以提高中文分詞在建筑領(lǐng)域的性能。實(shí)驗(yàn)結(jié)果表明,與原始條件隨機(jī)場(chǎng)(CRF)分詞模型相比,在建筑領(lǐng)域測(cè)試集上,分詞模型的F-measure提高了1.26%,其中,在僅加入BIM模型特征時(shí),F(xiàn)-measure提升了0.10%,說明在分詞模型中加入BIM模型特征對(duì)于提高中文分詞在建筑領(lǐng)域的性能是有效的。同時(shí),在BIM模型測(cè)試集上,相較于僅加入建筑領(lǐng)域術(shù)語(yǔ)特征,在加入BIM模型特征后,準(zhǔn)確率從46.97%提升至87.74%,召回率從67.60%提升至94.77%,F(xiàn)-measure從55.43%提升至91.12%,提升了35.69%,有效提高了中文分詞在建筑領(lǐng)域的BIM模型自適應(yīng)性。

        建筑信息模型;工業(yè)基礎(chǔ)類;中文分詞;模型自適應(yīng);建筑信息提取

        建筑信息模型(building information model,BIM)是記錄建筑設(shè)施物理特性與功能特性的數(shù)字信息模型[1]。BIM包含了建筑全生命周期中各階段的詳細(xì)信息,實(shí)現(xiàn)了其數(shù)據(jù)的互操作性,促進(jìn)了建筑工程項(xiàng)目各參與方的有效協(xié)同[2]。目前,BIM已成為建筑工程行業(yè)(architecture,engineering and construction,AEC)工程信息化的有效解決方案和重要趨勢(shì)[3],并在AEC內(nèi)得到了廣泛地研究和應(yīng)用[4]。

        隨著項(xiàng)目的不斷推進(jìn),作為記錄建筑全部信息的知識(shí)庫(kù),BIM的數(shù)據(jù)量也在不斷增大[5]。隨之,信息超載的問題日益凸顯,用戶在BIM應(yīng)用中獲取所需要的信息時(shí)更加困難[6]。隨著搜索引擎和新型信息系統(tǒng)的不斷發(fā)展,用戶習(xí)慣于利用自然語(yǔ)言來進(jìn)行檢索數(shù)據(jù)等操作。

        在建筑領(lǐng)域中,為了提高BIM數(shù)據(jù)的使用效率,一些研究探索了自然語(yǔ)言處理(natural language processing,NLP)在各種BIM系統(tǒng)中的應(yīng)用。WU等[7]提出了一種基于自然語(yǔ)言的BIM目標(biāo)數(shù)據(jù)庫(kù)和Revit建模智能搜索引擎,通過構(gòu)建領(lǐng)域本體,從用戶的自然語(yǔ)句中提取目標(biāo)關(guān)鍵字并限制序列,結(jié)合關(guān)鍵字和約束序列的概念形成最終的查詢,且通過本體中的語(yǔ)義關(guān)系對(duì)查詢概念進(jìn)行擴(kuò)展,最終在BIM數(shù)據(jù)庫(kù)中進(jìn)行檢索。實(shí)驗(yàn)結(jié)果表明,該方法的性能優(yōu)于傳統(tǒng)的基于關(guān)鍵字的方法。LIU等[8]提出了一種用于建筑業(yè)產(chǎn)品模型檢索的顯示語(yǔ)義分析方法,即利用擴(kuò)展算法來解決術(shù)語(yǔ)不足問題,其次,提出了一種新的重定位方法解決概念粒度問題。實(shí)驗(yàn)結(jié)果表明,該方法顯著提高了產(chǎn)品模型檢索的性能。XIE等[9]結(jié)合BIM和NLP提出了將真實(shí)世界的設(shè)備同BIM項(xiàng)目中的構(gòu)件相匹配的方法,并利用實(shí)際工程驗(yàn)證了該方法的有效性。然而,以上應(yīng)用和方法在中文信息處理場(chǎng)景中的應(yīng)用前提假設(shè)是可以正確的分詞,但這些研究對(duì)于中文場(chǎng)景中的分詞環(huán)節(jié)均未進(jìn)行深入的探索和研究。本文提高中文分詞在BIM應(yīng)用中的自適應(yīng)性,可以有效提高上述應(yīng)用和方法在中文場(chǎng)景下的可用性。

        因此,本文從BIM模型入手,首先以工業(yè)基礎(chǔ)類(industry foundation class,IFC)文件為數(shù)據(jù)來源提取BIM模型信息。然后,以公共語(yǔ)料庫(kù)為基礎(chǔ)語(yǔ)料,分別將建筑領(lǐng)域術(shù)語(yǔ)特征和BIM模型特征信息標(biāo)注后加入訓(xùn)練語(yǔ)料,利用條件隨機(jī)場(chǎng)(conditional random fields,CRF)方法訓(xùn)練分詞模型。最后,構(gòu)建建筑領(lǐng)域測(cè)試集和BIM模型測(cè)試集,利用測(cè)試集驗(yàn)證本文方法的有效性。根據(jù)調(diào)查,在建筑領(lǐng)域的BIM智能信息場(chǎng)景和基于BIM的決策輔助應(yīng)用中,本文研究是非常有必要且可行的[10]。

        1 提取BIM模型特征

        BIM是工程設(shè)施實(shí)體及其特性的完整數(shù)字化表達(dá),旨在實(shí)現(xiàn)建筑全生命周期的信息集成和共享。作為貫穿建筑生命周期的信息交互方式,BIM被視為解決建筑行業(yè)“信息孤島”和“信息流失”等問題的有效手段[11]。 IFC是一個(gè)開放和標(biāo)準(zhǔn)化的數(shù)據(jù)庫(kù),旨在實(shí)現(xiàn)AEC行業(yè)中構(gòu)建信息建模軟件應(yīng)用程序之間的互操作性,從而能夠在建筑物的整個(gè)生命周期實(shí)現(xiàn)高效率的信息流轉(zhuǎn)[12]。在各種建筑數(shù)據(jù)模型交換格式中,IFC標(biāo)準(zhǔn)是當(dāng)今世界各國(guó)政府和機(jī)構(gòu)采用最廣泛的公共開放數(shù)據(jù)模型[13]。IFC提供了可行的擴(kuò)展機(jī)制和明確的語(yǔ)義信息結(jié)構(gòu),為獲取BIM中的信息奠定了堅(jiān)實(shí)的基礎(chǔ)。本文對(duì)IFC中的信息進(jìn)行分析,提取所需要的模型特征其僅指中文分詞所需要的模型術(shù)語(yǔ)信息。

        IFC只允許直接使用ISO8859-1編碼表十進(jìn)制32-126表示的字符[14]。任何其他的字符如中文漢字字符,在作為部分字符串值進(jìn)行數(shù)據(jù)交換之前均需要經(jīng)過編碼。編碼規(guī)則和解碼規(guī)則在ISO10303-21工業(yè)自動(dòng)化系統(tǒng)集成-產(chǎn)品數(shù)據(jù)表示和交換第21部分中介紹。例如在實(shí)際文件中的內(nèi)容編碼“X2987690E8504F79FBX0”字符串對(duì)應(yīng)的解碼內(nèi)容為中文字符“頂部偏移”。其中,字符“S”為基本字母表中的字符,可代表擴(kuò)展字母表中的相應(yīng)位置的字符;字符“X”出現(xiàn)在一個(gè)字符串中表明下2個(gè)十六進(jìn)制字符應(yīng)該解釋為一個(gè)8位字符;字符“X2”表示之后4個(gè)十六進(jìn)制字符的倍數(shù)序列應(yīng)該看作雙字節(jié)的編碼表示字符;字符“X4”表示之后的8個(gè)十六進(jìn)制字符的倍數(shù)序列可用全編碼空間的四字節(jié)表示。任何情況下,“X0”用來表示字符串編碼的結(jié)束和一個(gè)在基本字母表中直接編碼的返回標(biāo)志。

        1.1 模型特征信息

        IFC標(biāo)準(zhǔn)定義了眾多的建筑構(gòu)件實(shí)體及大量的模型構(gòu)件語(yǔ)義信息,包括建筑內(nèi)的項(xiàng)目信息,構(gòu)件之間的關(guān)聯(lián)關(guān)系和屬性信息,如項(xiàng)目周期、成本等模型基本信息。圖1為北京建筑大學(xué)圖書館項(xiàng)目,以IFC結(jié)構(gòu)為例,BIM中包含了很多個(gè)性化的模型信息,其中,不僅有對(duì)象名稱信息和屬性信息等模型術(shù)語(yǔ)信息,還有空間信息、項(xiàng)目信息、構(gòu)件關(guān)系信息等。例如“圖書館建筑外墻”在這里是指模型中的一個(gè)墻構(gòu)件對(duì)象的名稱,諸如“底部偏移”、“頂部偏移”等均是模型內(nèi)的屬性名稱,這部分模型特征術(shù)語(yǔ)是增強(qiáng)BIM模型自然語(yǔ)言理解的有效信息。在BIM信息處理過程中,主要是由于模型術(shù)語(yǔ)特征的缺失導(dǎo)致了分詞性能的不佳。因此,本文需要在IFC文件中將BIM模型的特征術(shù)語(yǔ)進(jìn)行收集并形成模型術(shù)語(yǔ)詞典,將其分為對(duì)象名稱、屬性名稱和其他價(jià)值。圖1中,對(duì)象名稱包括屬性Name的值,而屬性名稱是定義所有IFC對(duì)象屬性的名稱列表。由于一些屬性或?qū)傩灾翟贐IM模型中可能是獨(dú)有的,這些屬性值屬于第3類。對(duì)于IFCSpace對(duì)象,在Name屬性被賦予編號(hào)之后,其名稱會(huì)存儲(chǔ)在LongName屬性中。

        圖1 BIM中的構(gòu)件名稱信息和屬性名稱信息

        IFC標(biāo)準(zhǔn)經(jīng)過數(shù)十年的發(fā)展,截止目前,IFC中擁有超過653個(gè)實(shí)體和300多個(gè)補(bǔ)充數(shù)據(jù)類型以及可擴(kuò)展的屬性集。圖2描述了IFC標(biāo)準(zhǔn)語(yǔ)義要素以及要素之間的關(guān)聯(lián)關(guān)系,IFC標(biāo)準(zhǔn)定義了大量的建筑構(gòu)件類,包括IfcWall、IfcDoor、IfcBeam、IfcSlab、IfcColumn、IfcStair等,這些構(gòu)件類均繼承于IfcBuildingElement,其是建筑構(gòu)件類的父級(jí);IfcOpeningElement為建筑物的開口要素類,其作用是明確構(gòu)件要素之間的包含關(guān)系,例如IfcWindow與IfcWall就需要IfcOpeningElement來充當(dāng)中間要素;IfcSpitialStructureElement代表的是IFC的空間結(jié)構(gòu)要素,其繼承類包括IfcProject、IfcSite、IfcBuilding、IfcBuildingStorey、IfcSpace,這些類分別代表了空間結(jié)構(gòu)的不同級(jí)別,不同層的空間要素需要IfcRelAggregates連接類進(jìn)行連接,IfcElement與IfcSpatialStructureElement的連接也同樣需要通過IfcRelAggregates來實(shí)現(xiàn)。在buildingSMART發(fā)布的IFC 4.0說明文檔[15]中,表1給出了幾條定義,為本文所需要的BIM模型特征信息。

        1.2 提取模型特征信息

        通過1.1節(jié)對(duì)BIM模型特征的定義,本文對(duì)IFC文件進(jìn)行分析,IFC文件結(jié)構(gòu)如圖3所示。在IFC標(biāo)準(zhǔn)中,IfcRoot是所有實(shí)體類定義的最抽象的根類。IfcRoot的第3個(gè)參數(shù)即為Name屬性的值,換言之,第3個(gè)參數(shù)即為IFC實(shí)例的對(duì)象名稱。圖3展示了編號(hào)為#21134的IFCSpace實(shí)例。其中,第1個(gè)參數(shù)“3TW89BcuP5$PFoInu5k$Jg”是該實(shí)例的GUID,第2個(gè)參數(shù)“#33”定義了#21134的所有權(quán)信息,第3個(gè)參數(shù)“202”即#21134的名稱。顯然,提取給定IFC實(shí)例的Name屬性是可行的。

        LongName屬性僅在具有專業(yè)名稱的類中定義。例如在IfcSpatialStructureElement中,其表示空間名稱的全稱,如圖3所示,IfcSpace實(shí)例#21134作為IfcSpatialStructureElement的子類,第8個(gè)參數(shù)為“X28D705ECAX0”,解碼后為“走廊”即為L(zhǎng)ongName的值。

        IFC屬性主要由IfcProperty,IfcExtended Properties和IfcPropertyEnumeration等實(shí)例來描述。屬性名是IfcProperty,IfcExtendedProperties和IfcPropertyEnumeration中的第一個(gè)屬性。因此,可以直接從IfcProperty,IfcExtendedProperties和IfcPropertyEnumeration實(shí)例中的第一個(gè)屬性的值獲得屬性名。以IfcPropertySingleValue #21261為實(shí)例。IfcPropertySingleValue類是IfcProperty的子類。第一個(gè)屬性的值是“X2987690E8504F79FBX0”,解碼后是“頂部偏移”,其是IfcSpace實(shí)例#21134的屬性名之一。

        圖2 IFC標(biāo)準(zhǔn)語(yǔ)義要素

        表1 IFC 4.0中定義的模型信息

        圖3 IFC文件中的模型特征

        表2列出了BIM模型專有詞匯表需要收集的IFC實(shí)例屬性值,其中包括IFC類型,該類型需要提取的屬性名稱,以及待提取參數(shù)的位置和參數(shù)的信息。算法1總結(jié)了BIM模型特征提取的整個(gè)過程。假設(shè)一個(gè)IFC文件有||個(gè)IFC實(shí)例,IFC標(biāo)準(zhǔn)定義了個(gè)類,可以計(jì)算出算法1的時(shí)間復(fù)雜度為(× ||)。

        算法1. BIM模型特征提取

        輸入:IFC file

        輸出:BIM特征詞典D

        1. function BIMDicExtract():

        2. BIM dictionary D = {}

        3. for each instancein:

        4.class of

        5. ifis a class or subclass of IfcRoot:

        6.= value of 3rdparameter

        7. D = D∪ {}

        8. end if

        9. ifis a class or subclass of IfcSpatialElement:

        10.= value of 8thparameter

        11. D = D∪ {}

        12. end if

        13. ifis a class or subclass of IfcProperty

        or IfcExtendedProperties

        or IfcPropertyEnumeration:

        14.= value of 1stparameter

        15. D = D ∪ {}

        16. end if

        17. end for

        18. Remove empty values from D.

        19. returnD

        表2 BIM模型特征提取參數(shù)

        2 訓(xùn)練BIM自適應(yīng)分詞模型

        中文分詞是將中文文本(漢字序列)分割成單詞的任務(wù),作為NLP領(lǐng)域中文信息處理的基礎(chǔ)性工作,在搜索引擎、文本分類、自動(dòng)摘要等任務(wù)上均發(fā)揮重要作用。自從XUE[16]將中文分詞任務(wù)抽象成序列標(biāo)注問題以來,CRF成為了統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法中的主流[17]。當(dāng)前,以卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork,RNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(short - and long-term memory networks, LSTM)等深度學(xué)習(xí)模型在NLP任務(wù)上的性能不斷提升,受限于訓(xùn)練資源和代碼遷移等客觀條件,本文采用了CRF結(jié)合特征詞典的方法訓(xùn)練自適應(yīng)分詞模型。

        2.1 訓(xùn)練基礎(chǔ)分詞模型

        CRF在建模時(shí)考慮了數(shù)據(jù)的內(nèi)容信息和數(shù)據(jù)標(biāo)簽之間的變化信息,其相關(guān)模型在基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的NLP任務(wù)中取得了較好的結(jié)果[18]。在基于字標(biāo)注的序列標(biāo)注問題中,句子中的每個(gè)字符可根據(jù)其在詞中的位置進(jìn)行分類,在當(dāng)前使用最廣泛的4-tag標(biāo)記法中,共分為,,,4類。其中,代表該字符是在一個(gè)詞的開始;表示在一個(gè)詞的中間位置;表示在一個(gè)詞的結(jié)束位置;表示該字符可以獨(dú)立地構(gòu)成一個(gè)詞。如圖4所示即一個(gè)中文分詞序列標(biāo)注示例。

        圖4 中文分詞序列標(biāo)注示例

        其中,為標(biāo)注語(yǔ)料的取值;為字狀態(tài)的取值;為特征函數(shù);為對(duì)應(yīng)的權(quán)值;()為標(biāo)準(zhǔn)化因子,是所有可能的狀態(tài)序列之和,即

        在本文中CRF中文分詞模型所使用的基本特征見表3。其中下標(biāo)代表著距離當(dāng)前字符的相對(duì)位置,例如1表示當(dāng)前字符的下一個(gè)字符。(0,1)表示0和1是否為2個(gè)完全一樣的字符,(C)表示字符C的類型。

        表3 CRF中所使用的基本特征

        2.2 分詞自適應(yīng)性的實(shí)現(xiàn)

        一直以來,統(tǒng)計(jì)中文分詞都面臨著專業(yè)領(lǐng)域適應(yīng)性的問題,這是因?yàn)樵谟?xùn)練語(yǔ)料中缺乏專業(yè)領(lǐng)域特征所導(dǎo)致的[19]。在BIM模型中,許多空間和構(gòu)件的屬性信息是項(xiàng)目中所獨(dú)有的,同時(shí)由于這些特征過于分散,難以形成大規(guī)模的標(biāo)注語(yǔ)料,因此,本文將BIM模型特征提取成模型特征詞典,采用將術(shù)語(yǔ)相關(guān)特征標(biāo)注后加入訓(xùn)練語(yǔ)料重新訓(xùn)練分詞模型,通過將術(shù)語(yǔ)特征融入統(tǒng)計(jì)中文分詞模型的方法,提升分詞模型的適應(yīng)性。在本文實(shí)驗(yàn)中發(fā)現(xiàn),融入術(shù)語(yǔ)特征后,模型對(duì)于詞的分割位置表現(xiàn)較好,然而對(duì)于較長(zhǎng)的術(shù)語(yǔ)則表現(xiàn)不佳,因此,本文在分詞流程中增加了利用最大匹配方法來進(jìn)行合并分詞結(jié)果的環(huán)節(jié),其自適應(yīng)分詞優(yōu)化流程如圖5所示。

        圖5 BIM分詞優(yōu)化流程

        在中文分詞中,首先需提取原始自然語(yǔ)言的序列特征,由CRF分詞模型進(jìn)行序列標(biāo)注,得到初始序列*。然而,由于缺少BIM模型特征,原始語(yǔ)料訓(xùn)練的分詞模型得到的序列*在模型術(shù)語(yǔ)上面的正確性還不足以滿足BIM應(yīng)用的需要。因此,需要利用BIM模型征調(diào)整序列標(biāo)注,通過將詞典特征標(biāo)注后加入訓(xùn)練語(yǔ)料訓(xùn)練模型可以將術(shù)語(yǔ)特征有效地應(yīng)用到標(biāo)注調(diào)整中,對(duì)于將一個(gè)術(shù)語(yǔ)標(biāo)注成2個(gè)詞語(yǔ)的情況,最大匹配法可以將其合并為正確的術(shù)語(yǔ)。本文最大匹配方法只會(huì)從詞的分割處進(jìn)行合并,不會(huì)將CRF標(biāo)注為一個(gè)詞的結(jié)果重新切分為2部分。圖6展示了從原始CRF模型生成的序列*,在通過將術(shù)語(yǔ)特征詞典標(biāo)注后加入訓(xùn)練語(yǔ)料中得到的CRF分詞模型預(yù)測(cè)生成標(biāo)注序列的過程。如圖6中“五層西南強(qiáng)電間的雙擊雙控開關(guān)”,由于缺少BIM模型特征,基礎(chǔ)分詞模型將其切分成了“五層”、“西南”、“強(qiáng)電間”、 “的”、“雙擊”、“雙控”、“開關(guān)”等詞,在使用添加有模型術(shù)語(yǔ)特征的自適應(yīng)分詞模型之后,“西南”和“強(qiáng)電間”融合成為“西南強(qiáng)電間”,“雙擊”、“雙控”、“開關(guān)”融合成為“雙擊雙控開關(guān)”,其中“西南強(qiáng)電間”是BIM模型中的空間名稱,“雙擊雙控開關(guān)”是BIM模型中的構(gòu)件名稱,兩者均是從BIM模型中提取的模型術(shù)語(yǔ)。

        圖6 從原始序列y*到標(biāo)注序列y

        3 實(shí) 驗(yàn)

        為了驗(yàn)證本文所提方法的有效性,采用SIGHAN CWS BAKEOFF 2005中提供的PKU標(biāo)注語(yǔ)料作為訓(xùn)練語(yǔ)料訓(xùn)練基礎(chǔ)分詞模型,建筑領(lǐng)域術(shù)語(yǔ)特征使用了搜狗(https://pinyin.sogou.com/dict/)整理的建筑工程領(lǐng)域術(shù)語(yǔ)詞典,然后從中華建筑工程管理網(wǎng)(http://www.ctnoc.com/)抓取的建筑領(lǐng)域文章人工標(biāo)注后建立的建筑領(lǐng)域測(cè)試集和北京建筑大學(xué)圖書館的BIM模型(圖7,1.22 GB)及其設(shè)備安裝點(diǎn)位表數(shù)據(jù)構(gòu)成的測(cè)試集進(jìn)行了不同的對(duì)照實(shí)驗(yàn)。本文實(shí)驗(yàn)部分采用CRF++工具包(https://taku910.github.io/crfpp/)進(jìn)行訓(xùn)練和標(biāo)注,其中實(shí)驗(yàn)結(jié)果部分采用SIGHAN 2005中所給出的評(píng)價(jià)程序進(jìn)行評(píng)價(jià)。

        圖7 北京建筑大學(xué)圖書館BIM模型

        3.1 實(shí)驗(yàn)設(shè)置

        3.1.1 評(píng)價(jià)指標(biāo)

        分詞性能的測(cè)試標(biāo)準(zhǔn)主要分為準(zhǔn)確率、召回率和F-measure值,分別用,,表示。其中,準(zhǔn)確率表示分詞模型分詞的準(zhǔn)確程度;召回率也稱為查全率,表示分詞模型切分正確的詞占正確結(jié)果的比率;F-measure值綜合反映分詞模型的整體指標(biāo),即

        3.1.2 數(shù)據(jù)測(cè)試集

        (1) 建筑領(lǐng)域測(cè)試集。在建筑信息領(lǐng)域的中文分詞研究中,沒有公開的測(cè)評(píng)語(yǔ)料庫(kù)。因此,本文抓取了中國(guó)建筑施工技術(shù)管理網(wǎng)上的1 300篇文章用作構(gòu)建建筑領(lǐng)域測(cè)評(píng)語(yǔ)料。這些文章中包含了大量建筑工程領(lǐng)域的術(shù)語(yǔ)和概念,從中選取了3 200句語(yǔ)料組成建筑領(lǐng)域語(yǔ)料測(cè)試集。

        (2) BIM模型測(cè)試集。建筑設(shè)備安裝點(diǎn)位表即工程項(xiàng)目中建筑設(shè)備的具體安裝信息,包括設(shè)備名稱、編號(hào)和安裝位置,能有效地提供對(duì)應(yīng)BIM模型中的空間和設(shè)備信息,可用作測(cè)試中文分詞在BIM模型上的測(cè)試數(shù)據(jù)集。本文采用的北京建筑大學(xué)圖書館設(shè)備點(diǎn)位表共包含1 193項(xiàng)設(shè)備安裝信息(設(shè)備類型和所在位置),表4為建筑消防設(shè)備點(diǎn)位表。

        3.1.3 實(shí)驗(yàn)設(shè)計(jì)

        CRF-Original為原始語(yǔ)料訓(xùn)練出來的基礎(chǔ)分詞模型;CRF-Domain為加入建筑領(lǐng)域術(shù)語(yǔ)詞典后的分詞模型;CRF-BIM為加入BIM模型特征詞典后的分詞模型;CRF-Extern為融合BIM模型特征詞典和領(lǐng)域術(shù)語(yǔ)詞典之后的分詞模型。

        表4 建筑消防設(shè)備安裝點(diǎn)位表示例

        實(shí)驗(yàn)1.在建筑領(lǐng)域測(cè)試集上,分別驗(yàn)證CRF-Original,CRF-Domain,CRF-BIM和CRF-Extern的分詞性能,驗(yàn)證領(lǐng)域術(shù)語(yǔ)特征和BIM模型特征對(duì)于分詞模型在建筑領(lǐng)域文本上性能提升的有效性。

        實(shí)驗(yàn)2.在BIM模型測(cè)試集上,分別驗(yàn)證CRF-Original,CRF-Domain,CRF-BIM和CRF-Extern的分詞性能,驗(yàn)證模型特征對(duì)于BIM模型分詞性能提升的有效性。

        3.2 實(shí)驗(yàn)結(jié)果及分析

        表5給出了在建筑領(lǐng)域測(cè)試集上的測(cè)試結(jié)果,可以看出,與CRF-Original相比,CRF-Extern的準(zhǔn)確率提高了2.66%,召回率降低了0.72%,F(xiàn)-measure值提升了1.26%。其中,在只添加BIM模型特征時(shí),準(zhǔn)確率提升了0.12%,召回率提升了0.07%,F(xiàn)-measure提升了0.10%,證明了添加BIM模型特征對(duì)于提升建筑領(lǐng)域的分詞性能是有效的。

        表5 建筑領(lǐng)域測(cè)試集測(cè)試結(jié)果(%)

        表6為在BIM模型測(cè)試集上的測(cè)試結(jié)果,對(duì)比CRF-Original和CRF-Domain的測(cè)試結(jié)果可以看出,F(xiàn)-measure在提升后僅為55.43%,該實(shí)驗(yàn)結(jié)果說明僅僅添加建筑領(lǐng)域特征對(duì)于BIM模型分詞性能提升極有限。對(duì)比CRF-Original,CRF-Domain和CRF-Extern可以看出,加入BIM模型特征后,分詞性能有了很大的提升。與僅加入建筑領(lǐng)域術(shù)語(yǔ)特征相比,準(zhǔn)確率從46.97%提升到87.74%,召回率從67.60%提升到94.77%,F(xiàn)-measure從55.43%提升到91.12%,提升了35.69%,表示本文方法能夠有效解決BIM應(yīng)用中模型術(shù)語(yǔ)識(shí)別不佳的問題。其中,存在的一些切分錯(cuò)誤主要是由于設(shè)備點(diǎn)位表中的術(shù)語(yǔ)信息和BIM模型文件中的術(shù)語(yǔ)信息不同導(dǎo)致的。

        表6 BIM模型測(cè)試集測(cè)試結(jié)果(%)

        從以上實(shí)驗(yàn)可以看出,①向統(tǒng)計(jì)分詞模型中添加詞典特征可以有效提升中文分詞在建筑領(lǐng)域的分詞性能;②在建筑信息領(lǐng)域的BIM應(yīng)用中,僅僅添加領(lǐng)域術(shù)語(yǔ)特征不足以有效提升中文分詞在BIM模型自適應(yīng)性上的需要;③通過將模型術(shù)語(yǔ)特征和領(lǐng)域術(shù)語(yǔ)特征一起融入中文分詞模型中,可以有效提高中文分詞在建筑領(lǐng)域BIM應(yīng)用中的自適應(yīng)性。

        4 總結(jié)和展望

        本文通過分析存儲(chǔ)BIM信息的IFC文件數(shù)據(jù),從中提取BIM模型相關(guān)的術(shù)語(yǔ)特征詞典,然后通過將BIM模型特征詞典配合領(lǐng)域術(shù)語(yǔ)特征添加進(jìn)入中文分詞模型的方式來提升中文分詞在建筑領(lǐng)域的自適應(yīng)性。由于BIM是當(dāng)前建筑領(lǐng)域信息技術(shù)應(yīng)用的主要方案,當(dāng)面對(duì)不同的BIM模型時(shí),只需要提取其模型特征詞典加入到中文分詞模型中即可。實(shí)驗(yàn)表明,本文方法有效提高了中文分詞在建筑領(lǐng)域BIM應(yīng)用中的自適應(yīng)性。

        本文方法雖有效提高了中文分詞在BIM應(yīng)用中的自適應(yīng)性,然而術(shù)語(yǔ)信息仍有歧義問題有待解決,下一步將考慮引入國(guó)際字典框架(international dictionary framework,IFD)來解決這一問題。

        [1] ZHANG J, EL-GOHARY N M. Automated extraction of information from building information models into a semantic logic-based representation[C]//2015 International Workshop on Computing in Civil Engineering. Reston: American Society of Civil Engineers, 2015: 173-180.

        [2] KANG T W, CHOI H S. BIM-based data mining method considering data integration and function extension[J]. KSCE Journal of Civil Engineering, 2018, 22(5): 1523-1534.

        [3] SANTOS R, COSTA A A, GRILO A. Bibliometric analysis and review of Building Information Modelling literature published between 2005 and 2015[J]. Automation in Construction, 2017, 80: 118-136.

        [4] PEZESHKI Z, IVARI S A S. Applications of BIM: a brief review and future outline[J]. Archives of Computational Methods in Engineering, 2018, 25(2): 273-312.

        [5] ZHOU X P, ZHAO J C, WANG J, et al. Towards product-level parallel computing of large-scale building information modeling data using graph theory[J]. Building and Environment, 2020, 169: 106558.

        [6] LIN J R, HU Z Z, ZHANG J P, et al. A natural-language- based approach to intelligent data retrieval and representation for cloud BIM[J]. Computer-Aided Civil and Infrastructure Engineering, 2016, 31(1): 18-33.

        [7] WU S F, SHEN Q Y, DENG Y C, et al. Natural-language-based intelligent retrieval engine for BIM object database[J]. Computers in Industry, 2019, 108: 73-88.

        [8] LIU H, LIU Y S, PAUWELS P, et al. Enhanced explicit semantic analysis for product model retrieval in construction industry[J]. IEEE Transactions on Industrial Informatics, 2017, 13(6): 3361-3369.

        [9] XIE Q S, ZHOU X P, WANG J, et al. Matching real-world facilities to building information modeling data using natural language processing[J]. IEEE Access, 2019, 7: 119465-119475.

        [10] 王煜, 鄧暉, 李曉瑤, 等. 自然語(yǔ)言處理技術(shù)在建筑工程中的應(yīng)用研究綜述[J]. 圖學(xué)學(xué)報(bào), 2020, 41(4): 501-511. WANG Y, DENG H, LI X Y, et al. A review of natural language processing application in construction engineering[J]. Journal of Graphics, 2020, 41(4): 501-511 (in Chinese).

        [11] SUCCAR B. Building information modelling framework: a research and delivery foundation for industry stakeholders[J]. Automation in Construction, 2009, 18(3): 357-375.

        [12] LAAKSO M, KIVINIEMI A O. The IFC standard: a review of history, development, and standardization, information technology[J]. Electronic Journal of Information Technology in Construction, 2012, 17(9): 134-161.

        [13] AZZRAN S A, IBRAHIM K F, TAH J H M, et al. Assessment of open BIM standards for facilities management[M]// Innovative Production and Construction. WORLD SCIENTIFIC, 2019: 247-259.

        [14] NEPAL M P, STAUB-FRENCH S, POTTINGER R, et al. Ontology-based feature modeling for construction information extraction from a building information model[J]. Journal of Computing in Civil Engineering, 2013, 27(5): 555-569.

        [15] BuildingSMART. IFC4說明文檔,BIM時(shí)代的數(shù)據(jù)標(biāo) 準(zhǔn)[EB/OL]. (2013-05-31) [2020-08-05]. http://www.vfkjsd.cn/ ifc/ifc4/index.htm.

        [16] XUE N W. Chinese word segmentation as character tagging[J]. Computational Linguistics & Chinese Language Processing, 2003, 8(1): 29-47.

        [17] 黃昌寧, 趙海. 中文分詞十年回顧[J]. 中文信息學(xué)報(bào), 2007, 21(3): 8-19. HUANG C N, ZHAO H. Chinese word segmentation: a decade review[J]. Journal of Chinese Information Processing, 2007, 21(3): 8-19 (in Chinese).

        [18] 鄧麗萍, 羅智勇. 基于半監(jiān)督CRF的跨領(lǐng)域中文分詞[J]. 中文信息學(xué)報(bào), 2017, 31(4): 9-19. DENG L P, LUO Z Y. Domain adaptation of Chinese word segmentation on semi-supervised conditional random fields[J]. Journal of Chinese Information Processing, 2017, 31(4): 9-19 (in Chinese).

        [19] 張梅山, 鄧知龍, 車萬(wàn)翔, 等. 統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J]. 中文信息學(xué)報(bào), 2012, 26(2): 8-12. ZHANG M S, DENG Z L, CHE W X, et al. Combining statistical model and dictionary for domain adaption of Chinese word segmentation[J]. Journal of Chinese Information Processing, 2012, 26(2): 8-12 (in Chinese).

        A model adaptive method for Chinese word segmentation using IFC-based building information model

        ZHANG Xin1, ZHOU Xiao-ping1,2, WANG Jia1,2

        (1. School of Electrical and Information Engineering, Beijing University of Civil Engineering and Architecture, Beijing 100044, China;2. Beijing Key Laboratory of Intelligent Processing for Building Big Data, Beijing 102616, China)

        The building information model (BIM) has become an effective solution to information technology applications in the construction industry. With the continuous increase of BIM data, natural language processing (NLP) has been introduced into BIM applications in many studies to effectively utilize BIM data. In the Chinese language environment, due to the absence of terminology features in the building field, Chinese word segmentation cannot be efficiently adapted in BIM application. By analyzing the currently popular industry foundation class (IFC) files in BIM data format, this study extracted BIM model features from IFC files and added them together with architectural terminology characteristics into the statistical word segmentation model, thus improving the adaptability of Chinese word segmentation in the building field. The experimental results show that compared with the original conditional random fields (CRF)based word segmentation model, on the domain test set, the F-measure increased by 1.26%, and F-measure still increased by 0.10% with BIM model features added alone, indicating that appending BIM model features to the segmentation model can effectively improve the performance of Chinese word segmentation in the building field. Meanwhile, on the model test set, compared with the case of architectural terminology characteristics being appended alone, after BIM model features were appended, the precision rate increased from 46.97% to 87.74%, the recall rate from 67.60% to 94.77%, and the F-measure from 55.43% to 91.12% (by 35.69%), thereby effectively boosting the BIM model adaptability of Chinese word segmentation in the building field.

        building information model; industry foundation classes; Chinese word segmentation; model adaptation; building information extraction

        TP 391

        10.11996/JG.j.2095-302X.2021020316

        A

        2095-302X(2021)02-0316-09

        2020-09-24;

        24 September,2020;

        2020-10-30

        30 October,2020

        國(guó)家自然科學(xué)基金項(xiàng)目(71601013);北京市自然科學(xué)基金項(xiàng)目(4202017);北京市青年拔尖人才培育項(xiàng)目(CIT&TCD201904050);北京建筑大學(xué)青年英才項(xiàng)目;北京建筑大學(xué)市屬高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金(X20039)

        National Natural Science Foundation of China (71601013); Beijing Municipal Natural Science Foundation (4202017); Beijing Youth Talent Training Project (CIT&TCD201904050); Young Elite of Beijing University of Civil Engineering and Architecture; The Fundamental Research Funds for Beijing University of Civil Engineering and Architecture (X20039)

        張 鑫(1996-),男,陜西渭南人,碩士研究生。主要研究方向?yàn)榻ㄖ畔⒛P?、自然語(yǔ)言處理。E-mail:happyirick@gmail.com

        ZHANG Xin (1996-), male, master student. His main research interests cover BIM, NLP. E-mail:happyirick@gmail.com

        周小平(1985-),男,福建寧德人,副教授,博士,碩士生導(dǎo)師。主要研究方向?yàn)榇髷?shù)據(jù)挖掘、人工智能和建筑信息模型。E-mail:lukefchou@gmail.com

        ZHOU Xiao-ping (1985–), male, associate professor, Ph.D. His main research interests cover big data mining, artificial intelligence and BIM. E-mail:lukefchou@gmail.com

        猜你喜歡
        分詞術(shù)語(yǔ)語(yǔ)料
        結(jié)巴分詞在詞云中的應(yīng)用
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        值得重視的分詞的特殊用法
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語(yǔ)料
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
        從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
        論英語(yǔ)不定式和-ing分詞的語(yǔ)義傳承
        av一区二区三区人妻少妇| 中文字日产幕码三区做法| 久久伊人这里都是精品| 国产麻传媒精品国产av| 国产精品亚洲一区二区无码国产| 亚洲中文字幕精品一区二区| 美腿丝袜在线观看视频| 色欲人妻综合aaaaa网| 亚洲av无码片一区二区三区| 日韩久久无码免费看A| 国产精品一区二区久久久av| 欧美人与禽2o2o性论交| 亚洲av之男人的天堂| 特黄三级一区二区三区| 偷拍一区二区三区四区视频| 成年女人粗暴毛片免费观看| 国产人成午夜免电影观看| 91在线视频视频在线| 日韩极品视频免费观看| 久久成人国产精品| 国产免费专区| 久久精品国产亚洲av成人网| 久久久精品午夜免费不卡| 国产又滑又嫩又白| 精品国产91久久久久久久a| 精品综合久久88少妇激情| 东北少妇不带套对白| 国产手机在线αⅴ片无码| 亚洲天堂免费成人av| 久久精品国产成人午夜福利| 中日韩精品视频在线观看| 日本精品视频一视频高清| 97精品熟女少妇一区二区三区| 亚洲av无码乱码在线观看裸奔| 伊人久久大香线蕉免费视频| 亚洲精品一区二区三区蜜臀| 国产无套内射又大又猛又粗又爽| 99久久精品费精品国产一区二区| 国产精品日日摸夜夜添夜夜添| 亚洲黄色av一区二区三区| 亚洲日本一区二区一本一道|