基于屬性相似性度量的BIM構(gòu)件聚類

2020-05-21 07:48:02王萬齊馬寶睿盧文龍劉玉身

圖學(xué)學(xué)報(bào) 2020年2期

關(guān)鍵詞：模型

王萬齊，馬寶睿，李倩，盧文龍，劉玉身

王萬齊1，馬寶睿2，李倩2，盧文龍1，劉玉身2

(1. 中國鐵道科學(xué)研究院集團(tuán)有限公司電子計(jì)算技術(shù)研究所，北京 100081；2. 清華大學(xué)軟件學(xué)院，北京信息科學(xué)與技術(shù)國家研究中心，北京 100084)

近年來，隨著建筑信息模型(BIM)構(gòu)件庫資源在互聯(lián)網(wǎng)上迅猛增長，對大量BIM構(gòu)件資源的聚類和檢索應(yīng)用變得日益迫切?，F(xiàn)有方法還缺乏對BIM構(gòu)件所承載的領(lǐng)域信息提取，基于BIM構(gòu)件所承載的領(lǐng)域信息，對BIM構(gòu)件庫資源開展聚類研究：①針對BIM構(gòu)件，提出了一種基于屬性信息量的BIM構(gòu)件相似性度量算法，以充分利用BIM構(gòu)件屬性信息。通過與傳統(tǒng)的Tversky相似性度量算法以及幾何形狀相似匹配算法相比，其在相似性度量上效果更好。②基于BIM構(gòu)件間的相似性度量算法，提出了一種BIM構(gòu)件庫聚類方法。并在BIMSeek檢索引擎中集成了BIM構(gòu)件的關(guān)鍵字檢索功能以及分類器查看功能，為用戶提供更豐富的檢索和查看方式。通過與傳統(tǒng)的K-medoids和AP聚類算法相比，其聚類方法效果更好。

建筑信息模型；工業(yè)基礎(chǔ)類；信息檢索；相似性度量；聚類

近幾十年來，繼聲音、圖像、視頻之后，三維模型作為第四代多媒體資源，已被廣泛地應(yīng)用于機(jī)器學(xué)習(xí)、虛擬現(xiàn)實(shí)等領(lǐng)域，大量可共享的三維模型在互聯(lián)網(wǎng)上迅猛增加[1]。由于采用多媒體檢索技術(shù)可以提高開發(fā)效率、縮短開發(fā)周期、節(jié)省開發(fā)成本，因此得到了眾多研究人員的重視，特別是在CAD工程制圖設(shè)計(jì)領(lǐng)域。

隨著BIM在AEC領(lǐng)域的迅猛崛起，互聯(lián)網(wǎng)涌現(xiàn)出大量的BIM資源庫，目前比較主流的有Autodesk Seek，BIM Object，National BIM Library，Modlar，SmartBIM，Arcat，RevitCity網(wǎng)站等。這些網(wǎng)站中少則擁有幾千個(gè)多則擁有幾萬個(gè)BIM構(gòu)件，面對如此日益龐大的三維模型庫，設(shè)計(jì)人員需要將主要精力從如何構(gòu)建三維模型轉(zhuǎn)變?yōu)槿绾位谝延械哪Ｐ蜆?gòu)建出符合需求的新模型的問題上。GUNN[2]在美國科學(xué)雜志上發(fā)表文章表示，40%的構(gòu)件可以在已有的模型之上重新設(shè)計(jì)，40%的構(gòu)件可以修改已有的模型，僅有20%的構(gòu)件需要重新設(shè)計(jì)。ULLMAN[3]認(rèn)為超過75%的設(shè)計(jì)可以復(fù)用以前的設(shè)計(jì)來滿足新的需求。由此可見，構(gòu)件復(fù)用的需求量相當(dāng)大。如何快速準(zhǔn)確地查找到滿足設(shè)計(jì)人員需求的構(gòu)件，實(shí)現(xiàn)設(shè)計(jì)資源的重復(fù)利用，成為當(dāng)前的熱點(diǎn)研究問題[4]。

聚類的最初目的是將具有相似特征的物體放在一起[5]。聚類分析有4個(gè)功能：①對數(shù)據(jù)分類進(jìn)行進(jìn)一步擴(kuò)展；②對歸類進(jìn)行概念性探索；③通過探索數(shù)據(jù)形成假說；④對實(shí)際的數(shù)據(jù)集歸類假說的測試方法。一般而言，聚類是對數(shù)據(jù)集分成若干個(gè)簇的過程。所以對BIM構(gòu)建進(jìn)行聚類有利于生成更好的檢索結(jié)果。

基于上述分析，本文針對如何快速準(zhǔn)確查找符合設(shè)計(jì)需求的三維模型的問題，提出了一種BIM構(gòu)件庫聚類方法。并在BIMSeek檢索引擎中集成了BIM構(gòu)件的關(guān)鍵字檢索功能以及分類器查看功能，為用戶提供更豐富的檢索和查看方式。

1 相關(guān)工作

由IAI (International Alliance for Interoperability)組織定義的IFC (industry foundation classes)國際標(biāo)準(zhǔn)是BIM的最主要數(shù)據(jù)交換標(biāo)準(zhǔn)[6]。因此，本文使用IFC文件表示BIM構(gòu)件，展開對BIM構(gòu)件的聚類研究。

聚類研究方法包括：基于劃分的方法，將每個(gè)樣本劃分為一個(gè)歸屬，例如K-means[7]，EM[8]，K-medoids[9]；基于層次的方法，創(chuàng)建層次，遞歸將樣本合并或拆除，例如BIRCH[10]，CUBE[11]，ROCK[12]；基于密度的方法，區(qū)域中點(diǎn)的密度大于閾值時(shí)，將其加入到最近的類簇中，例如DBSCAN[13]，OPTICS[14]；基于網(wǎng)格的方法，將數(shù)據(jù)空間量化為網(wǎng)格單元，將樣本點(diǎn)分配到相應(yīng)網(wǎng)格中，例如WaveCluster[15]；基于模型的方法，為每個(gè)類簇定義一個(gè)模型，根據(jù)給定模型為每個(gè)樣本點(diǎn)選擇合適模型，例如SOM[16]。

對BIM構(gòu)件的聚類研究有很多應(yīng)用，例如將BIM構(gòu)件聚類應(yīng)用到對BIM信息的挖掘和噪聲數(shù)據(jù)的檢測[17-18]；將BIM聚類應(yīng)用到對缺少標(biāo)注的模型提取有用信息；本文將BIM構(gòu)件的聚類算法應(yīng)用到檢索，集成到BIMSeek檢索引擎中完成檢索和分類器查看功能。

之前部分工作是在BIM領(lǐng)域做檢索的研究[19-21]，而本文則是應(yīng)用于BIM構(gòu)件自身上。其結(jié)合復(fù)雜的語義信息減少數(shù)據(jù)集成的不一致性，是結(jié)合語義構(gòu)建領(lǐng)域知識(shí)[22-24]，本文工作是結(jié)合語義信息進(jìn)行聚類和檢索。

在傳統(tǒng)的三維模型檢索領(lǐng)域中，主要通過提取模型的幾何特征來構(gòu)建向量，但是對于工程設(shè)計(jì)領(lǐng)域的三維模型，不僅包括幾何特征，還包含語義屬性，因此，僅通過提取幾何特征是不足以描述整個(gè)模型。而基于模型本身內(nèi)容的三維模型檢索可以更好地支持針對BIM構(gòu)件展開聚類的研究。

本文從Arcat、Autodesk Seek和BIM Object網(wǎng)站上提取了一萬個(gè)BIM構(gòu)件，對其開展檢索與聚類的研究，首先提出了一種基于屬性信息量的BIM構(gòu)件相似性度量方法。基于BIM構(gòu)件間的相似性度量算法，本文提出了一種BIM構(gòu)件庫聚類方法，并將聚類結(jié)果應(yīng)用于檢索結(jié)果分類展示中，從而生成更好的檢索聚類效果。同時(shí)，為了給用戶提供更豐富的檢索和查看方式，本文在BIMSeek檢索引擎中集成了BIM構(gòu)件的關(guān)鍵字檢索功能以及分類器查看功能。

2 方法

針對BIM構(gòu)件的相似性度量方法，提出了一種BIM構(gòu)件庫的聚類算法，首先使用近鄰傳播(affinity propagation，AP)算法[25]對初始種子進(jìn)行選取，然后使用K-medoids算法進(jìn)行聚類，在進(jìn)行相似性度量時(shí)使用本文提出的基于屬性信息量的BIM構(gòu)件相似性度量算法。將從多個(gè)BIM資源庫中提取的構(gòu)件進(jìn)行聚類，并將聚類應(yīng)用于檢索中，實(shí)現(xiàn)了檢索結(jié)果的分類展示以及分類器查看功能。由于使用基于屬性信息量的聚類結(jié)果類別比較精細(xì)，類別比較多，需要給其聚類結(jié)果打標(biāo)簽作為二級(jí)聚類標(biāo)簽。而類別太多不易于瀏覽，因此，需要將聚類結(jié)果合并，并將其結(jié)果再次打標(biāo)簽作為一級(jí)標(biāo)簽。

BIM構(gòu)件庫聚類算法的流程如圖1所示。

圖1 BIM構(gòu)件庫聚類算法流程圖

2.1 基于屬性信息量的構(gòu)件相似性度量

由于IFC文件中包含了該BIM構(gòu)件的所有幾何屬性和語義屬性，因此每一個(gè)BIM構(gòu)件均需一個(gè)相應(yīng)的屬性向量表示，從而BIM構(gòu)件的相似性度量即轉(zhuǎn)換為構(gòu)件屬性向量的相似性度量。在此提出了一種基于RESNIK[26]提出的信息量計(jì)算和TVERSKY和GATI[27]相似度模型的BIM構(gòu)件屬性相似性度量算法。

本文提出BIM構(gòu)件的語義信息量為

將所有BIM構(gòu)件的屬性信息量保存到計(jì)算機(jī)中，便于后續(xù)讀取使用。

由于每個(gè)BIM構(gòu)件均被處理成一個(gè)屬性向量，其既包含了幾何屬性(長度、寬度等)，又包含了語義屬性(材質(zhì)、廠商等)，本文中默認(rèn)的屬性權(quán)重值設(shè)置為1，當(dāng)屬性名稱相同時(shí)，為了保證在相似度的計(jì)算中更加精確，需要在以下2種情況下修改屬性的權(quán)重值：①對于幾何屬性，設(shè)定了一個(gè)閾值為5%，當(dāng)相差比例大于5%時(shí)為不相同屬性，其權(quán)重值為0；相差比例小于5%的屬性設(shè)定為相同屬性，但其權(quán)重值按比例縮小。②對于語義屬性，如果描述2個(gè)部件的描述詞有部分匹配也認(rèn)為其屬性是一樣的，只不過其權(quán)重相應(yīng)縮小，但若2個(gè)屬性值完全不同，那么權(quán)重值則為0。此外，對于自定義屬性，由于不同的人可能會(huì)使用不同的單詞來表達(dá)同一個(gè)意思，本文使用WordNet來解決這種相同屬性的不同表達(dá)問題，即通過同義關(guān)系得到相應(yīng)的同義詞列表。

本節(jié)提出基于屬性信息量的BIM構(gòu)件相似度計(jì)算公式，通過集合運(yùn)算計(jì)算出任意2個(gè)構(gòu)件之間的相似度，即

其中，

()為該集合中所有屬性的信息量與權(quán)重值相乘之和，即

其方法可讀取保存在屬性信息量的中間文件，找到所表示的所有屬性，假設(shè)中屬性個(gè)數(shù)為，將這個(gè)屬性的信息量和權(quán)重值相乘之后再求和；IC為第個(gè)屬性的信息量；W為第個(gè)屬性的權(quán)重值。

2.2 基于相似性傳播算法的初始種子選取

本文在AP算法的基礎(chǔ)上，融入了對BIM構(gòu)件的語義相似性度量。在AP算法運(yùn)行過程中，不斷地從BIM構(gòu)件預(yù)存好的相似度矩陣中提取數(shù)據(jù)，其算法稱為Tversky-AP算法，具體如下：

算法1. Tversky-AP算法。

輸入：BIM構(gòu)件語義相似度矩陣simiMatrix，該矩陣為二維矩陣，simiMatrix[i][j]代表BIM構(gòu)件i與BIM構(gòu)件j的相似度。

輸出：初步聚類的BIM構(gòu)件clusters。

rebuildSimiMatrix對輸入語義相似度矩陣的重建，即

其中，當(dāng)≠，使用基于屬性信息量的相似度表示(,)；當(dāng)=，其值稱為參考度，由于本文認(rèn)為所有的構(gòu)件均有可能成為聚類中心，因此該參考度的值需相同，其值取自相似度矩陣的中位數(shù)。

updateR更新式見式(5)。當(dāng)吸引度矩陣均有值后，需要根據(jù)吸引度的值更新歸屬度的值，updateA在≠時(shí)，更新為式(6)，在=時(shí)，更新為式(7)。

chooseClusterCenter可對每一個(gè)BIM構(gòu)件確定其聚類中心。若=，則構(gòu)件本身是聚類中心；若≠，則構(gòu)件是構(gòu)件的聚類中心。每次迭代選取(,)+(,)最大值對應(yīng)的BIM構(gòu)件作為聚類中心。

2.3 基于K-medoids算法的BIM構(gòu)件聚類

本文將Tversky-AP算法的結(jié)果作為K-medoids算法的初始聚類中心，因此稱該算法為AP-medoids算法，具體如下：

算法2. AP-medoids算法。

輸入：Tversky-AP算法的結(jié)果clusters。

輸出：聚類好的BIM構(gòu)件idResult。

chooseCenter為每一個(gè)非初始聚類中心的BIM構(gòu)件選取初始類別，讀取在2.1節(jié)中保存的BIM構(gòu)件的相似度矩陣，得到每一個(gè)BIM構(gòu)件與初始的個(gè)聚類中心的語義相似度，選取語義相似度最大的聚類中心作為應(yīng)該屬于的類。

chooseClusterCenter計(jì)算該構(gòu)件與其余構(gòu)件之間的語義相似度之和，將語義相似度的和最大的構(gòu)件作為該類的聚類中心。updateClusters更新所有的聚類中心供下一次迭代使用。

原始的K-medoids算法的時(shí)間復(fù)雜度主要浪費(fèi)在計(jì)算彼此的距離，本文算法不需要實(shí)時(shí)地計(jì)算BIM構(gòu)件之間的相似度，而是采取了預(yù)處理的方法，這也是本文對K-medoids算法的第二點(diǎn)改進(jìn)。

2.4 二級(jí)聚類標(biāo)簽的統(tǒng)計(jì)和選取

經(jīng)過聚類之后，每一類BIM構(gòu)件需要一個(gè)標(biāo)簽來概括該類構(gòu)件，便于用戶瀏覽。并將小類別合并成為大類別，相當(dāng)于大類別的標(biāo)簽為一級(jí)標(biāo)題，而小類別的標(biāo)簽為二級(jí)標(biāo)題，在分類器中顯示BIM構(gòu)件時(shí)，首先看到的是一級(jí)標(biāo)簽，點(diǎn)進(jìn)之后分列表顯示二級(jí)標(biāo)簽。在標(biāo)簽選取后根據(jù)WordNet將具有相似標(biāo)簽描述的小類別進(jìn)行一次初始合并。二級(jí)聚類標(biāo)簽的選取算法如下：

算法3. 二級(jí)聚類標(biāo)簽的選取算法。

輸入：AP-medoids聚類算法的結(jié)果idResult。

輸出：打過二級(jí)標(biāo)簽的聚類結(jié)果labelResult。

changeToDespResult即為將id轉(zhuǎn)換成相應(yīng)的構(gòu)件描述信息。fliter為對描述信息的停用詞處理。停用詞列表中需要去除6類單詞：①單詞中含有數(shù)字；②單詞長度為1；③常用的一些介詞；④無用的形容詞；⑤含特殊字符的單詞；⑥人名、地名、廠商名。

calculateTfidf和maxTfidfWord基于權(quán)重值進(jìn)行聚類標(biāo)簽的選取。本文使用TFIDF進(jìn)行權(quán)重值的賦予。使用WordNet中的同義詞組，在為每個(gè)類別描述信息的每個(gè)單詞計(jì)算出權(quán)重值之后，選取權(quán)重值最大的那個(gè)單詞作為該類的標(biāo)簽。

mergeWithWordnet在給聚類結(jié)果打標(biāo)簽之后，由于某些類別的標(biāo)簽依據(jù)WordNet是相似的，因此，可以將具有相似標(biāo)簽的類別進(jìn)行一次初始的簡單合并。例如標(biāo)簽“toilet”，“l(fā)avatory”和“bathroom”，而這3個(gè)標(biāo)簽在WordNet中是同義詞，如圖2所示，而這3個(gè)標(biāo)簽的詞根是toilet，因此合并成一個(gè)大類別，使用“toilet”作為標(biāo)簽。

2.5 聚類結(jié)果合并

由于基于屬性信息量的相似度計(jì)算方法，使得聚類結(jié)果更加精細(xì)，導(dǎo)致聚類類別較多。例如，原本均是門，但是由于內(nèi)部結(jié)構(gòu)不同(雙開門、單開門等)，被聚成了多個(gè)類別，而類別太多不易于瀏覽，因此有必要將原本相關(guān)的小類別合并成大類。

圖2 WordNet中toilet的同義詞示意圖

本文采用VSM[28]向量空間模型(vector space model)進(jìn)行構(gòu)件描述信息相似度的比對，根據(jù)構(gòu)件的描述信息的相似性進(jìn)行類別的合并?；跇?gòu)件描述信息的聚類合并算法如下：

算法4. 基于聚類描述信息構(gòu)件合并算法。

輸入：打過二級(jí)標(biāo)簽的聚類結(jié)果idResult。

輸出：經(jīng)過合并的BIM構(gòu)件聚類結(jié)果mergedResult。

changeToDespResult是將打過二級(jí)聚類標(biāo)簽的聚類結(jié)果使用構(gòu)件描述信息表示。buildDespVector是使用向量空間模型表示構(gòu)件描述信息集合。對于BIM構(gòu)件的描述信息集合，將其進(jìn)行分詞，最終形成一個(gè)由“key=value”構(gòu)成的描述文檔向量。由于語言本身就客觀存在著諸多的不確定性，本文仍使用WordNet表示，凡是在其中具有相同詞根的單詞均被認(rèn)為是相同的單詞。changeToTfidfRes是通過計(jì)算向量空間模型中每個(gè)詞項(xiàng)的權(quán)重值來構(gòu)建描述信息集合的數(shù)值向量，便于相似度的計(jì)算。每個(gè)詞項(xiàng)的權(quán)重值使用TFIDF來表示，其為TF值與IDF值的乘積。TF為某一詞項(xiàng)在文中出現(xiàn)的頻率，IDF為一個(gè)詞項(xiàng)在多個(gè)文檔中出現(xiàn)頻率，代表詞匯的普遍性。calculateSimi計(jì)算BIM構(gòu)建文檔信息向量之間的相似度度量方法是余弦距離相似度。

時(shí)間復(fù)雜度分析：假設(shè)打過二級(jí)標(biāo)簽的聚類結(jié)果有個(gè)類簇，將聚類結(jié)果轉(zhuǎn)為其對應(yīng)的描述信息的時(shí)間復(fù)雜度為()；將描述信息集合使用向量空間模型表示的時(shí)間復(fù)雜度為()；假設(shè)所有向量空間模型中不同的詞項(xiàng)個(gè)數(shù)為，為每一個(gè)詞項(xiàng)計(jì)算TFIDF的時(shí)間復(fù)雜度為()，那么轉(zhuǎn)為TFIDF向量的時(shí)間復(fù)雜度為(××)；使用余弦相似度計(jì)算相似度的時(shí)間復(fù)雜度為()，因此計(jì)算任意2個(gè)向量之間相似度的時(shí)間復(fù)雜度為(××)；將相似向量合并的時(shí)間復(fù)雜度為(2)；去重的時(shí)間復(fù)雜度為()，因此總的時(shí)間復(fù)雜度為(××)。

算法在實(shí)現(xiàn)過程中的改進(jìn)。對于每個(gè)向量而言，其中0占了絕大多數(shù)，而在計(jì)算2個(gè)向量的相似度時(shí)只有非0值才起作用，因此本文在保存TFIDF向量時(shí)僅僅保留非零部分，就能大大降低的值，從而提高算法運(yùn)行效率。

2.6 一級(jí)標(biāo)簽的選取

經(jīng)過合并后即可得到一級(jí)聚類，且需要有一個(gè)標(biāo)簽來進(jìn)行描述，稱其為一級(jí)聚類標(biāo)簽，其是直接給用戶進(jìn)行瀏覽的，因此類別不能太多。由于本文的研究對象是使用IFC文件來表示的BIM構(gòu)件，構(gòu)件基本都隸屬IfcBuildingElement，含有21個(gè)子類別，可使用自然語言來表示21個(gè)子類別，使用IfcBuildingElement的子類別(以下簡稱IFC標(biāo)簽)來引導(dǎo)一級(jí)聚類標(biāo)簽的選取。使用WordNet的同義詞功能，可以得到IFC標(biāo)簽的同義詞列表，用該列表過濾BIM構(gòu)件的描述信息，這樣就能夠起到引導(dǎo)聚類標(biāo)簽選取的效果。

一級(jí)聚類標(biāo)簽的選取算法如下：

算法5. 基于聚類描述信息構(gòu)件合并算法。

輸入：經(jīng)過合并后聚類結(jié)果mergedResult，IFC標(biāo)簽列表ifcList。

輸出：打了一級(jí)標(biāo)簽的聚類結(jié)果labelResult。

getSynonyms為獲取IFC標(biāo)簽的同義詞列表，filter為BIM構(gòu)件描述信息的過濾。將描述信息進(jìn)行分詞，對于每個(gè)單詞使用WordNet計(jì)算其同義詞列表，如果同義詞列表中有一個(gè)單詞與IFC標(biāo)簽的同義詞列表中的單詞相同，那么該單詞保留，否則濾掉。calculateTfidf和maxTfidfWord是基于權(quán)重值的聚類標(biāo)簽的選取。基于WordNet計(jì)算初始標(biāo)簽的同義詞列表，看同義詞列表中的單詞與哪個(gè)IFC標(biāo)簽的同義詞列表中的單詞相同，就選取那個(gè)IFC標(biāo)簽作為一級(jí)聚類標(biāo)簽。

3 實(shí)例驗(yàn)證與評(píng)估

3.1 BIM構(gòu)件聚類應(yīng)用于檢索系統(tǒng)的實(shí)現(xiàn)

本文將BIM構(gòu)件的聚類應(yīng)用于BIMSeek[20-21]構(gòu)件檢索系統(tǒng)和3DSeek[29-35]三維模型檢索中，實(shí)現(xiàn)了對于關(guān)鍵子檢索結(jié)果的分類展示以及分類器查看2個(gè)功能。將關(guān)鍵字的檢索結(jié)果進(jìn)行分類展示，便于用戶瀏覽。

圖3為系統(tǒng)首頁，用戶可以通過3種方式進(jìn)行檢索：①輸入關(guān)鍵詞進(jìn)行檢索；②點(diǎn)擊分類查看器中的一級(jí)聚類標(biāo)簽進(jìn)行檢索；③上傳BIM構(gòu)件進(jìn)行屬性檢索。圖4為當(dāng)輸入的關(guān)鍵詞為“window”時(shí)的查詢結(jié)果示意圖(分類器查看頁面與其類似)，在右側(cè)可以選擇“window”下面的任意一個(gè)二級(jí)聚類標(biāo)簽，左側(cè)的結(jié)果會(huì)根據(jù)二級(jí)聚類標(biāo)簽而變化，結(jié)果列表展示了檢索結(jié)果構(gòu)件的名稱、類別、廠家、簡要描述、屬性信息、三維模型的展示以及IFC文件和RFA文件的下載。

針對上傳BIM構(gòu)件進(jìn)行屬性檢索功能，例如上傳一個(gè)門的BIM構(gòu)件根據(jù)屬性檢索，Door_Industrial_RiteHite_FasTraxCL-VerticalLift這個(gè)構(gòu)件在使用基于信息量和Tversky的BIM構(gòu)件屬性相似性度量方法的結(jié)果列表中第6個(gè)出現(xiàn)，而在使用傳統(tǒng)的Tversky相似性度量方法的結(jié)果列表中是第12個(gè)出現(xiàn)，如圖5所示。由于該構(gòu)件與上傳構(gòu)件的共同屬性中包含的信息量更大，例如Door Slab Material，Vision Panel Material這些屬性，因此該構(gòu)件應(yīng)當(dāng)在檢索列表的前面顯示，此例子說明本文方法可以更好地根據(jù)屬性檢索到信息量更接近的模型。

圖3 系統(tǒng)首頁示意圖

圖4 關(guān)鍵字檢索結(jié)果示意圖

圖5 Door_Industrial_RiteHite_FasTraxCL-VerticalLift構(gòu)件在2種相似度比較方法中的實(shí)例對比圖

3.2 聚類結(jié)果比較

本文采用類內(nèi)類外標(biāo)準(zhǔn)和Purity標(biāo)準(zhǔn)對聚類結(jié)果進(jìn)行評(píng)判，且進(jìn)行實(shí)驗(yàn)的數(shù)據(jù)是經(jīng)過AP-medoids聚類之后的數(shù)據(jù)。

其中，_的值越大說明聚類結(jié)果越好。

Purity標(biāo)準(zhǔn)：計(jì)算正確聚類的模型占總模型數(shù)的比例，即

其中，為模型總數(shù)；={1,2,…,w}為聚類的集合；w為第個(gè)聚類的模型集合；={1,2,…,m}為標(biāo)準(zhǔn)分類的模型集合；m為第個(gè)標(biāo)準(zhǔn)分類的模型集合；(,)的值越高，聚類結(jié)果越準(zhǔn)確。

為了驗(yàn)證使用AP-medoids聚類算法的聚類效果，分別將其與單獨(dú)使用K-medoids算法和單獨(dú)使用AP算法進(jìn)行對比，并分別將3個(gè)聚類算法應(yīng)用于Arcat, Autodesk Seek，BIM Object資源庫和混合資源庫這4個(gè)BIM資源庫中，并使用2種聚類評(píng)價(jià)標(biāo)準(zhǔn)來評(píng)判聚類結(jié)果。

由于AP算法和AP-medoids算法聚類結(jié)果均是穩(wěn)定的，而K-medoids算法由于初始聚類中心的選取是隨機(jī)的，在本實(shí)驗(yàn)中，將隨機(jī)選取初始聚類種子的個(gè)數(shù)為benchmark中對應(yīng)資源庫的BIM構(gòu)件的類別數(shù)，而表1中的實(shí)驗(yàn)數(shù)據(jù)對于K-medoids聚類算法的結(jié)果是采用10次實(shí)驗(yàn)結(jié)果的平均值。

表1 benchmark中BIM構(gòu)件的個(gè)數(shù)及其分類數(shù)

表2展示了針對4個(gè)資源庫，使用類內(nèi)類外標(biāo)準(zhǔn)的對比結(jié)果。

表2 3種聚類算法針對4個(gè)資源庫的類內(nèi)類外標(biāo)準(zhǔn)評(píng)判結(jié)果

由表2可知，無論哪個(gè)資源庫，AP-medoids算法的類內(nèi)類外相似度的值均大于單獨(dú)使用AP算法的值；且單獨(dú)使用AP算法的值均大于單獨(dú)使用K-medoids的值。亦即使用AP-medoids聚類算法的效果要好于單獨(dú)使用AP算法的效果，單獨(dú)使用AP算法的效果要好于單獨(dú)使用K-medoids算法。

表3展示了針對4個(gè)資源庫，使用Purity標(biāo)準(zhǔn)的對比結(jié)果。

表3 3種聚類算法針對4個(gè)資源庫的Purity標(biāo)準(zhǔn)評(píng)判結(jié)果(%)

從表3可知，AP-medoids聚類算法的準(zhǔn)確度高于單獨(dú)使用AP算法的準(zhǔn)確度，且單獨(dú)使用AP算法又高于單獨(dú)使用K-medoids算法的準(zhǔn)確度。亦即，AP-medoids聚類算法的效果最好。

4 結(jié)束語

本文提出的基于BIM構(gòu)件屬性信息量的構(gòu)件聚類算法，其對傳統(tǒng)經(jīng)典的K-medoids聚類算法進(jìn)行了2點(diǎn)改進(jìn)：①利用AP算法的結(jié)果作為K-medoids的初始聚類中心，使得聚類結(jié)果變得穩(wěn)定；②提出的基于屬性信息量的BIM構(gòu)件相似性度量方法，由于構(gòu)件之間的相似度是經(jīng)過預(yù)處理的，結(jié)果保存到中間文件，大大提高了K-medoids算法的運(yùn)行速度和降低了算法復(fù)雜度，充分結(jié)合了BIM構(gòu)件本身的領(lǐng)域信息。

為了驗(yàn)證本文提出的聚類算法的效果，針對Arcat，Autodesk Seek，BIM Object資源庫和混合資源庫4個(gè)BIM構(gòu)件資源庫，利用類內(nèi)類外標(biāo)準(zhǔn)和purity度量2種聚類評(píng)價(jià)手段，將AP-medoids聚類算法與單獨(dú)使用AP聚類算法和單獨(dú)使用K-medoids聚類算法進(jìn)行聚類結(jié)果的評(píng)判，實(shí)驗(yàn)結(jié)果證明使用AP-medoids聚類效果更好。

本文還將該聚類結(jié)果應(yīng)用于BIMSeek檢索系統(tǒng)中，實(shí)現(xiàn)了對關(guān)鍵字檢索結(jié)果的分類展示以及分類器查看功能。為用戶在分類器查看時(shí)更加方便，還對聚類結(jié)果進(jìn)行了二次聚類標(biāo)簽的選取，并通過IFC領(lǐng)域信息再次對結(jié)果進(jìn)行合并以及一級(jí)聚類標(biāo)簽的選取。

[1] GAO Y, DAI Q H, WANG M, et al. 3D model retrieval using weighted bipartite graph matching[J]. Signal Processing: Image Communication, 2011, 26(1): 39-47.

[2] GUNN T G. The mechanization of design and manufacturing[J]. Scientific American, 1982, 247(3): 114-130.

[3] ULLMAN D G. The mechanical design process[M]. New York: McGraw-Hill, 1992: 47-51.

[4] 潘翔, 張三元, 葉修梓. 三維模型語義檢索研究進(jìn) 展[J]. 計(jì)算機(jī)學(xué)報(bào), 2009, 32(6): 1069-1079.

[5] ALDENDERFER M S, BLASHFIELD R K. Cluster analysis[M]. Los Angeles: Sage Publications, 1984: 2-12.

[6] YU K, FROESE T M, GROBLER F. International alliance for interoperability: industry foundation classes[EB/OL]. [2019-08-10]. https://www.researchgate. net/publication/246506361_International_alliance_for_interoperability_Industry_foundation_classes.

[7] CAO J, WU Z A, WU J J, et al. Towards information-theoretic K-means clustering for image indexing[J]. Signal Processing, 2013, 93(7): 2026-2037.

[8] LIU Z, SONG Y Q, XIE C H, et al. Clustering gene expression data analysis using an improved EM algorithm based on multivariate elliptical contoured mixture models[J]. Optik, 2014, 125(21): 6388-6394.

[9] PARK H S, JUN C H. A simple and fast algorithm for K-medoids clustering[J]. Expert Systems with Applications, 2009, 36(2): 3336-3341.

[10] ZHANG T, RAMAKRISHNAN R, LIVNY M. BIRCH: an efficient data clustering method for very large databases[C]//Proceedings of the ACM SIGMOD International Conference on Management of Data. New York: ACM Press, 1996: 103-114.

[11] ZHANG Z J, SHU H, CHONG Z H, et al. C-Cube: elastic continuous clustering in the cloud[C]//2013 IEEE 29th International Conference on Data Engineering (ICDE). New York: IEEE Press, 2013: 577-588.

[12] LI R, LIU L. A method for large scale ontology partitioning and block matching based on ROCK clustering[J]. Applied Mechanics and Materials, 2014, 536-537: 390-393.

[13] CHAKRABORTY S, NAGWANI N K. Analysis and study of incremental K-means clustering algorithm[M]//High Performance Architecture and Grid Computing. Heidelberg: Springer, 2011: 338-341.

[14] ANKERST M, BREUNIG M M, KRIEGEL H P, et al. OPTICS: ordering points to identify the clustering structure[C]//ACM Sigmod Record. New York: ACM Press, 1999: 49-60.

[15] ANGGRAINI E L, SUCIATI N, SUADI W. Parallel computing of WaveCluster algorithm for face recognition application[C]//2013 International Conference on QiR. New York: IEEE Press, 2013: 56-59.

[16] LIU Y C, WU C, LIU M. Research of fast SOM clustering for text information[J]. Expert Systems with Applications, 2011, 38(8): 9325-9333.

[17] PENG Y, LIN J R, ZHANG J P, et al. A hybrid data mining approach on BIM-based building operation and maintenance[J]. Building and Environment, 2017, 126: 483-495.

[18] ALI M, MOHAMED Y. A method for clustering unlabeled BIM objects using entropy and TF-IDF with RDF encoding[J]. Advanced Engineering Informatics, 2017, 33: 154-163.

[19] LIU H, LIU Y S, PAUWELS P, et al. Enhanced explicit semantic analysis for product model retrieval in construction industry[J]. IEEE Transactions on Industrial Informatics, 2017, 13(6): 3361-3369.

[20] GAO G, LIU Y S, LIN P P, et al. BIMTag: concept-based automatic semantic annotation of online BIM product resources[J]. Advanced Engineering Informatics, 2017, 31: 48-61.

[21] GAO G, LIU Y S, WANG M, et al. A query expansion method for retrieving online BIM resources based on industry foundation classes[J]. Automation in Construction, 2015, 56: 14-25.

[22] EL-MEKAWY M. EL-MEKAWY M. Integrating BIM and GIS for 3D city modelling[J]. Licentiate Thesis Geoinformatics Division Department of Urban Planning and Environment Royal Institute of Technology (KTH), 2010, 25: 55-58.

[23] KARAN E P, IRIZARRY J. Extending BIM interoperability to preconstruction operations using geospatial analyses and semantic web services[J]. Automation in Construction, 2015, 53: 1-12.

[24] MIGNARD C, GESQUIERE G, NICOLLE C. SIGA3D: a semantic bim extension to represent urban environment[C]//Proceedings of the 5th International Conference on Advances Semantic Processing. Lisbon: IARIA XPS Press, 2011: 20-25.

[25] FREY B J, DUECK D. Clustering by passing messages between data points[J]. Science, 2007, 315(5814): 972-976.

[26] RESNIK P. Using information content to evaluate semantic similarity in a taxonomy[EB/OL]. [2019-08-10]. https://xueshu.baidu.com/usercenter/paper/show?paperid=d102100755fd36fcfcf6573f2b9b2593&site=xueshu_se.

[27] TVERSKY A, GATI I. Studies of similarity[J]. Cognition and Categorization, 1978, 1(1978): 79-98.

[28] SALTON G, WONG A, YANG C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.

[29] LI N, LI Q, LIU Y S, et al. BIMSeek++: retrieving BIM components using similarity measurement of attributes[J]. Computers in Industry, 2020, 116: 103186, 1-12.

[30] HAN Z, SHANG M, LIU Z, et al. SeqViews2SeqLabels: learning 3D global features via aggregating sequential views by RNN with attention[J]. IEEE Transactions on Image Processing, 2019, 28(2): 658-672.

[31] HAN Z, LU H, LIU Z, et al. 3D2SeqViews: aggregating sequential views for 3D global feature learning by CNN with hierarchical attention aggregation[J]. IEEE Transactions on Image Processing, 2019, 28(8): 3986-3999.

[32] HAN Z, LIU Z, VONG C-M, et al. Deep spatiality: unsupervised learning of spatially-enhanced global and local 3D features by deep neural network with coupled softmax[J]. IEEE Transactions on Image Processing, 2018, 27(6): 3049-3063.

[33] HAN Z, LIU Z, VONG C-M, et al. BoSCC: bag of spatial context correlations for spatially enhanced 3D shape representation[J]. IEEE Transactions on Image Processing, 2017, 26(8): 3707-3720.

[34] LIU X H, HAN Z Z, LIU Y S, et al. Point2Sequence: learning the shape representation of 3D point clouds with an attention-based sequence to sequence network[EB/OL]. [2019-08-10]. https://xueshu.baidu.com/usercenter/paper/ show?paperid=140p0m30uu7p00v0kk6g02a02u626778&site=xueshu_se.

[35] HAN Z Z, SHANG M Y, LIU Y S, et al. View inter-prediction GAN: unsupervised representation learning for 3D shapes by learning global shape memories to support local view predictions[EB/OL]. [2019-08-10]. http://xueshu.baidu.com/usercenter/paper/ show?paperid=136m0cc0hy5206j0jy2x0rq0ru020636&site=xueshu_se.

Clustering of BIM components based on similarity measurement of attributes

WANG Wan-qi1, MA Bao-rui2, LI Qian2, LU Wen-long1, LIU Yu-shen2

(1. Institute of Computing Technology, China Academy of Railway Sciences Corporation Limited, Beijing 100081, China; 2. School of Software, BNRist, Tsinghua University, Beijing 100084, China)

In recent years, resources in the Building Information Modeling (BIM) components library are expanding rapidly on the Internet. There is an increasing demand for ways to cluster and retrieve appropriate BIM components among countless resources. However, the way to extract domain information of BIM components still can not be found in existing methods. This paper studies the clustering of BIM components based on the domain information of BIM components: ①For BIM components, tan algorithm measuring similarity is proposed based on the attribute information. Compared with the traditional Tversky similarity measure algorithm and geometry similarity matching algorithm, the newly proposed one the present study has produced a better result. ②A clustering method of BIM component library is proposed based on the similarity measure algorithm of BIM components. Users are provided with diverse ways to retrieve and check information thanks to the search engine of BIMSeek integrated with functions of keyword-based retrieval and classifier view. Compared with the K-medoids algorithm and AP algorithm, the results of ours are more desirable.

building information modeling; industry foundation class; information retrieval; similarity measure; clustering

TP 391

10.11996/JG.j.2095-302X.2020020304

2095-302X(2020)02-0304-09

2019-09-10；

2019-10-14

國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2018YFB0505400)；國鐵集團(tuán)科技研究開發(fā)計(jì)劃項(xiàng)目(K2018G055, 2017X003)

王萬齊(1978-)，男，甘肅環(huán)縣人，研究員，博士。主要研究方向?yàn)榻ㄖ畔⒛Ｐ团c應(yīng)用等。E-mail：13701314627@163.com

劉玉身(1976-)，男，遼寧瓦房店人，副教授，博士。主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)與建筑信息模型。E-mail：liuyushen@tsinghua.edu.cn

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于屬性相似性度量的BIM構(gòu)件聚類

1 相關(guān)工作

2 方法

2.1 基于屬性信息量的構(gòu)件相似性度量

2.2 基于相似性傳播算法的初始種子選取

2.3 基于K-medoids算法的BIM構(gòu)件聚類

2.4 二級(jí)聚類標(biāo)簽的統(tǒng)計(jì)和選取

2.5 聚類結(jié)果合并

2.6 一級(jí)標(biāo)簽的選取

3 實(shí)例驗(yàn)證與評(píng)估

3.1 BIM構(gòu)件聚類應(yīng)用于檢索系統(tǒng)的實(shí)現(xiàn)

3.2 聚類結(jié)果比較

4 結(jié)束語