汽車零部件數(shù)據(jù)如何處理?
汽車是一個復(fù)雜的系統(tǒng),其間近千種零部件在工作,這些零部件運轉(zhuǎn)的數(shù)據(jù)信息來源多樣,格式不同,因此,對汽車的技術(shù)研發(fā)人員來說,要掌握這些供研發(fā)使用,就必須建設(shè)一個可向汽車產(chǎn)業(yè)人士開放的多語言多生產(chǎn)體系對應(yīng)的汽車零部件名稱信息查詢平臺;在這個數(shù)據(jù)平臺上,同時可以查詢關(guān)聯(lián)技術(shù)、典型圖例、配套車型、零部件編號、產(chǎn)品品牌、生產(chǎn)廠家名稱等信息,形成一個開放性的網(wǎng)絡(luò)數(shù)據(jù)庫服務(wù)。
而要對這么多來源的數(shù)據(jù)源信息進行整合并開發(fā)出一個平臺,勢必要進行數(shù)據(jù)處理——數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、及數(shù)據(jù)驗證算法。
零部件數(shù)據(jù)處理的目的,有兩個方面的含義,其一是得到標準的零部件數(shù)據(jù),標準指各項屬性符合規(guī)范,如日期數(shù)據(jù)含有年月日信息。品牌數(shù)據(jù)對于不同的語言如福特,針對中文品牌,F(xiàn)ord針對英文(或國際)品牌。同樣,福特蒙迪歐和福特嘉年華針對的是中文的車型;其二是發(fā)現(xiàn)新的零部件詞匯,并將新的零部件名稱添加到詞匯表中,用于零部件搜索。
零部件數(shù)據(jù)處理主要分為數(shù)據(jù)格式分析、數(shù)據(jù)讀取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)驗證、數(shù)據(jù)分析、數(shù)據(jù)入庫等部分。在處理過程中,數(shù)據(jù)首先需要經(jīng)過格式分析,以確定數(shù)據(jù)讀取的方式,數(shù)據(jù)的讀取根據(jù)匹配的格式規(guī)則進行;數(shù)據(jù)清洗和轉(zhuǎn)換是將數(shù)據(jù)中的垃圾信息清除,并將數(shù)據(jù)變?yōu)闃藴蕯?shù)據(jù)。如“嘉年華3廂”和“嘉年華三廂”是典型的零部件數(shù)據(jù)的中文車型,那么到底以那個為標準呢?顯然上述兩個數(shù)據(jù)需要對應(yīng)到標準的“福特嘉年華三廂”,我們稱這類標準數(shù)據(jù)為主數(shù)據(jù);最后對轉(zhuǎn)換后的數(shù)據(jù)進行必要的驗證,以確保數(shù)據(jù)的一致性。如零部件數(shù)據(jù)的車型數(shù)據(jù)應(yīng)和品牌數(shù)據(jù)一致。否則可能出現(xiàn)車型是“福特嘉年華三廂”而品牌卻為“上海通用別克”的笑話。
此外數(shù)據(jù)分析的目的,是發(fā)現(xiàn)零部件新的詞匯,根據(jù)固定詞匯搭配及出現(xiàn)的頻率,自動篩選出新的詞匯。
零部件數(shù)據(jù)處理的總體結(jié)構(gòu)如下圖,淺色部分為處理的數(shù)據(jù)處理單元。
數(shù)據(jù)輸入到平臺中,依此經(jīng)過:數(shù)據(jù)格式分析——對輸入數(shù)據(jù)的格式進行分析,以確定數(shù)據(jù)讀取的對應(yīng)方式;數(shù)據(jù)讀取——根據(jù)格式分析處理單元得到的格式,讀取數(shù)據(jù);數(shù)據(jù)清洗——根據(jù)清洗規(guī)則,將數(shù)據(jù)中含有的非法字符、控制字符過濾;數(shù)據(jù)轉(zhuǎn)換——根據(jù)轉(zhuǎn)換規(guī)則將數(shù)據(jù)轉(zhuǎn)換為標準數(shù)據(jù);數(shù)據(jù)驗證——根據(jù)數(shù)據(jù)驗證規(guī)則將一條的數(shù)據(jù)記錄中不同的數(shù)據(jù)屬性進行比較,查找屬性相互矛盾的數(shù)據(jù)記錄;數(shù)據(jù)分析——根據(jù)主數(shù)據(jù),及出現(xiàn)頻率達到一定值的數(shù)據(jù)確定為新出現(xiàn)的詞,供人工審核后入庫;數(shù)據(jù)入庫——將處理完成的數(shù)據(jù)如正式庫。
數(shù)據(jù)處理單元,在處理完成后,會將處理的狀態(tài)寫入處理日志。人工控制臺隨后讀取數(shù)據(jù)處理日志,對相關(guān)數(shù)據(jù)進行人工處理。人工處理根據(jù)數(shù)據(jù)的性質(zhì)不同主要分為錯誤數(shù)據(jù)處理和基礎(chǔ)數(shù)據(jù)的更新。錯誤數(shù)據(jù)處理,是指對數(shù)據(jù)本身進行維護,如日期寫成09-01-28,顯然數(shù)據(jù)指2009年1月28日。此外還需要對基礎(chǔ)數(shù)據(jù)進行維護,上述數(shù)據(jù)的出現(xiàn)主要在數(shù)據(jù)轉(zhuǎn)換中出現(xiàn)了問題,現(xiàn)有的轉(zhuǎn)換規(guī)則不能識別09-01-28這樣的日期數(shù)據(jù),需要將新發(fā)現(xiàn)的規(guī)則加入到基礎(chǔ)數(shù)據(jù)的轉(zhuǎn)換規(guī)則中去。
每一個數(shù)據(jù)處理單元具有相似的結(jié)構(gòu)。實際上在真實的環(huán)境中,數(shù)據(jù)在一個處理單元處理完后,需要將一些相關(guān)的信息提交給下一個處理單元,而不僅僅是處理的結(jié)果數(shù)據(jù)。
處理單元輸入由:輸入數(shù)據(jù)、處理單元報表和數(shù)據(jù)更新通知三個部分;同樣它的輸出由輸出數(shù)據(jù)和其他兩類組成。中間部分為處理單元的執(zhí)行實體。
數(shù)據(jù)的輸入、輸出:
輸入數(shù)據(jù)是上一個處理單元處理成功的數(shù)據(jù);處理單元報表是本次數(shù)據(jù)的處理狀態(tài)統(tǒng)計,含有本次處理的輸入數(shù)據(jù)量、處理成功數(shù)量、錯誤數(shù)據(jù)數(shù)量、不能識別的數(shù)據(jù)量、人工更新數(shù)量、基礎(chǔ)數(shù)據(jù)修改數(shù)量等信息,它的詳細信息在數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)和日志的內(nèi)部。處理單元報表建立的主要目的是監(jiān)控數(shù)據(jù)的處理狀態(tài),使數(shù)據(jù)處理的過程可以從結(jié)果中追述;數(shù)據(jù)更新通知,是指上一個處理單元中的錯誤數(shù)據(jù)或不能識別的數(shù)據(jù)經(jīng)過人工修改后,成為成功的數(shù)據(jù),這類數(shù)據(jù)在上一個處理單元前次處理中并沒有作為輸入進入到本處理單元中,因此需要本處理單元重新處理。
數(shù)據(jù)處理的執(zhí)行實體:
數(shù)據(jù)輸入到數(shù)據(jù)處理單元后,首先由數(shù)據(jù)處理核心單元進行處理,過程中需要讀取基礎(chǔ)數(shù)據(jù),并對輸入數(shù)據(jù)進行運算,將結(jié)果數(shù)據(jù)輸出。然后更新數(shù)據(jù)處理日志和基礎(chǔ)數(shù)據(jù)日志。日志中含需要人工處理的信息,人工處理過程中,如需要對基礎(chǔ)數(shù)據(jù)進行修改,則更新基礎(chǔ)數(shù)據(jù)。
零部件數(shù)據(jù)處理平臺針對的是汽車零部件行業(yè),但從結(jié)構(gòu)上來說是可以推廣到其他應(yīng)用行業(yè)的。零部件數(shù)據(jù)處理或者說數(shù)據(jù)處理核心價值是提高大批量數(shù)據(jù)處理的能力,保證數(shù)據(jù)的準確性。在今后的發(fā)展中,還可以放在開發(fā)出高效的格式、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)驗證的自適應(yīng)算法上,減少人工處理的工作量,提高數(shù)據(jù)數(shù)據(jù)處理的及時性和準確性。
(本文來源于上海嘉之道汽車咨詢有限公司承接上海市科委“汽車零部件信息資源服務(wù)平臺”項目研究成果)