文/付晨
隨著經(jīng)濟的快速發(fā)展,各種項目層出不窮,而項目的審核工作對于項目落地來說至關(guān)重要。但項目審核的流程繁多,文件資料也復(fù)雜多樣。面對大量且復(fù)雜的資料,傳統(tǒng)的人工審核顯然已經(jīng)無法從容應(yīng)對,人工智能技術(shù)或許將成為解決其問題的切口。
項目審核是一項復(fù)雜且專業(yè)性很強的工作,一方面,是審核的項目文件數(shù)量和內(nèi)容過多;另一方面,是項目文件之間存在一些聯(lián)系,有時需要大量的計算來加以驗證,因此審核的工作往往需要耗費大量的時間和精力。更為嚴(yán)重的是,審核人員在審核過程中可能會出現(xiàn)舞弊的現(xiàn)象,嚴(yán)重影響企業(yè)發(fā)展并造成不良的社會影響。而隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,人工智能技術(shù)為解決以上問題帶來了新的思路。
人工智能(AI)是計算機系統(tǒng)對人類智能過程的模擬,包括學(xué)習(xí)(獲取信息和使用信息的規(guī)則),推理(使用規(guī)則來達(dá)到近似或明確的結(jié)論)和自我糾正。人工智能是對計算機系統(tǒng)如何能夠履行那些只有依靠人類智慧才能完成的任務(wù)的理論研究,依賴于大量的數(shù)據(jù)收集、處理和分析,并從數(shù)據(jù)中得出一套行為規(guī)則,并保有自我學(xué)習(xí)的能力。簡單來說,人工智能可以很大程度上幫助工作人員進(jìn)行常規(guī)性的審核工作,甚至對重要的環(huán)節(jié)進(jìn)行提示和幫助??傊?,運用人工智能,可以最大限度地借助計算機的計算能力,極大地提高審核工作效率,推進(jìn)審核進(jìn)度,降低工作失誤,減少人力成本。
計算機視覺技術(shù)是指計算機從圖像中識別出物體、場景和活動的能力。計算機視覺技術(shù)運用圖像處理操作及其他技術(shù),將圖像的分析任務(wù)分解為便于管理的小塊任務(wù)。比如,一些圖像識別技術(shù)能夠從圖像中檢測到物體的邊緣及紋理。而圖像分類技術(shù)可被用作確定識別到的特征是否能夠代表系統(tǒng)已知的一類物體。最近火熱的“人臉識別”技術(shù)就屬于其中一種。通過計算機視覺技術(shù),能夠?qū)崿F(xiàn)對紙質(zhì)地文檔資料進(jìn)行掃描,獲取其中的信息,并轉(zhuǎn)換為一定的編碼形式,供計算機進(jìn)一步分析,實際上就是起到了人的“眼睛”的作用。但人的肉眼會疲勞,而計算機不會。因此,計算機視覺技術(shù)作為人工智能技的子分支,既能夠提高文檔的信息獲取和處理速度,也能提高獲取信息的準(zhǔn)確度。
自然語言處理技術(shù)是指計算機擁有的類似人類處理文本的能力,比如,從文本中提取意義,甚至從那些可讀的、語法正確的文本中自主解讀出含義。一個自然語言處理系統(tǒng)并不了解人類處理文本的方式,但是它卻可以用非常復(fù)雜與成熟的手段巧妙地處理文本,例如自動識別一份文檔中所有被提及的人與地點;識別文檔的核心主題;或者在一堆僅人類可讀的合同中,將各種條款與條件提取出來并制作成表。以上這些任務(wù)通過傳統(tǒng)的文本處理軟件根本不可能完成,后者僅能針對簡單的文本匹配與模式進(jìn)行操作。因此,在文檔審核過程中,自然語言處理技術(shù)能夠起到人的“閱讀”作用,可以有針對地對文檔內(nèi)容進(jìn)行查找并分析。
機器學(xué)習(xí)是計算機從數(shù)據(jù)中自動發(fā)現(xiàn)模式,并將模式用于做預(yù)測。比如,給予機器學(xué)習(xí)系統(tǒng)一個關(guān)于交易時間、商家、地點、價格及交易是否正當(dāng)?shù)刃庞每ń灰仔畔⒌臄?shù)據(jù)庫,系統(tǒng)就會學(xué)習(xí)到可用來預(yù)測信用卡欺詐的模式。處理的交易數(shù)據(jù)越多,預(yù)測就會越好。機器學(xué)習(xí)需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練和調(diào)整,不斷從文檔資料提取一些信息特征,并建立相應(yīng)模型進(jìn)行預(yù)測,識別和判定其他的內(nèi)容文字,以達(dá)到最后的學(xué)習(xí)效果。因此,機器學(xué)習(xí)就相當(dāng)于人的“思考”和“判斷”,在計算機識別技術(shù)和自然語言技術(shù)等其他技術(shù)的基礎(chǔ)上,對文檔內(nèi)容進(jìn)行進(jìn)一步分析,判斷內(nèi)容是否符合規(guī)范,是否有誤,甚至實現(xiàn)自動糾錯等功能。
數(shù)據(jù)集準(zhǔn)備工作,其中包括加載數(shù)據(jù)集和執(zhí)行數(shù)據(jù)預(yù)處理的過程。如果是紙質(zhì)文檔,需要先通過計算機視覺技術(shù)進(jìn)行信息獲取。為滿足后期的模型訓(xùn)練,往往需要大量的數(shù)據(jù)集,不同種類的文檔資料都要保證一定的數(shù)量,以保證模型可以對多類型文檔進(jìn)行分析。另一方面,對原始數(shù)據(jù)還要進(jìn)行預(yù)處理,比如按不同標(biāo)題進(jìn)行內(nèi)容分割,確保針對同一類型的內(nèi)容進(jìn)行分析和訓(xùn)練。
特征工程,其主要目的是突出關(guān)鍵信息,隔離無效或無用信息。在計算機視覺中,特征可以是圖像中的線。在自然語言處理中,并且短語或特殊詞計數(shù)可以是特征。在語音識別中,特征可以是單個單詞或音調(diào)。如果正確完成了特征工程,它可以通過從原始數(shù)據(jù)創(chuàng)建有助于促進(jìn)機器學(xué)習(xí)過程的特征來提高機器學(xué)習(xí)算法的預(yù)測能力。常見的特征形式有:計數(shù)向量、映射數(shù)值、TF-IDF向量等等。特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為更能代表預(yù)測模型的基礎(chǔ)問題的特征的過程,從而提高了對潛在數(shù)據(jù)的模型準(zhǔn)確性。
建立模型并進(jìn)行訓(xùn)練。機器學(xué)習(xí)有許多基礎(chǔ)模型,常見的有樸素貝葉斯分類器、線性分類器、SVM模型、隨機森林模型、Boosting模型、深度神經(jīng)網(wǎng)絡(luò)等等。針對文檔審核問題,可以建立一種基于機器學(xué)習(xí)的文檔規(guī)范性審核模型,并依據(jù)數(shù)據(jù)集進(jìn)行模型訓(xùn)練,并對模型的求解結(jié)果進(jìn)行初步評估。模型效果不理想的,還要進(jìn)行模型參數(shù)的調(diào)整,以達(dá)到符合標(biāo)準(zhǔn)的效果;有時利用不同的模型并混合它們的輸出還可以進(jìn)一步改善結(jié)果。
在測試集上檢驗?zāi)P?。模型?xùn)練后,還要準(zhǔn)備測試數(shù)據(jù)集對其進(jìn)行驗證,對模型的實際審核能力進(jìn)行評估。如果模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)很好但在測試數(shù)據(jù)上表現(xiàn)不佳,則表明它過度擬合。換句話說,訓(xùn)練出來的模型僅僅適用于訓(xùn)練數(shù)據(jù)上,對其他的數(shù)據(jù)集沒有普遍的適用價值。當(dāng)模型檢驗結(jié)果不符合預(yù)期時,應(yīng)該重新調(diào)整參數(shù),再次進(jìn)行訓(xùn)練,或者調(diào)整思路,更換模型和方法,以達(dá)到預(yù)取的效果。
總而言之,人工智能技術(shù)在項目過程文檔資料審核校驗中的應(yīng)用,能夠很大程度上地提高工作人員的審核效率,減輕審核工作的壓力?,F(xiàn)如今,人們的日常工作也逐漸滲入了文檔內(nèi)容識別的人工智能元素。在未來,人工智能技術(shù)勢必會進(jìn)一步發(fā)展,能夠幫助人處理日常事務(wù),提高人的工作效率,促進(jìn)時代的發(fā)展。