李明陽 林靜旭 廣州大學
大數(shù)據(jù)時代的數(shù)據(jù)挖掘
——從應(yīng)用的角度看大數(shù)據(jù)挖掘
李明陽 林靜旭 廣州大學
大數(shù)據(jù)時代是指信息化時代,信息爆炸的時代背景下,信息、數(shù)據(jù)、資源能內(nèi)容大量出現(xiàn)且充斥在我們的生活中。針對大數(shù)據(jù)的挖掘,旨在將大數(shù)據(jù)所包含的信息內(nèi)容進行分析,明確其各自之間存在的關(guān)系。本文中針對大數(shù)據(jù)的挖掘,主要是從大數(shù)據(jù)的定義、特點出發(fā),從而來了解大數(shù)據(jù)的內(nèi)涵。
大數(shù)據(jù)時代 數(shù)據(jù)挖掘 數(shù)據(jù)應(yīng)用
目前,關(guān)于大數(shù)據(jù)的研究表明,大數(shù)據(jù)從數(shù)據(jù)信息的表現(xiàn)和實際應(yīng)用兩方面觀察,存在不一樣的特性。具體來講,從表現(xiàn)上來分析,大數(shù)據(jù)具有大量、多樣、高速以及價值四個特征。首先,信息化時代下大數(shù)據(jù)的數(shù)量是龐大的,第二,在此基礎(chǔ)上,這些龐大的數(shù)量以各種各樣的形式和類型表現(xiàn)出來,如我們通常查看的圖片、視頻、音頻文件等,第三,互聯(lián)網(wǎng)的全面普及以及信息技術(shù)的更新,使得信息數(shù)據(jù)的傳播越來越迅速,而且信息數(shù)據(jù)處理的速度也有了翻天覆地的變化。第四,這些數(shù)據(jù)所蘊含的價值是巨大的,我們可以通過搜索、查詢、處理等方式來分析這些數(shù)據(jù)信息所包含的數(shù)據(jù),從而使這些信息數(shù)據(jù)更具有價值意義。從大數(shù)據(jù)的實際應(yīng)用層面分析,大數(shù)據(jù)具有變化性、真實性、波動性以及可視化性四個特征。信息處理技術(shù)的更新,使得對大數(shù)據(jù)的處理更加的快速和便捷,而且在新的趨勢下,大數(shù)據(jù)可視化能夠有效的促進數(shù)據(jù)處理的速度,提升信息數(shù)據(jù)的效率,能夠更加直觀的方便獲取信息價值,充分的發(fā)揮信息數(shù)據(jù)的作用。
目前,國內(nèi)外針對大數(shù)據(jù)理論和實踐的研究非常之多,對于大數(shù)據(jù)的理解也各不相同。根據(jù)實際調(diào)查發(fā)現(xiàn),目前對大數(shù)據(jù)的定義主要包含以下幾種觀點:大數(shù)據(jù)是多類型的海量數(shù)據(jù);大數(shù)據(jù)是規(guī)模龐大、并且具有一定的復雜性和時效性的數(shù)據(jù)集合,而且這類數(shù)據(jù)集合需要使用特定的工具,且在一定的時效內(nèi)才能對其進行處理;大數(shù)據(jù)是一種信息類的資源和資產(chǎn),非常具有價值,但是其需要通過更為先進科學的處理手段,才能更好的發(fā)揮其作用。綜上所述,大數(shù)據(jù)是一種來源于實際生活中,在實際生活中應(yīng)用實踐所產(chǎn)生的信息數(shù)據(jù),對于大數(shù)據(jù)的發(fā)掘是因為實踐所需要,通過一定的方式和媒介,將數(shù)據(jù)信息挖掘出來,并加以處理,將其應(yīng)用到實踐當中,從而產(chǎn)生更加具有價值的信息以及作用。
信息化時代背景下,數(shù)據(jù)的價值在于其產(chǎn)生-挖掘-收集這一流程,其中最為關(guān)鍵,同是也最具有意義的在于對于數(shù)據(jù)的挖掘。一般情況下,我們將海量的數(shù)據(jù)進行處理和分析,根據(jù)分析,大數(shù)據(jù)的挖掘具有應(yīng)用性、工程性、集合性以及交叉性四個特征。具體來講,大數(shù)據(jù)挖掘的應(yīng)用性表現(xiàn)在,大數(shù)據(jù)挖掘的原因在于,實踐過程中需要數(shù)據(jù)信息作為支撐,所以需要對大數(shù)據(jù)進行挖掘和采用,而大數(shù)據(jù)挖掘后得到的信息數(shù)據(jù),是要應(yīng)用到實踐當中的,因此,大數(shù)據(jù)挖掘具有應(yīng)用性。大數(shù)據(jù)挖掘的工程性在于,大數(shù)據(jù)挖掘的過程是一個復雜化、組合型的過程,需要依靠多方面的支持來輔助進行的,針對大數(shù)據(jù)的挖掘需要利用到計算算法、處理以及分析,還包括實際的數(shù)據(jù)應(yīng)用,而且這個過程中對大數(shù)據(jù)來講,需要準備好數(shù)據(jù)資源,對其進行管理、處理以及分析,然后將所獲取的信息數(shù)據(jù)重新應(yīng)用驗證,因此可見大數(shù)據(jù)挖掘具有工程性。而大數(shù)據(jù)挖掘的集合性和交叉性分別在于,大數(shù)據(jù)的挖掘包括對于大數(shù)據(jù)的發(fā)現(xiàn)、探索、分析;相似信息的挖掘、序列發(fā)掘等類型,以具體的大數(shù)據(jù)挖掘應(yīng)用為例,針對這個數(shù)據(jù)的挖掘以及后期的應(yīng)用是涉及到多個內(nèi)容以及功能的,這些內(nèi)容和功能的使用都需要以技術(shù)、理論作為支撐,交叉性在于大數(shù)據(jù)挖掘包含多個學科知識、理論和技術(shù)的使用。
根據(jù)上文所述,大數(shù)據(jù)挖掘的關(guān)鍵在于挖掘信息的意義,即通過技術(shù)、理論等方式所挖掘的信息是否具有實用性和適用性。具體來講,針對大數(shù)據(jù)的挖掘是需要將大數(shù)據(jù)的應(yīng)用性挖掘出來。
以企事業(yè)單位為例,企事業(yè)單位的大數(shù)據(jù)庫涉及企事業(yè)單位內(nèi)部各個部門、崗位以及職員的信息數(shù)據(jù),其所包含的信息內(nèi)容具有復雜性和多樣性,針對這類單位的大數(shù)據(jù)挖掘,首先需要對單位內(nèi)部的信息數(shù)據(jù)進行重新收集,將各個部門的信息數(shù)據(jù)進行整合,是一項大工程,需要企事業(yè)單位領(lǐng)導階層的理解和全力支持,對下屬部門進行溝通和要求,為大數(shù)據(jù)的收集提供便利。另外,對大數(shù)據(jù)的挖掘最終是要將處理后的信息數(shù)據(jù)應(yīng)用于實踐中,對所獲取的數(shù)據(jù)進行檢驗,查驗其是否具有意義和價值,因此也同樣需要領(lǐng)導人員的支持和支撐。
除此之外,基于數(shù)據(jù)的復雜性、多樣性、瑣碎性以及關(guān)聯(lián)性,導致所挖掘的大數(shù)據(jù)具有一定的模糊性,企事業(yè)單位也存在不明確信息數(shù)據(jù)的用途等可能性,這種情況下,可能就會造成數(shù)據(jù)挖掘和處理部門工作的難度增大,阻礙數(shù)據(jù)挖掘的進程。因此,在大數(shù)據(jù)挖掘的過程中,數(shù)據(jù)挖掘處理部門需要和數(shù)據(jù)來源部門進行詳細的溝通,明確數(shù)據(jù)挖掘的要求和目的,然后再進行數(shù)據(jù)的收集和挖掘,通過長時間的溝通和嘗試,來挖掘具有實用性的大數(shù)據(jù)。
總而言之,信息化時代下,大數(shù)據(jù)挖掘的目的在于將所挖掘處理的信息數(shù)據(jù)再次應(yīng)用到實踐中,因此,信息數(shù)據(jù)挖掘部門在進行大數(shù)據(jù)挖掘工作中,務(wù)必要明確數(shù)據(jù)挖掘的來源、用途,才能確保所挖掘的數(shù)據(jù)和應(yīng)用具有關(guān)聯(lián)性,才能保證最終獲取的數(shù)據(jù)具有價值,避免無用之功。
[1]田志民,梁品超,任艷紅,彭程.大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J/OL].當代教育實踐與教學研究,2017,(10):4(2017-10-16).
[2]李翼,孟莉. 大數(shù)據(jù)條件下的數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J/OL]. 電子技術(shù)與軟件工程,2017,(18):198(2017-09-27).