更新時間:2022-07-27 來源:黑馬程序員 瀏覽量:
隨著大數(shù)據(jù)技術(shù)掀起的計算機領(lǐng)域的新浪潮,無論是數(shù)據(jù)分析、數(shù)據(jù)挖掘還是機器學習、人工智能,都離不開數(shù)據(jù)這一主題。
在實際應(yīng)用中,初始數(shù)據(jù)一般是多數(shù)據(jù)源且格式多樣化的數(shù)據(jù),這些數(shù)據(jù)的質(zhì)量通常是良莠不齊的,或多或少存在問題,不能直接被使用到數(shù)據(jù)分析或數(shù)據(jù)挖掘工作中,直接使用會造成低質(zhì)量的分析或挖掘結(jié)果。
初始數(shù)據(jù)在進行分析或挖掘之前需要經(jīng)過一定的處理,調(diào)整成符合分析或挖掘需求的數(shù)據(jù)。而從初始數(shù)據(jù)到得出分析或挖掘結(jié)果的整個過程中對數(shù)據(jù)經(jīng)過的一系列操作稱為數(shù)據(jù)預(yù)處理。
數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析或數(shù)據(jù)挖掘前的準備工作,也是數(shù)據(jù)分析或數(shù)據(jù)挖掘中必不可少的一環(huán),它主要通過一系列的方法來處理“臟”數(shù)據(jù)、精準地抽取數(shù)據(jù)、調(diào)整數(shù)據(jù)的格式,從而得到一組符合準確、完整、簡潔等標準的高質(zhì)量數(shù)據(jù),保證該數(shù)據(jù)能更好地服務(wù)于數(shù)據(jù)分析或數(shù)據(jù)挖掘工作。
據(jù)統(tǒng)計發(fā)現(xiàn),數(shù)據(jù)預(yù)處理的工作量占據(jù)整個數(shù)據(jù)挖掘工作的60%,由此可見,數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中扮演著舉足輕重的角色。
舉一個簡單的例子,摩拜單車在經(jīng)過數(shù)據(jù)預(yù)處理前。戶編號、單車編號、單車類型是一些冗余的屬性,對分析目標而言沒有任何意義;騎行時長是對分析目標起關(guān)鍵作用的屬性,但該列中有若干個空缺。
經(jīng)過預(yù)處理后,城市和騎行時長列的數(shù)據(jù)比較完整,也根據(jù)城市名稱進行了歸類,方便用戶快速地得出各城市用戶的平均騎行時長。
顯而易見若使用預(yù)處理前的摩拜單車數(shù)據(jù)對各城市用戶的平均騎行時長進行分析,會導致分析結(jié)果存在一些偏差,相反地,使用預(yù)處理后的摩拜單車數(shù)據(jù)進行分析,會得到一個較為準確的分析結(jié)果。