更新時間:2018-08-23 來源:黑馬程序員人工智能+python培訓(xùn)學(xué)院 瀏覽量:
再好的模型,如果沒有好的數(shù)據(jù)和特征質(zhì)量,那訓(xùn)練出來的效果也不會有所提高。數(shù)據(jù)質(zhì)量對于數(shù)據(jù)分析而言是至關(guān)重要的,有時候它的意義會在某種程度上會勝過模型算法。
本篇開始分享如何使用Python進行數(shù)據(jù)分析,主要側(cè)重介紹一些分析的方法和技巧,而對于pandas和numpy等Pyhon計算包的使用會在問題中提及,但不詳細(xì)介紹。本篇我們來說說面對數(shù)據(jù)的缺失值,我們該如何處理。
1 數(shù)據(jù)缺失的原因首先我們應(yīng)該知道:數(shù)據(jù)為什么缺失?數(shù)據(jù)的缺失是我們無法避免的,可能的原因有很多種,博主總結(jié)有以下三大類:
無意的:信息被遺漏,比如由于工作人員的疏忽,忘記而缺失;或者由于數(shù)據(jù)采集器等故障等原因造成的缺失,比如系統(tǒng)實時性要求較高的時候,機器來不及判斷和決策而造成缺失;
有意的:有些數(shù)據(jù)集在特征描述中會規(guī)定將缺失值也作為一種特征值,這時候缺失值就可以看作是一種特殊的特征值;
不存在:有些特征屬性根本就是不存在的,比如一個未婚者的配偶名字就沒法填寫,再如一個孩子的收入狀況也無法填寫;
總而言之,對于造成缺失值的原因,我們需要明確:是因為疏忽或遺漏無意而造成的,還是說故意造成的,或者說根本不存在。只有知道了它的來源,我們才能對癥下藥,做相應(yīng)的處理。
2 數(shù)據(jù)缺失的類型在對缺失數(shù)據(jù)進行處理前,了解數(shù)據(jù)缺失的機制和形式是十分必要的。將數(shù)據(jù)集中不含缺失值的變量稱為完全變量,數(shù)據(jù)集中含有缺失值的變量稱為不完全變量。而從缺失的分布來將缺失可以分為完全隨機缺失,隨機缺失和完全非隨機缺失。
完全隨機缺失(missing completely at random,MCAR):指的是數(shù)據(jù)的缺失是完全隨機的,不依賴于任何不完全變量或完全變量,不影響樣本的無偏性,如家庭地址缺失;
隨機缺失(missing at random,MAR):指的是數(shù)據(jù)的缺失不是完全隨機的,即該類數(shù)據(jù)的缺失依賴于其他完全變量,如財務(wù)數(shù)據(jù)缺失情況與企業(yè)的大小有關(guān);
非隨機缺失(missing not at random,MNAR):指的是數(shù)據(jù)的缺失與不完全變量自身的取值有關(guān),如高收入人群不原意提供家庭收入;
對于隨機缺失和非隨機缺失,直接刪除記錄是不合適的,原因上面已經(jīng)給出。隨機缺失可以通過已知變量對缺失值進行估計,而非隨機缺失的非隨機性還沒有很好的解決辦法。
3 數(shù)據(jù)缺失的處理方法重點來了,對于各種類型數(shù)據(jù)的缺失,我們到底要如何處理呢?以下是處理缺失值的四種方法:刪除記錄,數(shù)據(jù)填補,和不處理。
1. 刪除記錄優(yōu)點:
最簡單粗暴;
缺點:
犧牲了大量的數(shù)據(jù),通過減少歷史數(shù)據(jù)換取完整的信息,這樣可能丟失了很多隱藏的重要信息;
當(dāng)缺失數(shù)據(jù)比例較大時,特別是缺失數(shù)據(jù)非隨機分布時,直接刪除可能會導(dǎo)致數(shù)據(jù)發(fā)生偏離,比如原本的正態(tài)分布變?yōu)榉钦?/p>
這種方法在樣本數(shù)據(jù)量十分大且缺失值不多的情況下非常有效,但如果樣本量本身不大且缺失也不少,那么不建議使用。
Python中的使用:可以使用 pandas 的 dropna 來直接刪除有缺失值的特征。
#刪除數(shù)據(jù)表中含有空值的行df.dropna(how='any')復(fù)制代碼2. 數(shù)據(jù)填補對缺失值的插補大體可分為兩種:替換缺失值,擬合缺失值,虛擬變量。替換是通過數(shù)據(jù)中非缺失數(shù)據(jù)的相似性來填補,其核心思想是發(fā)現(xiàn)相同群體的共同特征,擬合是通過其他特征建模來填補,虛擬變量是衍生的新變量代替缺失值。
替換缺失值
均值插補:
對于定類數(shù)據(jù):使用 眾數(shù)(mode)填補,比如一個學(xué)校的男生和女生的數(shù)量,男生500人,女生50人,那么對于其余的缺失值我們會用人數(shù)較多的男生來填補。
對于定量(定比)數(shù)據(jù):使用平均數(shù)(mean)或中位數(shù)(median)填補,比如一個班級學(xué)生的身高特征,對于一些同學(xué)缺失的身高值就可以使用全班同學(xué)身高的平均值或中位數(shù)來填補。一般如果特征分布為正太分布時,使用平均值效果比較好,而當(dāng)分布由于異常值存在而不是正太分布的情況下,使用中位數(shù)效果比較好。
注:此方法雖然簡單,但是不夠精準(zhǔn),可能會引入噪聲,或者會改變特征原有的分布。下圖左為填補前的特征分布,圖右為填補后的分布,明顯發(fā)生了畸變。因此,如果缺失值是隨機性的,那么用平均值比較適合保證無偏,否則會改變原分布。
Python中的使用:#使用price均值對NA進行填充df['price'].fillna(df['price'].mean())df['price'].fillna(df['price'].median())復(fù)制代碼
熱卡填補(Hot deck imputation):
熱卡填充法是在完整數(shù)據(jù)中找到一個與它最相似的對象,然后用這個相似對象的值來進行填充。通常會找到超出一個的相似對象,在所有匹配對象中沒有最好的,而是從中隨機的挑選一個作為填充值。這個問題關(guān)鍵是不同的問題可能會選用不同的標(biāo)準(zhǔn)來對相似進行判定,以及如何制定這個判定標(biāo)準(zhǔn)。該方法概念上很簡單,且利用了數(shù)據(jù)間的關(guān)系來進行空值估計,但缺點在于難以定義相似標(biāo)準(zhǔn),主觀因素較多。
K最近距離鄰法(K-means clustering)
另外一種方法就是利用無監(jiān)督機器學(xué)習(xí)的聚類方法。通過K均值的聚類方法將所有樣本進行聚類劃分,然后再通過劃分的種類的均值對各自類中的缺失值進行填補。歸其本質(zhì)還是通過找相似來填補缺失值。
注:缺失值填補的準(zhǔn)確性就要看聚類結(jié)果的好壞了,而聚類結(jié)果的可變性很大,通常與初始選擇點有關(guān),并且在下圖中可看到單獨的每一類中特征值也有很大的差別,因此使用時要慎重。
擬合缺失值
擬合就是利用其它變量做模型的輸入進行缺失變量的預(yù)測,與我們正常建模的方法一樣,只是目標(biāo)變量變?yōu)榱巳笔е怠?/p>
注:如果其它特征變量與缺失變量無關(guān),則預(yù)測的結(jié)果毫無意義。如果預(yù)測結(jié)果相當(dāng)準(zhǔn)確,則又說明這個變量完全沒有必要進行預(yù)測,因為這必然是與特征變量間存在重復(fù)信息。一般情況下,會介于兩者之間效果為最好,若強行填補缺失值之后引入了自相關(guān),這會給后續(xù)分析造成障礙。
利用模型預(yù)測缺失變量的方法有很多,這里僅簡單介紹幾種。
回歸預(yù)測:
如我們之前提到的房價預(yù)測項目一樣數(shù)據(jù)分析實戰(zhàn)—北京二手房房價分析(建模篇),基于完整的數(shù)據(jù)集,建立回歸方程。對于有缺失值的特征值,將已知特征值代入模型來估計未知特征值,以此估計值來進行填充,以下圖為例。當(dāng)然關(guān)于回歸的方法有很多,這里就不詳細(xì)介紹了。
缺失值是連續(xù)的,即定量的類型,才可以使用回歸來預(yù)測。
極大似然估計(Maximum likelyhood):
在缺失類型為隨機缺失的條件下,假設(shè)模型對于完整的樣本是正確的,那么通過觀測數(shù)據(jù)的邊際分布可以對未知參數(shù)進行極大似然估計(Little and Rubin)。這種方法也被稱為忽略缺失值的極大似然估計,對于極大似然的參數(shù)估計實際中常采用的計算方法是期望值最大化(Expectation Maximization,EM)。該方法比刪除個案和單值插補更有吸引力,它一個重要前提:適用于大樣本。有效樣本的數(shù)量足夠以保證ML估計值是漸近無偏的并服從正態(tài)分布。但是這種方法可能會陷入局部極值,收斂速度也不是很快,并且計算很復(fù)雜,且僅限于線性模型。
多重插補(Mutiple imputation):
多值插補的思想來源于貝葉斯估計,認(rèn)為待插補的值是隨機的,它的值來自于已觀測到的值。具體實踐上通常是估計出待插補的值,然后再加上不同的噪聲,形成多組可選插補值。根據(jù)某種選擇依據(jù),選取最合適的插補值。
我們看到,以上提出的擬合和替換方法都是單一的插補方法,而多重插補彌補了單一插補的缺陷,它并沒有試圖去通過模擬值去估計每個缺失值,而是提出缺失數(shù)據(jù)值的一個隨即樣本(這些樣本可以是不同的模型擬合結(jié)果的組合)。這種程序的實施恰當(dāng)?shù)胤从沉擞捎谌笔е狄鸬牟淮_定性,使得統(tǒng)計推斷有效。多重插補推斷可以分為以下3個步驟:
為每個缺失值產(chǎn)生一套可能的插補值,這些值反映了無響應(yīng)模型的不確定性;
每個插補數(shù)據(jù)集合都用針對完整數(shù)據(jù)集的統(tǒng)計方法進行統(tǒng)計分析;
對來自各個插補數(shù)據(jù)集的結(jié)果,根據(jù)評分函數(shù)進行選擇,產(chǎn)生最終的插補值;
根據(jù)數(shù)據(jù)缺失機制、模式以及變量類型,可分別采用回歸、預(yù)測均數(shù)匹配( predictive mean matching, PMM )、趨勢得分( propensity score, PS )、Logistic回歸、判別分析以及馬爾可夫鏈蒙特卡羅( Markov Chain Monte Carlo, MCMC) 等不同的方法進行填補。
假設(shè)一組數(shù)據(jù),包括三個變量Y1,Y2,Y3,它們的聯(lián)合分布為正態(tài)分布,將這組數(shù)據(jù)處理成三組,A組保持原始數(shù)據(jù),B組僅缺失Y3,C組缺失Y1和Y2。在多值插補時,對A組將不進行任何處理,對B組產(chǎn)生Y3的一組估計值(作Y3關(guān)于Y1,Y2的回歸),對C組作產(chǎn)生Y1和Y2的一組成對估計值(作Y1,Y2關(guān)于Y3的回歸)。
當(dāng)用多值插補時,對A組將不進行處理,對B、C組將完整的樣本隨機抽取形成為m組(m為可選擇的m組插補值),每組個案數(shù)只要能夠有效估計參數(shù)就可以了。對存在缺失值的屬性的分布作出估計,然后基于這m組觀測值,對于這m組樣本分別產(chǎn)生關(guān)于參數(shù)的m組估計值,給出相應(yīng)的預(yù)測,這時采用的估計方法為極大似然法,在計算機中具體的實現(xiàn)算法為期望最大化法(EM)。對B組估計出一組Y3的值,對C將利用Y1,Y2,Y3它們的聯(lián)合分布為正態(tài)分布這一前提,估計出一組(Y1,Y2)。
上例中假定了Y1,Y2,Y3的聯(lián)合分布為正態(tài)分布。這個假設(shè)是人為的,但是已經(jīng)通過驗證(Graham和Schafer于1999),非正態(tài)聯(lián)合分布的變量,在這個假定下仍然可以估計到很接近真實值的結(jié)果。
注:使用多重插補要求數(shù)據(jù)缺失值為隨機性缺失,一般重復(fù)次數(shù)20-50次精準(zhǔn)度很高,但是計算也很復(fù)雜,需要大量計算。
隨機森林:
另一種比較常用的擬合方法就是隨機森林,這也是Kaggle競賽中大佬們經(jīng)常使用的一個辦法,具體實現(xiàn)方式與正常一樣,只是將缺失值作為目標(biāo)變量即可。以下**知識星球項目(一)**中一段代碼,僅供參考。
def set_missing_ages(df): # 把已有的數(shù)值型特征取出來丟進Random Forest Regressor中 age_df = df[['Age','Fare', 'Parch', 'SibSp', 'Pclass']] # 乘客分成已知年齡和未知年齡兩部分 known_age = age_df[age_df.Age.notnull()].as_matrix() unknown_age = age_df[age_df.Age.isnull()].as_matrix() # y即目標(biāo)年齡 y = known_age[:, 0] # X即特征屬性值 X = known_age[:, 1:] # fit到RandomForestRegressor之中 rfr = RandomForestRegressor(random_state=0, n_estimators=2000, n_jobs=-1) rfr.fit(X, y) # 用得到的模型進行未知年齡結(jié)果預(yù)測 predictedAges = rfr.predict(unknown_age[:, 1:])# print predictedAges # 用得到的預(yù)測結(jié)果填補原缺失數(shù)據(jù) df.loc[ (df.Age.isnull()), 'Age' ] = predictedAges return df, rfr復(fù)制代碼
·虛擬變量
虛擬變量其實就是缺失值的一種衍生變量。具體做法是通過判斷特征值是否有缺失值來定義一個新的二分類變量。比如,特征為A含有缺失值,我們衍生出一個新的特征B,如果A中特征值有缺失,那么相應(yīng)的B中的值為1,如果A中特征值沒有缺失,那么相應(yīng)的B中的值為0。
下面是知識星球項目(一)中的一段程序:
data_train['CabinCat'] = data_train['Cabin'].copy()data_train.loc[ (data_train.CabinCat.notnull()), 'CabinCat' ] = "No"data_train.loc[ (data_train.CabinCat.isnull()), 'CabinCat' ] = "Yes"fig, ax = plt.subplots(figsize=(10,5))sns.countplot(x='CabinCat', hue='Survived',data=data_train)plt.show()復(fù)制代碼
下面可以通過一行代碼清楚看到衍生的虛擬變量。
data_train[['Cabin','CabinCat']].head(10)復(fù)制代碼
3. 不處理補齊處理只是將未知值補以我們的主觀估計值,不一定完全符合客觀事實,在對不完備信息進行補齊處理的同時,我們或多或少地改變了原始的信息系統(tǒng)。而且,對空值不正確的填充往往將新的噪聲引入數(shù)據(jù)中,使挖掘任務(wù)產(chǎn)生錯誤的結(jié)果。因此,在許多情況下,我們還是希望在保持原始信息不發(fā)生變化的前提下對信息系統(tǒng)進行處理。
在實際應(yīng)用中,一些模型無法應(yīng)對具有缺失值的數(shù)據(jù),因此要對缺失值進行處理。然而還有一些模型本身就可以應(yīng)對具有缺失值的數(shù)據(jù),此時無需對數(shù)據(jù)進行處理,比如Xgboost,rfr等高級模型。
4 總結(jié)總而言之,大部分?jǐn)?shù)據(jù)挖掘的預(yù)處理都會使用比較方便的方法來處理缺失值,比如均值法,但是效果上并一定好,因此還是需要根據(jù)不同的需要選擇合適的方法,并沒有一個解決所有問題的萬能方法。具體的方法采用還需要考慮多個方面的:
數(shù)據(jù)缺失的原因;
數(shù)據(jù)缺失值類型;
樣本的數(shù)據(jù)量;
數(shù)據(jù)缺失值隨機性等;
作者:黑馬程序員人工智能+python培訓(xùn)學(xué)院
首發(fā):http://python.itheima.com/