使用鏈式方程式進行多重插補

MICE 模組允許將大多數 statsmodels 模型擬合到獨立和/或依變數存在缺失值的資料集,並為擬合的參數提供嚴謹的標準誤差。基本概念是將每個具有缺失值的變數視為迴歸中的依變數,並以其餘變數的部分或全部作為預測變數。MICE 程序循環執行這些模型,依次擬合每個模型,然後使用稱為「預測平均值匹配」(PMM) 的程序,從由擬合模型確定的預測分佈中產生隨機抽樣。這些隨機抽樣成為一個插補資料集的插補值。

預設情況下,每個具有缺失變數的變數都會使用線性迴歸建模,並以資料集中所有其他變數作為主要效應。請注意,即使插補模型是線性的,PMM 程序也會保留每個變數的域。因此,例如,如果給定變數的所有觀察值都是正數,則該變數的所有插補值將始終為正數。使用者也可以選擇指定使用哪個模型來為每個變數生成插補值。

類別

MICE(model_formula, model_class, data[, ...])

使用鏈式方程式進行多重插補。

MICEData(data[, perturbation_method, k_pmm, ...])

包裝資料集以允許使用 MICE 處理缺失資料。

MI(imp, model[, model_args_fn, ...])

MI 使用提供的插補器物件執行多重插補。

BayesGaussMI(data[, mean_prior, cov_prior, ...])

使用高斯模型進行貝氏插補。

實作細節

在內部,此函數使用 pandas.isnull。任何從此函數返回 True 的值都將被視為缺失資料。


上次更新:2024 年 10 月 03 日