統計 stats
¶
本節收集了各種統計檢定和工具。有些可以獨立於任何模型使用,有些則作為模型和模型結果的擴展。
API 警告:此類別中的函式和物件分散在各個模組中,並且可能仍然會被移動。我們預期未來統計檢定將返回具有更多資訊報告的類別實例,而不是僅返回原始數字。
殘差診斷和規格檢定¶
|
計算 Durbin-Watson 統計量。 |
|
Jarque-Bera 常態性檢定。 |
|
常態性綜合檢定 |
|
計算偏態的 medcouple 穩健度量。 |
|
計算 Kim & White 中的四種偏態度量 |
|
計算 Kim & White 中的四種峰度度量 |
|
計算 Kim 和 White 中假設資料呈常態分佈的穩健峰度度量的期望值。 |
|
殘差自相關的 Breusch-Godfrey 拉格朗日乘數檢定。 |
|
殘差自相關的 Ljung-Box 檢定。 |
|
自相關的拉格朗日乘數檢定。 |
|
基於 ols 殘差的參數穩定性的 Cusum 檢定。 |
|
模型穩定性檢定,ols 參數的中斷點,Hansen 1992 |
|
計算具有殘差和 Cusum 檢定統計量的遞迴 ols |
|
計算非巢狀模型的 Cox 檢定 |
|
用於比較非巢狀模型的 Davidson-MacKinnon 包容檢定 |
|
計算非巢狀模型的 J 檢定 |
|
自迴歸條件異質變異性 (ARCH) 的恩格爾檢定。 |
|
異質變異性的 Breusch-Pagan 拉格朗日乘數檢定 |
|
Goldfeld-Quandt 同質變異性檢定。 |
|
異質變異性的 White 拉格朗日乘數檢定。 |
|
White 的雙動差規格檢定 |
|
線性的 Harvey Collier 檢定 |
|
針對函數替代的線性拉格朗日乘數檢定 |
|
線性的彩虹檢定 |
|
Ramsey 的 RESET 檢定,用於檢測被忽略的非線性 |
離群值和影響力測量¶
|
計算 OLS 結果的離群值和影響力測量的類別 |
|
影響力和離群值測量(實驗性) |
|
全域影響力和離群值測量(實驗性) |
|
一個外生變數的變異數膨脹因子 (VIF) |
另請參閱關於迴歸診斷的說明
三明治穩健共變異數¶
以下函數計算參數估計的共變異數矩陣和標準差,這些估計對誤差中的異質變異性和自相關具有穩健性。與 LinearModelResults 可用的方法類似,這些方法設計用於 OLS。
|
異質變異性和自相關穩健共變異數矩陣 (Newey-West) |
|
面板 HAC 穩健共變異數矩陣 |
|
Driscoll 和 Kraay 面板穩健共變異數矩陣 |
|
群集穩健共變異數矩陣 |
用於兩個群組/群集的群集穩健共變異數矩陣 |
|
|
異質變異性穩健共變異數矩陣 (White) |
以下是附加到 LinearModelResults 的異質變異性穩健標準差的獨立版本
|
請參閱 statsmodels.RegressionResults |
|
請參閱 statsmodels.RegressionResults |
|
請參閱 statsmodels.RegressionResults |
|
請參閱 statsmodels.RegressionResults |
從共變異數矩陣取得標準差 |
適合度檢定和測量¶
一些用於單變數分布的適合度檢定
|
計算冪次差異,一類適合度檢定,作為觀察數據和預期數據之間差異的度量。 |
|
對離散分布的隨機樣本執行卡方檢定 |
|
取得離散分布卡方類型 gof 檢定的組別 |
|
卡方適合度檢定的效應量 |
|
計算 Anderson-Darling a2 統計量。 |
|
針對未知平均數和變異數的常態分佈進行 Anderson-Darling 檢定。 |
|
使用 Lilliefors 檢定測試假設的常態或指數分佈。 |
|
使用 Lilliefors 檢定測試假設的常態或指數分佈。 |
|
使用 Lilliefors 檢定測試假設的常態或指數分佈。 |
|
使用 Lilliefors 檢定測試假設的常態或指數分佈。 |
非參數檢定¶
|
McNemar 檢定 |
|
檢定 (k, k) 方形列聯表的對稱性 |
|
中位數/位置相等性的卡方檢定 |
|
在二元離散數據之上/之下使用遊程檢定 |
|
兩個樣本的 Wald-Wolfowitz 遊程檢定 |
|
Cochran 的 Q 檢定,用於檢定 k 個處理的相同效果 |
|
二元序列中遊程的類別 |
|
符號檢定 |
|
x1 的值大於 x2 的機率的統計量和檢定。 |
|
2 個獨立順序樣本的隨機較大機率。 |
|
等級比較的結果 |
將 Cohen's d 效果大小轉換為隨機較大機率。 |
|
|
表示 distr1 在隨機上大於 distr2 的機率。 |
|
計算兩個樣本的中間等級。 |
敘述統計¶
|
資料的延伸敘述統計。 |
|
資料的延伸敘述統計。 |
評分者間信度與一致性¶
statsmodels 目前可用的評分者間一致性測量和檢定的主要函數是 Cohen's Kappa。 Fleiss' Kappa 目前僅作為測量值實作,但沒有相關的結果統計資料。
|
計算具有變異數和等於零檢定的 Cohen's Kappa。 |
|
Fleiss' 和 Randolph 的 kappa 多評分者一致性測量。 |
|
將形狀為 (受試者、評分者) 的原始資料轉換為 (評分者 1、評分者 2)。 |
|
將形狀為 (受試者、評分者) 的原始資料轉換為 (受試者、cat_counts)。 |
多重檢定與多重比較程序¶
multipletests 是一個用於 p 值校正的函數,其中也包括基於 fdrcorrection 中的錯誤發現率的 p 值校正。tukeyhsd 執行同時檢定以比較(獨立)平均數。這三個函數均已驗證。 GroupsStats 和 MultiComparison 是用於多重比較的便利類別,類似於單因子變異數分析,但仍在開發中
|
多重檢定的檢定結果和 p 值校正。 |
|
錯誤發現率的 p 值校正。 |
|
按組別統計(另一個版本)。 |
|
多重比較的檢定。 |
|
Tukey HSD 檢定結果,具有額外的繪圖方法 |
|
使用 TukeyHSD 信賴區間計算所有成對比較 |
|
計算 Z 分數列表的局部錯誤發現率 (FDR) 值。 |
|
(迭代) 兩階段線性逐步上升程序,估計真實假設的數量 |
|
估計零 Z 分數的高斯分佈。 |
|
控制迴歸程序中的 FDR。 |
用於 FDR 控制的邊際相關效應量。 |
|
用於虛擬變數分析的 OLS 迴歸。 |
|
|
用於 FDR 控制的前向選擇效應量。 |
用於虛擬變數分析的 OLS 迴歸。 |
|
|
使用任何迴歸模型進行迴歸 FDR 分析。 |
以下函數尚未公開
|
所有成對樣本大小不相等時的變異數校正因子 |
|
從所有成對樣本的變異數和樣本大小不相等的情況下,返回聯合變異數 |
|
樣本大小不相等時的變異數校正因子 |
|
從樣本的變異數和樣本大小不相等的情況下,返回聯合變異數 |
|
逐步下降方法的類別 |
|
|
陣列物件代表一個固定大小項目的多維、同質陣列。 |
|
|
簡單的均值依序比較 |
|
成對距離矩陣,從 tukeyhsd 外包 |
|
用於 fdrcorrection 的簡陋經驗累積分布函數 (ecdf) |
|
返回 Tukey's HSD (Q) 的臨界值 |
|
遞迴檢查所有成對 vals 的最小距離 |
|
尋找所有向上過零並返回最高的索引 |
|
尋找所有向上過零並返回最高的索引 |
|
蒙地卡羅方法測試 fdrcorrection |
str(object='') -> str str(bytes_or_buffer[, encoding[, errors]]) -> str |
|
|
從等相關多變數常態分佈建立隨機抽樣 |
|
rankdata,等同於 scipy.stats.rankdata |
|
多重檢定中拒絕的參考線 |
|
從元組列表提取分割 |
|
從元組列表中移除作為另一個集合子集的集合 |
|
應等同於 scipy.stats.tiecorrect |
具有頻率權重的基本統計和 t 檢定¶
除了基本統計資料(例如具有案例權重的資料的平均值、變異數、共變異數和相關性)外,此處的類別還提供單樣本和雙樣本平均值檢定。t 檢定比 scipy.stats 中的選項更多,但在陣列的形狀方面更具限制性。平均值的信賴區間是根據與 t 檢定相同的假設提供的。
此外,還提供單樣本和雙樣本(成對或獨立)的平均值等效性檢定。這些檢定基於 TOST(雙單側檢定),其零假設是平均值彼此並非「接近」。
|
案例權重的加權描述統計資料和檢定 |
|
雙樣本比較的類別 |
|
獨立樣本t檢定 |
|
兩個獨立樣本的 (非)等效性檢定 |
|
兩個相依、配對樣本的 (非)等效性檢定 |
|
基於常態分佈的平均數檢定,單樣本或雙樣本 |
|
基於常態分佈的等效性檢定 |
|
基於常態分佈 z 檢定的信賴區間 |
weightstats 也包含基於摘要資料的檢定和信賴區間
|
基於摘要統計的通用 t 信賴區間 |
|
基於摘要統計的通用 t 檢定 |
|
基於摘要統計的通用常態信賴區間 |
|
基於摘要統計的通用(常態)z 檢定 |
|
基於摘要統計的通用(常態)z 檢定 |
檢定力與樣本大小計算¶
power
模組目前實作 t 檢定、基於常態的檢定、F 檢定和卡方適合度檢定的檢定力與樣本大小計算。實作方式是基於類別,但此模組也提供三個快捷函式:tt_solve_power
、tt_ind_solve_power
和 zt_ind_solve_power
,來求解檢定力方程式的任何一個參數。
|
雙獨立樣本 t 檢定的統計檢定力計算 |
|
單樣本或配對樣本 t 檢定的統計檢定力計算 |
|
單樣本卡方檢定的統計檢定力計算 |
|
雙獨立樣本 z 檢定的統計檢定力計算。 |
|
單因子平衡變異數分析的 F 檢定統計檢定力計算 |
|
限制條件的通用 F 檢定統計檢定力計算 |
|
計算常態分佈檢定統計量的檢定力 |
|
如果只有單尾相關時,明確計算樣本大小 |
|
求解單樣本 t 檢定的檢定力之任一參數 |
|
求解雙樣本 t 檢定的檢定力之任一參數 |
|
求解雙樣本 z 檢定的檢定力之任一參數 |
比例¶
也提供比例的假設檢定、信賴區間和效應大小,可與 NormalIndPower 一起使用。
|
二項式比例的信賴區間 |
|
比較兩個比例的檢定之效應大小 |
|
執行檢定以判斷成功的機率是否為 p。 |
|
單樣本比例的二項式檢定之拒絕區域 |
|
使用二項式分佈的單比例精確 TOST 檢定 |
|
二項式 TOST 的拒絕區域 |
|
多項式比例的信賴區間。 |
|
基於常態 (z) 檢定的比例檢定 |
|
基於常態分佈的等效性檢定 |
|
基於卡方檢定的比例檢定 |
|
k 個樣本所有配對的比例卡方檢定 |
|
k 個樣本與控制組配對的比例卡方檢定 |
|
比較兩個比例的檢定之效應大小 |
|
|
|
基於常態分佈的比例等效性檢定的檢定力 |
|
找出達到所需信賴區間長度的樣本數 |
兩個獨立樣本的統計量。狀態:實驗性,API 可能會變更,於 0.12 版本新增
|
比較兩個獨立比例的假設檢定 |
|
比較兩個獨立比例的信賴區間。 |
|
兩個獨立比例相等的 z 檢定檢定力 |
|
基於兩個單邊 test_proportions_2indep 的等效性檢定 |
|
基於單邊假設常態分佈所需的樣本數 |
|
兩個獨立比例的分數檢定 |
|
藉由反轉分數檢定計算分數信賴區間 |
比率¶
比率的統計函數。目前包含兩個獨立樣本的假設檢定。另請參閱範例筆記本以取得概述 Poisson 比率
狀態:實驗性,API 可能會變更,於 0.12 版本新增,於 0.14 版本重構並增強
單樣本的統計函數
|
單樣本卜瓦松平均數或比率的檢定 |
|
卜瓦松平均數或比率的信賴區間 |
|
卜瓦松隨機變數分位數的信賴區間 |
|
卜瓦松觀測值的容忍區間 |
兩個獨立樣本的統計函數
|
比較兩個樣本卜瓦松強度比率的檢定。 |
|
兩個樣本卜瓦松比率之比的 E 檢定。 |
|
兩個獨立卜瓦松比率之比或差的信賴區間。 |
|
基於兩個單邊 test_proportions_2indep 的等效性檢定 |
|
卜瓦松的非等效性檢定,最小效應。 |
統計檢定力的函數
|
兩個獨立卜瓦松比率之比的檢定檢定力。 |
|
兩個獨立卜瓦松比率之比的等效性檢定檢定力。 |
|
兩個獨立卜瓦松比率之差的 z 檢定檢定力。 |
|
兩個獨立負二項分佈比率檢定的檢定力。 |
|
兩個獨立負二項分佈比率等效性檢定的檢定力。 |
多變量¶
多變量樣本的統計函數。
這包括多變量觀察樣本平均值的假設檢定和信賴區間,以及共變異數矩陣結構的假設檢定。
狀態:實驗性,API 可能會變更,在 0.12 版本中加入
|
單一樣本中多變量平均值的 Hotelling 檢定 |
|
多變量平均值線性轉換的信賴區間 |
|
多變量平均值線性轉換的信賴區間 |
|
兩個獨立樣本中多變量平均值的 Hotelling 檢定 |
|
共變異數等於虛無假設共變異數的單一樣本假設檢定 |
|
共變異數為分塊對角矩陣的單一樣本假設檢定。 |
|
共變異數矩陣為對角矩陣的單一樣本假設檢定。 |
|
多樣本假設檢定,檢定共變異數矩陣是否相等。 |
|
共變異數矩陣為球狀的單一樣本假設檢定 |
單因子變異數分析¶
單因子 k 樣本分析的假設檢定、信賴區間和效應量。
狀態:實驗性,API 可能會變更,在 0.12 版本中加入
|
單因子變異數分析 |
|
基於摘要統計的單因子變異數分析 |
|
單因子變異數分析的等效性檢定(Wellek's Anova) |
|
單因子變異數分析的等效性檢定(Wellek 和擴充) |
|
單因子等效性檢定的檢定力 |
|
單因子等效性檢定的經驗檢定力 |
|
均等尺度、變異數或離散度的單因子變異數分析檢定 |
|
尺度、變異數或離散度等效性的單因子變異數分析檢定 |
|
F 分佈的單因子變異數分析中效應量的信賴區間 |
|
F 檢定中非中心性參數的信賴區間 |
|
轉換 f 系列中平方的效應量 |
|
單因子變異數分析的 Cohen's f = nc / nobs 對應的效應量 |
|
將 Cohen's f 平方轉換為 Wellek 的效應量(平方根) |
|
將 F 統計量轉換為 Wellek 的效應量 eps 平方 |
|
將 Wellek 的效應量(平方根)轉換為 Cohen's f 平方 |
|
從 F 統計量計算變異數分析效應量 |
|
轉換數據以進行 Levene 類型檢定的變異數比較 |
|
模擬單因子等效性檢定的檢定力(Wellek's Anova) |
穩健、修剪過的統計量¶
針對以固定比例修剪的樣本的統計量。這包括單一樣本統計量的 TrimmedMean 類別。它在 stats.oneway 中用於修剪過的「Yuen」變異數分析。
狀態:實驗性,API 可能會變更,在 0.12 版本中加入
|
修剪和溫莎化單一樣本統計量的類別 |
|
轉換數據以進行 Levene 類型檢定的變異數比較 |
|
從兩端修剪觀察值後回傳陣列的平均值。 |
|
從陣列的兩端切除一定比例的項目。 |
動差輔助函數¶
當存在缺失值時,相關或共變異數矩陣可能不是半正定矩陣。以下函數可用於尋找一個正定且接近原始矩陣的相關或共變異數矩陣。其他函數則估計空間共變異數矩陣和正規化的逆共變異數或精確度矩陣。
|
尋找一個接近正半定的相關矩陣 |
|
尋找最接近的正半定相關矩陣。 |
|
尋找具有因子結構的最接近相關矩陣到給定的方形矩陣。 |
|
從資料陣列建構一個包含已閾值化的逐行相關矩陣的稀疏矩陣。 |
|
尋找最接近的正(半)定共變異數矩陣 |
|
使用 k*I + XX' 形式的因子結構矩陣來逼近任意方形矩陣。 |
|
以因子形式表示正半定矩陣。 |
|
使用核平均來估計多元共變異數函數。 |
|
使用節點式迴歸估計正規化逆共變異數的類別 |
這些是將中心和非中心動差、偏度、峰度和累積分量之間轉換的實用函數。
|
將非中心動差轉換為累積分量,遞迴公式產生與動差相同數量的累積分量 |
|
將中心動差轉換為非中心動差,使用遞迴公式,可選擇調整第一動差以回傳平均值 |
|
將中心動差轉換為平均值、變異數、偏度、峰度 |
|
將非中心動差轉換為累積分量,遞迴公式產生與動差相同數量的累積分量 |
|
將非中心動差轉換為中心動差,使用遞迴公式,可選擇調整第一動差以回傳平均值 |
|
將中心動差轉換為平均值、變異數、偏度、峰度 |
|
將平均值、變異數、偏度、峰度轉換為中心動差 |
|
將平均值、變異數、偏度、峰度轉換為非中心動差 |
|
將共變異數矩陣轉換為相關矩陣 |
|
在給定標準差的情況下,將相關矩陣轉換為共變異數矩陣 |
|
從共變異數矩陣取得標準差 |
中介分析¶
中介分析著重於三個關鍵變數之間的關係:一個「結果」、一個「處理」和一個「中介」。由於中介分析是一種因果推論的形式,因此涉及幾個難以或不可能驗證的假設。理想情況下,中介分析是在實驗的背景下進行的,例如這個實驗,其中處理是隨機分配的。人們也常使用觀察數據進行中介分析,其中處理可以被視為「暴露」。在中介分析背後的假設在觀察環境中更難以驗證。
|
進行中介分析。 |
|
用於保存中介分析結果的類別。 |
Oaxaca-Blinder 分解¶
Oaxaca-Blinder 分解,或有些人稱之為 Blinder-Oaxaca 分解,試圖解釋群體平均值的差距。它使用兩個給定迴歸方程式的線性模型來顯示哪些是由迴歸係數和已知數據解釋的,以及哪些是使用相同數據無法解釋的。有兩種類型的 Oaxaca-Blinder 分解,兩重分解和三重分解,這兩種分解都可以在經濟文獻中使用來討論群體之間的差異。此方法有助於分類歧視或未觀察到的影響。此函數嘗試將 STATA 中 oaxaca 命令的功能移植到 Python。
|
執行 Oaxaca-Blinder 分解的類別。 |
|
此類別總結了 OaxacaBlinder 模型的擬合。 |
距離相依性測量¶
距離相依性測量和距離共變異數 (dCov) 檢定。
|
距離共變異數 (dCov) 檢定 |
|
計算各種距離相關性統計量。 |
|
距離相關性。 |
|
距離共變異數。 |
距離變異數。 |
統合分析¶
用於對一組樣本統計量進行基本統合分析的函數。
範例可以在筆記本中找到
狀態:實驗性,API 可能會變更,在 0.12 版本中加入
|
使用統合分析組合效應量以計算效應量 |
|
兩個樣本二項比例的效應量 |
|
用於統合分析的平均差異效應量 |
|
從平均值或效應量的組合估計中取得的結果 |
該模組還包括用於計算隨機效應變異數的內部函數。
|
隨機效應變異數的迭代動差估計法 |
|
Paule-Mandel 迭代估計隨機效應變異數 |
|
隨機效應變異數的單步動差估計法 |