endog
、exog
,那是什麼?¶
statsmodels 使用 endog
和 exog
作為資料的名稱,這些是估計問題中使用的觀察變數。其他在不同統計軟體包或教科書中常用的名稱例如:
endog |
exog |
---|---|
y |
x |
y 變數 |
x 變數 |
左手邊 (LHS) |
右手邊 (RHS) |
應變數 |
自變數 |
被迴歸數 |
迴歸子 |
結果 |
設計 |
反應變數 |
解釋變數 |
用法通常是領域和模型特定的;然而,我們選擇幾乎完全使用 endog 和 exog。一個幫助區分這兩個詞的記憶提示是,外生 (exogenous) 的名稱中有個「x」,就像 x 變數一樣。
x 和 y 是有時用於臨時變數的單字母名稱,本身並無資訊量。為了避免單字母名稱,我們決定使用描述性名稱,並選定了 endog
和 exog
。由於這一點受到批評,未來可能會有所改變。
背景知識¶
以下是一些術語的非正式定義:
內生 (endogenous):由系統內部的因素引起
外生 (exogenous):由系統外部的因素引起
內生變數指的是經濟/計量經濟模型中,由該模型解釋或預測的變數。 http://stats.oecd.org/glossary/detail.asp?ID=794
外生變數指的是經濟/計量經濟模型中出現,但不被該模型解釋的變數(即它們被模型視為給定的)。 http://stats.oecd.org/glossary/detail.asp?ID=890
在計量經濟學和統計學中,這些術語有更正式的定義,並且根據模型使用不同的外生性定義(弱、強、嚴格)。statsmodels 中作為變數名稱的用法,並非總能以正式意義解釋,但試圖遵循相同的原則。
在最簡單的形式中,模型以某種線性或非線性形式將觀察到的變數 y 與另一組變數 x 相關聯
y = f(x, beta) + noise
y = x * beta + noise
然而,要有一個統計模型,我們需要對解釋變數 x 和雜訊的屬性進行額外的假設。許多基本模型的一個標準假設是 x 與雜訊不相關。在更一般的定義中,x 是外生的,意味著當我們要估計 x 對 y 的影響或測試關於此影響的假設時,我們不必考慮 x 中的解釋變數是如何產生的,無論是透過設計還是從某些底層分佈中隨機抽取。
換句話說,y 對我們的模型來說是內生的,x 對我們模型的估計來說是外生的。
舉例來說,假設你進行了一項實驗,但在第二階段,有些受試者不再可用。這個退出對於你從實驗中得出的結論有影響嗎?換句話說,我們是否可以將退出決定視為對我們問題而言是外生的?
使用者需要知道(或查閱教科書以了解)模型的底層統計假設是什麼。例如,如果誤差或雜訊項在時間上是獨立分佈的(或在時間上不相關),則 OLS
中的 exog
可以有滯後的應變數。但是,如果在存在滯後的應變數的情況下,誤差項是自相關的,那麼 OLS 就沒有良好的統計屬性(不一致),而正確的模型將是 ARMAX。statsmodels
有迴歸診斷功能,可以測試某些假設是否合理。