旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實習/?A計劃
全國統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析python自回歸模型

大數(shù)據(jù)分析python自回歸模型

時間:2020-07-15來源:5wd995.cn點擊量:作者:Sissi
時間:2020-07-15點擊量:作者:Sissi



  在時間序列中,我們經(jīng)常觀察到過去和現(xiàn)在的值之間的相似性。那是因為我們在此類數(shù)據(jù)中遇到自相關(guān)。換句話說,通過了解當今產(chǎn)品的價格,我們經(jīng)??梢詫γ魈斓漠a(chǎn)品價值做出大致的預測。因此,在大數(shù)據(jù)分析python自回歸模型中,我們將討論一個反映這種相關(guān)性的模型。–自回歸模型。
 

大數(shù)據(jù)分析python自回歸模型

 

  什么是自回歸模型?
 

  自回歸模型或簡稱為AR模型,僅依靠過去的時間值來預測當前值。這是一個線性模型,其中當前期間的值是過去結(jié)果的總和乘以數(shù)字因子。我們將其表示為AR(p),其中“ p”稱為模型的階數(shù),表示我們要包括的滯后值的數(shù)量。
 

  例如,如果我們將X作為時間序列變量,則AR(1)(也稱為簡單自回歸模型)將看起來像這樣:
 

  X t = C + ? 1 X t-1 + ? t
 

  讓我們仔細研究這個等式的不同部分,以確保我們很好地理解這個概念。
 

  X t-1是多少?
 

  對于初學者,X t-1表示上一期間的X值。
 

  讓我們詳細說明。
 

  如果“ t”代表今天并且我們有每周值,那么“ t-1”代表上周。因此,X t-1描述了一周前記錄的值。
 

  ? 1是什么?
 

  系數(shù)? 1是一個數(shù)字常數(shù),通過該常數(shù)我們可以將滯后變量(X t-1)相乘。您可以將其解釋為先前值的一部分,該值會保留在將來。值得注意的是,這些系數(shù)應始終在-1和1之間。
 

  讓我解釋一下原因。
 

  如果系數(shù)的絕對值大于1,則隨著時間的流逝,它將無可估量地爆炸。
 

  起初,這個想法似乎令人困惑。因此,讓我們看一個數(shù)學示例。
 

  假設(shè)我們有一個包含1000個觀測值的時間序列,? 1 = 1.3并且C = 0。
 

  然后,X 2 = 0 + 1.3 X 1
 

  既然X 3 = 1.3 X 2,我們可以用(1.3 X 1)代替X 2,得到X 3 = 1.3(1.3 X 1)= 1.3 2 X 1。然后,隨著累積的時間越多(例如X 50),系數(shù)增加的幅度就越大(1.3 49 X 1)。
 

  當我們到達第1000個周期時,我們將得到X 1000 = 1.3 999 X 1。這意味著這些值會繼續(xù)增加,最終比初始值要高得多。這顯然不是預測未來的可靠方法。
 

  什么是ε 牛逼?
 

  好了,現(xiàn)在我們需要打破方程的唯一部分是ε 牛逼。這就是所謂的殘留,并代表周期t和正確的值(ε我們的預測之間的差噸 = Y 噸 - ? 噸)。這些殘差通常是不可預測的差異,因為如果存在某種模式,它將被模型的其他現(xiàn)有因素捕獲。
 

  我們?nèi)绾谓忉屪曰貧w模型?
 

  現(xiàn)在我們知道模型的所有部分代表什么,讓我們嘗試對其進行解釋。根據(jù)等式,在給定時期(X值噸)等于某個部分(φ 1中的最后一個時間段(X值)T-1 ),加上一些恒定基準的和不可預測的沖擊ε 噸。
 

  了解我們在給定的數(shù)據(jù)集上不僅僅使用任何自回歸模型至關(guān)重要。我們首先需要確定要在分析中包括多少個滯后(過去值)。
 

  具有更多滯后的自回歸模型
 

  例如,有關(guān)氣象條件的時間序列將不僅僅依賴于一天前的天氣統(tǒng)計數(shù)據(jù)。可以肯定地說,它將使用過去7天的數(shù)據(jù)。因此,該模型應考慮最多7個周期的值。
 

  從數(shù)學的角度來看,使用兩個滯后的模型(AR(2))如下所示:
 

  X t = C + ? 1 X t-1 + ? 2 X t-2 + ? t
 

  如您所料,更復雜的自回歸模型將包含更多滯后值X t-n以及它們相關(guān)的系數(shù)? n。
 

  我們包含的滯后越多,我們的模型就越復雜。
 

  模型越復雜,我們必須確定的系數(shù)就越多,結(jié)果,其中某些系數(shù)不重要的可能性就越大。
 

  現(xiàn)在,通常來說,考慮到更多數(shù)據(jù)進行預測的模型通常會更好。但是,如果系數(shù)(? 1,? 2,…… n)與0的差別不大,則它們對預測值沒有影響(因為? k X t-k = 0),因此將它們包括在內(nèi)幾乎沒有意義。在模型中。
 

  當然,無法手動確定這些系數(shù)的重要性。
 

  對我們來說幸運的是,Python非常適合這項工作。借助方便的庫(例如Pandas和Statsmodels),我們可以為任何給定的數(shù)據(jù)集確定最合適的自回歸模型。
 

  如果您想了解有關(guān)在Python中實現(xiàn)自回歸模型或模型選擇過程如何工作的更多信息,請務必查看我們的分步Python教程。
 

  如果您不熟悉 Python,并且熱衷于了解更多信息,那么這篇有關(guān)學習Python編程的綜合文章將指導您從安裝到Python IDE,庫和框架,再到最佳Python職業(yè)發(fā)展道路,以及工作前景。
 

  準備好邁向大數(shù)據(jù)分析事業(yè)的下一步了嗎?
 

  立即查看完整的大數(shù)據(jù)分析技術(shù)文章。從我們的統(tǒng)計,數(shù)學和Excel課程開始,從基礎(chǔ)知識入手,逐步掌握SQL,Python,R和Tableau的經(jīng)驗,并通過機器學習,深度學習,信用風險建模,時間序列分析升級技能和Python中的客戶分析。如果您仍然不確定要把對數(shù)據(jù)科學的興趣變成扎實的職業(yè),我們還提供了大數(shù)據(jù)分析試聽課程。聯(lián)系在線客服小姐姐索取試聽課程

 

預約申請免費試聽課

填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!

?2007-2021/北京漫動者教育科技有限公司版權(quán)所有
備案號:京ICP備12034770號

?2007-2022/ 5wd995.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號

網(wǎng)站地圖