国产自国产在线观看免费观看,久久高潮视频

大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)

時(shí)間：2020-09-14來源：5wd995.cn點(diǎn)擊量：次作者：Sissi

時(shí)間：2020-09-14點(diǎn)擊量：次作者：Sissi

　　在研究大數(shù)據(jù)分析的統(tǒng)計(jì)數(shù)據(jù)時(shí)，你不可避免地需要學(xué)習(xí)概率。在概率背后的公式和理論中很容易迷失自己，但在工作和日常生活中都有重要的用途。我們之前已經(jīng)討論了描述性統(tǒng)計(jì)中的一些基本概念;現(xiàn)在，我們將探討統(tǒng)計(jì)學(xué)與概率的關(guān)系。

　　先決條件：

　　大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)假定沒有先驗(yàn)統(tǒng)計(jì)知識(shí)，但至少需要具備Python的一般知識(shí)和一般的大數(shù)據(jù)分析知識(shí)。如果你對(duì)for循環(huán)和列表不滿意，建議在繼續(xù)之前在我們的Python入門課程中簡(jiǎn)要介紹它們。

　　什么是概率?

　　在最基本的層面上，概率試圖回答以下問題：“事件發(fā)生的機(jī)會(huì)是什么?” 一個(gè)事件是一些令人感興趣的結(jié)果。要計(jì)算事件發(fā)生的機(jī)會(huì)，我們還需要考慮所有可能發(fā)生的其他事件。概率的典型代表是謙虛的拋硬幣。在拋硬幣過程中，唯一可能發(fā)生的事件是：

　　1)正面

　　2)反面

　　這兩個(gè)事件構(gòu)成了示例空間，即所有可能發(fā)生的事件的集合。為了計(jì)算事件發(fā)生的可能性，我們計(jì)算感興趣事件可以發(fā)生多少次(例如翻轉(zhuǎn))，并將其除以樣本空間。因此，概率將告訴我們，理想的硬幣有正面或反面的二分之一的機(jī)會(huì)。通過查看可能發(fā)生的事件，概率為我們提供了進(jìn)行預(yù)測(cè)的框架關(guān)于事件發(fā)生的頻率。但是，即使看起來很明顯，但如果我們實(shí)際上嘗試扔掉一些硬幣，偶爾也會(huì)有一次異常高或低的正面計(jì)數(shù)。如果我們不想假設(shè)硬幣是公平的，該怎么辦?我們可以收集數(shù)據(jù)!我們可以使用統(tǒng)計(jì)數(shù)據(jù)基于對(duì)現(xiàn)實(shí)世界的觀察來計(jì)算概率，并檢查其與理想情況的比較。

　　從統(tǒng)計(jì)到概率

　　我們的數(shù)據(jù)將通過擲硬幣10次并計(jì)數(shù)我們獲得多少次來生成。我們將召集一組10個(gè)拋硬幣試驗(yàn)。我們的數(shù)據(jù)點(diǎn)將是我們觀察到的磁頭數(shù)量。我們可能沒有“理想”的5位負(fù)責(zé)人，但是我們不會(huì)擔(dān)心太多，因?yàn)橐淮卧囼?yàn)只是一個(gè)數(shù)據(jù)點(diǎn)。如果我們進(jìn)行很多次試驗(yàn)，我們希望所有試驗(yàn)的平均腦袋數(shù)接近50%。下面的代碼模擬10、100、1000和1000000次試驗(yàn)，然后計(jì)算觀察到的頭部的平均比例。下圖也總結(jié)了我們的過程。

大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)

　　該coin_trial功能代表了10次拋硬幣的模擬。它使用該random()函數(shù)生成介于0和1之間的浮點(diǎn)數(shù)，heads如果它在該范圍的一半以內(nèi)，則增加計(jì)數(shù)。然后，simulate根據(jù)你想要的次數(shù)重復(fù)這些試驗(yàn)，并返回所有試驗(yàn)中平均頭數(shù)。投幣模擬給了我們一些有趣的結(jié)果。

　　首先，數(shù)據(jù)證實(shí)我們的平均正面人數(shù)確實(shí)接近了應(yīng)該達(dá)到的概率。此外，隨著更多的試驗(yàn)，該平均值得到提高。在10個(gè)試驗(yàn)中，有一些輕微的錯(cuò)誤，但是在進(jìn)行1,000,000次試驗(yàn)后，該錯(cuò)誤幾乎完全消失了。隨著更多的試驗(yàn)，偏離平均值的偏差減小。聽起來有點(diǎn)熟?當(dāng)然，我們本來可以自己扔掉硬幣的，但是Python允許我們?cè)诖a中對(duì)該過程進(jìn)行建模，從而為我們節(jié)省了很多時(shí)間。隨著我們獲得越來越多的數(shù)據(jù)，現(xiàn)實(shí)世界開始類似于理想狀態(tài)。

　　因此，在給定足夠的數(shù)據(jù)的情況下，統(tǒng)計(jì)數(shù)據(jù)使我們能夠使用現(xiàn)實(shí)世界的觀察來計(jì)算概率。概率提供了理論，而統(tǒng)計(jì)學(xué)提供了使用數(shù)據(jù)測(cè)試該理論的工具。描述性統(tǒng)計(jì)，特別是均值和標(biāo)準(zhǔn)差，成為理論上的代理。你可能會(huì)問：“如果我僅能自己計(jì)算理論概率，那為什么需要代理?” 拋硬幣是一個(gè)簡(jiǎn)單的玩具示例，但更有趣的概率卻不那么容易計(jì)算。

　　隨著時(shí)間的推移，某人患上疾病的機(jī)會(huì)有多大?開車時(shí)關(guān)鍵的汽車部件發(fā)生故障的概率是多少?沒有簡(jiǎn)單的方法來計(jì)算概率，因此我們必須依靠數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù)來計(jì)算它們。在提供越來越多的數(shù)據(jù)的情況下，我們可以更加放心，我們計(jì)算出的值代表了這些重要事件發(fā)生的真實(shí)概率。話雖這么說，但請(qǐng)記住，根據(jù)我們之前的統(tǒng)計(jì)信息，你是一名培訓(xùn)侍酒師。在開始購(gòu)買葡萄酒之前，你需要確定哪些葡萄酒比其他葡萄酒更好。你手頭上有很多數(shù)據(jù)，因此我們將使用我們的統(tǒng)計(jì)數(shù)據(jù)來指導(dǎo)我們的決策。

　　數(shù)據(jù)與分布

　　在解決“哪種葡萄酒比平均水平更好”的問題之前，我們必須考慮數(shù)據(jù)的性質(zhì)。直觀地講，我們想用葡萄酒的分?jǐn)?shù)來比較各組，但是有一個(gè)問題：分?jǐn)?shù)通常在一定范圍內(nèi)。我們?nèi)绾伪容^葡萄酒類型之間的分?jǐn)?shù)組，并在一定程度上確定一種葡萄酒優(yōu)于另一種葡萄酒?輸入正態(tài)分布。正態(tài)分布是指概率和統(tǒng)計(jì)領(lǐng)域中的一個(gè)特別重要的現(xiàn)象。正態(tài)分布如下所示：

　　關(guān)于正態(tài)分布，要注意的最重要特征是其對(duì)稱性和形狀。我們一直稱其為分布，但是究竟分布了什么?這取決于上下文。在概率上，正態(tài)分布是所有事件之間概率的特定分布。x軸代表我們想知道概率的事件的值。y軸是與每個(gè)事件相關(guān)的概率，范圍是0到1。

　　我們?cè)谶@里沒有深入討論概率分布，但是知道正態(tài)分布是一種特別重要的概率分布。在統(tǒng)計(jì)數(shù)據(jù)中，是分布的數(shù)據(jù)值。在此，x軸是我們數(shù)據(jù)的值，而y軸是這些值中每個(gè)值的計(jì)數(shù)。這是正態(tài)分布的同一張圖片，但根據(jù)概率和統(tǒng)計(jì)上下文進(jìn)行了標(biāo)記：

　　在概率上下文中，正態(tài)分布中的最高點(diǎn)表示發(fā)生概率最高的事件。隨著你從任一端離此事件越來越遠(yuǎn)，幾率迅速下降，形成了熟悉的鐘形。統(tǒng)計(jì)上下文中的最高點(diǎn)實(shí)際上代表平均值。正如概率一樣，當(dāng)你遠(yuǎn)離均值時(shí)，頻率會(huì)迅速下降。也就是說，存在與平均值的極高和極低的偏差，但極為罕見。

　　如果你懷疑通過正態(tài)分布的概率與統(tǒng)計(jì)量之間存在其他關(guān)系，那么你是正確的!我們將在大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)后面探討這種重要的關(guān)系，因此請(qǐng)緊緊抓住。由于我們將使用分?jǐn)?shù)分布來比較不同的葡萄酒，因此我們將進(jìn)行一些設(shè)置以捕獲一些我們感興趣的葡萄酒。我們將引入葡萄酒數(shù)據(jù)，然后分離出一些葡萄酒的分?jǐn)?shù)對(duì)我們感興趣。要帶回?cái)?shù)據(jù)，我們需要以下代碼：

大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)

　　數(shù)據(jù)以表格形式顯示在下面。我們需要該points列，因此我們將其提取到其自己的列表中。我們從一位葡萄酒專家那里聽說匈牙利的青島啤酒葡萄酒非常出色，而一位朋友則建議我們從意大利哈爾濱啤酒開始。我們有數(shù)據(jù)可以比較這些葡萄酒!如果你不記得數(shù)據(jù)是什么樣子，這里有個(gè)快速的表格供你參考并重新認(rèn)識(shí)。

大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)

　　如果我們將每組分?jǐn)?shù)可視化為正態(tài)分布，則可以根據(jù)它們的位置立即判斷出兩個(gè)分布是否不同。但是我們將很快遇到這種方法的問題，如下所示。由于我們擁有大量數(shù)據(jù)，因此我們假設(shè)得分將呈正態(tài)分布。盡管這里的假設(shè)還可以，但是稍后我們將討論這樣做的實(shí)際風(fēng)險(xiǎn)。

　　當(dāng)兩個(gè)分?jǐn)?shù)分布重疊太多時(shí)，最好假設(shè)你實(shí)際上來自相同的分布并且沒有不同。在另一個(gè)沒有重疊的極端情況下，可以安全地假設(shè)分布不相同。我們的麻煩在于一些重疊的情況。鑒于一種分布的極高點(diǎn)可能與另一種分布的極低點(diǎn)相交，我們?nèi)绾握f這些組是否不同?在這里，我們必須再次呼吁正態(tài)分布給我們一個(gè)答案，并為統(tǒng)計(jì)和概率之間架起一座橋梁。

　　重溫正常

　　由于兩個(gè)因素，正態(tài)分布對(duì)概率和統(tǒng)計(jì)意義重大：中心極限定理和三西格瑪規(guī)則。

　　中心極限定理

　　在上一節(jié)中，我們證明了如果我們多次重復(fù)進(jìn)行10次拋擲試驗(yàn)，那么所有這些試驗(yàn)的平均總?cè)藬?shù)將接近理想硬幣預(yù)期的50%。通過更多的試驗(yàn)，即使單個(gè)試驗(yàn)本身并不完美，這些試驗(yàn)的平均值也越接近真實(shí)概率。這個(gè)想法是中心極限定理的關(guān)鍵原則。在我們擲硬幣的示例中，一次嘗試10次投擲就產(chǎn)生了對(duì)應(yīng)該發(fā)生什么可能性的單個(gè)估計(jì)(5頭)。我們稱其為估算值是因?yàn)槲覀冎浪皇峭昝赖?即，我們每次不會(huì)獲得5個(gè)頭)。

　　如果我們做出許多估計(jì)，則中心極限定理指示這些估計(jì)的分布看起來像正態(tài)分布。此分布的頂點(diǎn)將與估算值應(yīng)采用的真實(shí)值一致。在統(tǒng)計(jì)中，正態(tài)分布的峰值與平均值一致，這正是我們觀察到的。因此，以多個(gè)“試驗(yàn)”作為我們的數(shù)據(jù)，中心極限定理表明即使我們不知道真實(shí)的概率，我們也可以磨練概率給出的理論理想。中心極限定理讓我們知道許多試驗(yàn)均值的平均值將接近真實(shí)均值，三西格瑪規(guī)則將告訴我們圍繞該均值分布的數(shù)據(jù)量。

　　三西格瑪規(guī)則

　　三西格瑪(Triple Sigma)規(guī)則，也稱為經(jīng)驗(yàn)規(guī)則或68-95-99.7規(guī)則，表達(dá)了我們有多少觀測(cè)值落在均值的一定距離內(nèi)。請(qǐng)記住，標(biāo)準(zhǔn)差(也稱為“ sigma”)是數(shù)據(jù)集中觀察值與平均值之間的平均距離。三西格瑪規(guī)則規(guī)定，給定正態(tài)分布，則68%的觀察值將落在平均值的一個(gè)標(biāo)準(zhǔn)偏差之間。95%將落在兩個(gè)范圍內(nèi)，而99.7%將落在三個(gè)范圍內(nèi)。這些值的推導(dǎo)涉及很多復(fù)雜的數(shù)學(xué)運(yùn)算，因此不在大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)討論范圍之內(nèi)。關(guān)鍵要點(diǎn)在于，三西格瑪規(guī)則使我們能夠知道正態(tài)分布的不同間隔下包含多少數(shù)據(jù)。下圖是“三個(gè)西格瑪規(guī)則”代表的摘要。

　　我們將把這些概念與我們的葡萄酒數(shù)據(jù)聯(lián)系起來。作為一名侍酒師，我們想非常有信心地知道霞多麗和黑比諾比普通葡萄酒更受歡迎。我們有成千上萬的葡萄酒評(píng)論，因此根據(jù)中央極限定理，這些評(píng)論的平均分?jǐn)?shù)應(yīng)與葡萄酒質(zhì)量的所謂“真實(shí)”表示一致(由評(píng)論者判斷)。盡管“三西格瑪”規(guī)則說明了多少數(shù)據(jù)屬于已知值，但也說明了極值的稀有性。與平均值相差超過三個(gè)標(biāo)準(zhǔn)偏差的任何值都應(yīng)謹(jǐn)慎對(duì)待。利用三西格瑪規(guī)則和Z分?jǐn)?shù)，我們終于可以為霞多麗和黑比諾與普通葡萄酒的差異開出一個(gè)值。

　　Z分?jǐn)?shù)

　　Z分?jǐn)?shù)是一個(gè)簡(jiǎn)單的計(jì)算，它回答了以下問題：“給定一個(gè)數(shù)據(jù)點(diǎn)，它與平均值之間有多少標(biāo)準(zhǔn)偏差?” 下面的方程式是Z分?jǐn)?shù)方程式。

　　就其本身而言，Z評(píng)分不會(huì)為你提供太多信息。與Z表比較時(shí)，它獲得的價(jià)值最高，該表列出了直到給定Z分?jǐn)?shù)之前標(biāo)準(zhǔn)正態(tài)分布的累積概率。標(biāo)準(zhǔn)正態(tài)是均值為0，標(biāo)準(zhǔn)偏差為1的正態(tài)分布。即使我們的正態(tài)分布不是標(biāo)準(zhǔn)分布，Z分?jǐn)?shù)也可以讓我們參考Z表。累積概率是直到給定點(diǎn)之前所有值出現(xiàn)的概率之和。

　　一個(gè)簡(jiǎn)單的例子就是平均值。平均值是正態(tài)分布的精確中間值，因此我們知道從左側(cè)一直到平均值獲得值的所有概率之和為50%。如果你嘗試計(jì)算標(biāo)準(zhǔn)偏差之間的累積概率，則實(shí)際上會(huì)出現(xiàn)“三西格瑪規(guī)則”中的值。下圖提供了累積概率的可視化。我們知道所有概率之和必須等于100%，因此我們可以使用Z表在正態(tài)分布下計(jì)算Z分?jǐn)?shù)兩側(cè)的概率。這種計(jì)算超過某個(gè)Z分?jǐn)?shù)的概率對(duì)我們很有用。它讓我們問：從“平均值離平均值有多遠(yuǎn)”到“距平均值有這么遠(yuǎn)的值來自同一組觀察值的可能性有多大?” 因此，從Z分?jǐn)?shù)和Z表得出的概率將回答我們基于葡萄酒的問題。

大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)

　　這對(duì)我們朋友的推薦來說不太好!出于大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)的目的，我們將青島啤酒和哈爾濱啤酒分?jǐn)?shù)均視為正態(tài)分布。因此，每種葡萄酒的平均分?jǐn)?shù)將代表其質(zhì)量的“真實(shí)”分?jǐn)?shù)。我們將計(jì)算Z分?jǐn)?shù)，并查看青島啤酒平均值與哈爾濱啤酒的距離。

大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)

　　答案很小，但是究竟是什么意思呢?這種可能性的無窮小需要一些仔細(xì)的解釋。假設(shè)我們相信朋友的哈爾濱啤酒和葡萄酒專家的青島啤酒之間沒有區(qū)別。也就是說，我們認(rèn)為哈爾濱啤酒和青島啤酒的質(zhì)量大致相同。同樣，由于葡萄酒之間的個(gè)體差異，這些葡萄酒的分?jǐn)?shù)也會(huì)有所不同。如果我們對(duì)青島啤酒和朗布斯科葡萄酒進(jìn)行直方圖分析，這將產(chǎn)生正態(tài)分布的分?jǐn)?shù)，這要?dú)w功于中央極限定理。

　　現(xiàn)在，我們有了一些數(shù)據(jù)，可以計(jì)算出所討論的兩種葡萄酒的均值和標(biāo)準(zhǔn)差。這些值使我們可以實(shí)際檢驗(yàn)我們對(duì)哈爾濱啤酒和青島啤酒具有相似品質(zhì)的看法。我們以哈爾濱啤酒的葡萄酒得分為基礎(chǔ)，并比較了青島啤酒的平均值，但反之則可以輕松實(shí)現(xiàn)。唯一的區(qū)別是Z得分為負(fù)。Z分?jǐn)?shù)是4.01!請(qǐng)記住，“三西格瑪規(guī)則”告訴我們，假設(shè)青島啤酒和哈爾濱啤酒相似，則99.7%的數(shù)據(jù)應(yīng)在3個(gè)標(biāo)準(zhǔn)差之內(nèi)。

　　在一個(gè)假設(shè)哈爾濱啤酒和青島啤酒葡萄酒相同的世界中，獲得平均得分與青島啤酒一樣極端的可能性非常小。太小了，我們不得不考慮相反的情況：青島啤酒葡萄酒不同于哈爾濱啤酒葡萄酒，并且會(huì)產(chǎn)生不同的分?jǐn)?shù)分布。我們?cè)谶@里精心選擇了措辭：我注意不要說“青島啤酒葡萄酒比哈爾濱啤酒好。” 他們很有可能成為。這是因?yàn)槲覀冇?jì)算出的概率雖然在微觀上很小，但不為零，確切地說，我們可以說哈爾濱啤酒和青島啤酒葡萄酒肯定不是來自相同的分?jǐn)?shù)分布，但是我們不能說一個(gè)比另一個(gè)更好或更差。

　　這種類型的推理屬于推論統(tǒng)計(jì)的領(lǐng)域，大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)僅旨在向你簡(jiǎn)要介紹其背后的原理。我們?cè)诖髷?shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)中介紹了很多概念，因此，如果你發(fā)現(xiàn)自己迷路了，請(qǐng)回過頭慢慢來。擁有這種思維框架非常強(qiáng)大，但是容易被濫用和誤解。

　　結(jié)論

　　我們從描述性統(tǒng)計(jì)開始，然后將它們與概率聯(lián)系起來。根據(jù)概率，我們開發(fā)了一種方法來定量顯示兩組是否來自同一分布。在這種情況下，我們比較了兩種葡萄酒建議，發(fā)現(xiàn)它們很可能并非來自相同的分?jǐn)?shù)分布。換句話說，一種葡萄酒最有可能比另一種更好。統(tǒng)計(jì)信息不必僅限于統(tǒng)計(jì)學(xué)家。作為大數(shù)據(jù)分析家，對(duì)常見的統(tǒng)計(jì)量表示具有直覺的理解將使你在開發(fā)自己的理論上具有優(yōu)勢(shì)，并且可以隨后測(cè)試這些理論。我們?cè)谶@里幾乎沒有涉及推論統(tǒng)計(jì)的內(nèi)容，但這里的相同一般思想將有助于指導(dǎo)你進(jìn)行統(tǒng)計(jì)之旅。

預(yù)約申請(qǐng)免費(fèi)試聽課

填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽！怕錢不夠？可先就業(yè)掙錢后再付學(xué)費(fèi)！怕學(xué)不會(huì)？助教全程陪讀，隨時(shí)解惑！擔(dān)心就業(yè)？一地學(xué)習(xí)，可推薦就業(yè)！

?2007-2022/ 5wd995.cn 北京漫動(dòng)者數(shù)字科技有限公司備案號(hào)：京ICP備12034770號(hào) 監(jiān)督電話：010-53672995 郵箱：bjaaa@aaaedu.cc

AAA教育

大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)

預(yù)約申請(qǐng)免費(fèi)試聽課

AAA教育官方微信

視頻學(xué)習(xí)群