旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實(shí)習(xí)/?A計(jì)劃
全國(guó)統(tǒng)一咨詢(xún)熱線(xiàn):010-5367 2995
首頁(yè) > 熱門(mén)文章 > 大數(shù)據(jù)分析 > 0基礎(chǔ)小白必知的10種機(jī)器學(xué)習(xí)算法

0基礎(chǔ)小白必知的10種機(jī)器學(xué)習(xí)算法

時(shí)間:2020-06-24來(lái)源:5wd995.cn點(diǎn)擊量:作者:Sissi
時(shí)間:2020-06-24點(diǎn)擊量:作者:Sissi



  “大數(shù)據(jù)分析”評(píng)為“ 21世紀(jì)最熱門(mén)的工作” 以來(lái),人們對(duì)機(jī)器學(xué)習(xí)的興趣激增。但是,如果您剛剛開(kāi)始學(xué)習(xí)機(jī)器學(xué)習(xí),則可能很難入手。因此,AAA教育發(fā)布了廣受歡迎的關(guān)于初學(xué)者的優(yōu)秀機(jī)器學(xué)習(xí)算法的文章。
 

  這篇文章是針對(duì)0基礎(chǔ)初學(xué)者的。如果你有在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)一些經(jīng)驗(yàn),你可能會(huì)更感興趣的是做機(jī)器學(xué)習(xí)在Python這更深入的教程用scikit-learn,或在我們的機(jī)器學(xué)習(xí)課程,這從這里開(kāi)始。如果您還不清楚“數(shù)據(jù)科學(xué)”和“機(jī)器學(xué)習(xí)”之間的區(qū)別,那么本文將為您提供一個(gè)很好的解釋?zhuān)簷C(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)-兩者有何不同?
 

  機(jī)器學(xué)習(xí)算法是可以從數(shù)據(jù)中學(xué)習(xí)并從經(jīng)驗(yàn)中改進(jìn)而無(wú)需人工干預(yù)的程序。學(xué)習(xí)任務(wù)可能包括學(xué)習(xí)將輸入映射到輸出的功能,學(xué)習(xí)未標(biāo)記數(shù)據(jù)中的隱藏結(jié)構(gòu);或“基于實(shí)例的學(xué)習(xí)”,其中通過(guò)將新實(shí)例(行)與訓(xùn)練數(shù)據(jù)中存儲(chǔ)在內(nèi)存中的實(shí)例進(jìn)行比較,為新實(shí)例生成類(lèi)標(biāo)簽。“基于實(shí)例的學(xué)習(xí)”不會(huì)從特定實(shí)例創(chuàng)建抽象。
 

  機(jī)器學(xué)習(xí)算法的類(lèi)型
 

  機(jī)器學(xué)習(xí)(ML)算法有3種類(lèi)型:
 

  監(jiān)督學(xué)習(xí)算法:
 

  監(jiān)督學(xué)習(xí)使用標(biāo)記的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)將輸入變量(X)轉(zhuǎn)換為輸出變量(Y)的映射函數(shù)。換句話(huà)說(shuō),它在以下等式中求解f:
 

  Y = f(X)
 

  當(dāng)給定新的輸入時(shí),這使我們能夠準(zhǔn)確地生成輸出。
 

  我們將討論兩種類(lèi)型的監(jiān)督學(xué)習(xí):分類(lèi)和回歸。
 

  分類(lèi)被用于預(yù)測(cè)給定的樣品的結(jié)果,當(dāng)輸出變量在類(lèi)的形式。分類(lèi)模型可能會(huì)查看輸入數(shù)據(jù)并嘗試預(yù)測(cè)“病”或“健康”等標(biāo)簽。
 

  當(dāng)輸出變量為實(shí)數(shù)值形式時(shí),將回歸用于預(yù)測(cè)給定樣本的結(jié)果。例如,回歸模型可能會(huì)處理輸入數(shù)據(jù)以預(yù)測(cè)降雨量,人的身高等。
 

  我們?cè)诒静┛椭薪榻B的前5種算法-線(xiàn)性回歸,邏輯回歸,CART,樸素貝葉斯和K最近鄰(KNN)-是監(jiān)督學(xué)習(xí)的示例。
 

  合奏是另一種監(jiān)督學(xué)習(xí)。這意味著要組合多個(gè)各自較弱的機(jī)器學(xué)習(xí)模型的預(yù)測(cè),以對(duì)新樣本產(chǎn)生更準(zhǔn)確的預(yù)測(cè)。本文的算法9和10(使用隨機(jī)森林進(jìn)行裝袋,使用XGBoost進(jìn)行增強(qiáng))是集成技術(shù)的示例。
 

  無(wú)監(jiān)督學(xué)習(xí)算法:
 

  當(dāng)我們只有輸入變量(X)而沒(méi)有相應(yīng)的輸出變量時(shí),將使用無(wú)監(jiān)督學(xué)習(xí)模型。他們使用未標(biāo)記的訓(xùn)練數(shù)據(jù)來(lái)建模數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu)。
 

  我們將討論三種無(wú)監(jiān)督學(xué)習(xí):
 

  關(guān)聯(lián)用于發(fā)現(xiàn)集合中項(xiàng)目同時(shí)出現(xiàn)的可能性。它廣泛用于市場(chǎng)分析。例如,可以使用關(guān)聯(lián)模型來(lái)發(fā)現(xiàn)如果客戶(hù)購(gòu)買(mǎi)面包,則他/她也有80%可能也購(gòu)買(mǎi)雞蛋。
 

  聚類(lèi)用于對(duì)樣本進(jìn)行分組,以使同一聚類(lèi)中的對(duì)象彼此之間的相似性大于與另一個(gè)聚類(lèi)中的對(duì)象的相似性。
 

  降維用于減少數(shù)據(jù)集的變量數(shù)量,同時(shí)確保仍傳達(dá)重要信息。降維可以使用特征提取方法和特征選擇方法來(lái)完成。“特征選擇”選擇原始變量的子集。特征提取執(zhí)行從高維空間到低維空間的數(shù)據(jù)轉(zhuǎn)換。示例:PCA算法是一種特征提取方法。
 

  我們?cè)谶@里介紹的算法6-8(Apriori,K-means,PCA)是無(wú)監(jiān)督學(xué)習(xí)的示例。
 

  強(qiáng)化學(xué)習(xí):
 

  強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)算法的一種,它允許代理通過(guò)學(xué)習(xí)使獎(jiǎng)勵(lì)最大化的行為來(lái)根據(jù)其當(dāng)前狀態(tài)決定最佳的下一步操作。
 

  加固算法通常通過(guò)反復(fù)試驗(yàn)來(lái)學(xué)習(xí)最佳動(dòng)作。例如,假設(shè)有一個(gè)視頻游戲,其中玩家需要在特定時(shí)間移動(dòng)到特定地點(diǎn)以賺取積分。玩該游戲的強(qiáng)化算法會(huì)從隨機(jī)移動(dòng)開(kāi)始,但是隨著時(shí)間的流逝,經(jīng)過(guò)反復(fù)試驗(yàn),它將學(xué)習(xí)需要在何時(shí)何地移動(dòng)游戲中角色以最大化其總點(diǎn)數(shù)。
 

  量化機(jī)器學(xué)習(xí)算法的流行度
 

  這十種算法是從哪里得到的?任何此類(lèi)列表本質(zhì)上都是主觀的。諸如此類(lèi)的研究已經(jīng)量化了10種最流行的數(shù)據(jù)挖掘算法,但是它們?nèi)匀灰蕾?lài)于調(diào)查反饋的主觀響應(yīng),通常是高級(jí)學(xué)術(shù)從業(yè)人員。例如,在上面的研究中,受訪(fǎng)者是ACM KDD創(chuàng)新獎(jiǎng),IEEE ICDM研究貢獻(xiàn)獎(jiǎng)的獲得者;KDD '06,ICDM '06和SDM '06的計(jì)劃委員會(huì)成員;ICDM '06的145位與會(huì)者。
 

  這篇文章中列出的前10個(gè)算法是在考慮機(jī)器學(xué)習(xí)初學(xué)者的情況下選擇的。它們是我在孟買(mǎi)大學(xué)計(jì)算機(jī)工程學(xué)士學(xué)位期間從“數(shù)據(jù)倉(cāng)庫(kù)和挖掘”(DWM)課程中學(xué)到的主要算法。我加入了最后兩種算法(集成方法),尤其是因?yàn)樗鼈兘?jīng)常被用來(lái)贏得Kaggle比賽。
 

  沒(méi)有更多的基礎(chǔ)知識(shí),面向初學(xué)者的十大機(jī)器學(xué)習(xí)算法:
 

  1.線(xiàn)性回歸
 

  在機(jī)器學(xué)習(xí)中,我們有一組輸入變量(x)用于確定輸出變量(y)。輸入變量和輸出變量之間存在關(guān)系。ML的目標(biāo)是量化這種關(guān)系。
 

  
大數(shù)據(jù)分析
圖1:線(xiàn)性回歸以y = a + bx的形式表示為一條線(xiàn)
 

  在線(xiàn)性回歸中,輸入變量(x)和輸出變量(y)之間的關(guān)系表示為y = a + bx形式的方程。因此,線(xiàn)性回歸的目標(biāo)是找出系數(shù)a和b的值。在此,a是截距,b是直線(xiàn)的斜率。
 

  圖1顯示了數(shù)據(jù)集的繪制的x和y值。目標(biāo)是擬合最接近大多數(shù)點(diǎn)的線(xiàn)。這將減少數(shù)據(jù)點(diǎn)的y值與線(xiàn)之間的距離(“錯(cuò)誤”)。
 

  2. Logistic回歸
 

  線(xiàn)性回歸預(yù)測(cè)是連續(xù)值(即,以厘米為單位的降雨),邏輯回歸預(yù)測(cè)是在應(yīng)用轉(zhuǎn)換函數(shù)后的離散值(即,學(xué)生是否通過(guò)/未通過(guò))。
 

  Logistic回歸最適合于二進(jìn)制分類(lèi):y = 0或1的數(shù)據(jù)集,其中1表示默認(rèn)類(lèi)。例如,在預(yù)測(cè)事件是否會(huì)發(fā)生時(shí),只有兩種可能性:事件發(fā)生(我們將其表示為1)或事件不發(fā)生(0)。因此,如果我們要預(yù)測(cè)患者是否生病,我們將使用1數(shù)據(jù)集中的值標(biāo)記患病的患者。
 

  邏輯回歸以其使用的轉(zhuǎn)換函數(shù)命名,該函數(shù)稱(chēng)為邏輯函數(shù)h(x)= 1 /(1 + ex)。這形成了S形曲線(xiàn)。
 

  在邏輯回歸中,輸出采用默認(rèn)類(lèi)別的概率形式(與線(xiàn)性回歸不同,線(xiàn)性回歸是直接產(chǎn)生輸出的)。由于這是一個(gè)概率,因此輸出在0-1的范圍內(nèi)。因此,例如,如果我們要預(yù)測(cè)患者是否生病,我們已經(jīng)知道生病的患者表示為1,因此,如果我們的算法將0.98的得分分配給患者,則認(rèn)為該患者很有可能生病了。
 

  使用邏輯函數(shù)h(x)= 1 /(1 + e ^ -x)通過(guò)對(duì)x值進(jìn)行對(duì)數(shù)轉(zhuǎn)換來(lái)生成此輸出(y值)。然后應(yīng)用閾值以強(qiáng)制將此概率轉(zhuǎn)換為二進(jìn)制分類(lèi)。
 

  
大數(shù)據(jù)分析
圖2:邏輯回歸確定腫瘤是惡性還是良性。如果概率h(x)> = 0.5,則分類(lèi)為惡性
 

  在圖2中,要確定腫瘤是否為惡性,默認(rèn)變量為y = 1(腫瘤=惡性)。x變量可以是腫瘤的量度,例如腫瘤的大小。如圖所示,邏輯函數(shù)將數(shù)據(jù)集各種實(shí)例的x值轉(zhuǎn)換為0到1的范圍。如果概率超過(guò)閾值0.5(由水平線(xiàn)顯示),則腫瘤為歸類(lèi)為惡性。
 

  邏輯回歸方程P(x)= e ^(b0 + b1x)/(1 + e(b0 + b1x))可以轉(zhuǎn)換為ln(p(x)/ 1-p(x))= b0 + b1x。
 

  Logistic回歸的目標(biāo)是使用訓(xùn)練數(shù)據(jù)來(lái)找到系數(shù)b0和b1的值,以使預(yù)測(cè)結(jié)果與實(shí)際結(jié)果之間的誤差最小。使用最大似然估計(jì)技術(shù)估計(jì)這些系數(shù)。
 

  3.購(gòu)物車(chē)
 

  分類(lèi)和回歸樹(shù)(CART)是決策樹(shù)的一種實(shí)現(xiàn)。
 

  分類(lèi)樹(shù)和回歸樹(shù)的非終端節(jié)點(diǎn)是根節(jié)點(diǎn)和內(nèi)部節(jié)點(diǎn)。終端節(jié)點(diǎn)是葉節(jié)點(diǎn)。每個(gè)非終端節(jié)點(diǎn)代表一個(gè)輸入變量(x)和該變量的分割點(diǎn);葉節(jié)點(diǎn)表示輸出變量(y)。該模型按以下方式進(jìn)行預(yù)測(cè):遍歷樹(shù)的拆分以到達(dá)葉節(jié)點(diǎn)并輸出在葉節(jié)點(diǎn)處存在的值。
 

  下面圖3中的決策樹(shù)根據(jù)一個(gè)人的年齡和婚姻狀況,對(duì)其是否購(gòu)買(mǎi)跑車(chē)或小型貨車(chē)進(jìn)行了分類(lèi)。如果此人已超過(guò)30歲且未結(jié)婚,我們將按照以下步驟進(jìn)行操作:“超過(guò)30年?” ->是->“已婚?” ->不行 因此,模型輸出一輛跑車(chē)。
 

  
大數(shù)據(jù)分析
圖3:決策樹(shù)的各個(gè)部分
 

  4.樸素貝葉斯
 

  為了計(jì)算一個(gè)事件已經(jīng)發(fā)生的可能性,我們使用貝葉斯定理。在給定我們的先驗(yàn)知識(shí)(d)的情況下,要計(jì)算假設(shè)(h)為真的概率,我們使用貝葉斯定理,如下所示:
 

  P(h | d)=(P(d | h)P(h))/ P(d)
 

  哪里:
 

  1)P(h | d)=后驗(yàn)概率。給定數(shù)據(jù)d,假設(shè)h的概率為真,其中P(h | d)= P(d1 | h)P(d2 | h)….P(dn | h)P(d)

  2)P(d | h)=似然。給定假設(shè)h為真,數(shù)據(jù)d的概率。

  3)P(h)=班級(jí)先驗(yàn)概率。假設(shè)h為真的概率(與數(shù)據(jù)無(wú)關(guān))

  4)P(d)=預(yù)測(cè)器先驗(yàn)概率。數(shù)據(jù)的概率(與假設(shè)無(wú)關(guān))
 

  該算法之所以稱(chēng)為“樸素”,是因?yàn)樗僭O(shè)所有變量都彼此獨(dú)立,這是在實(shí)際示例中做出的樸素假設(shè)。
 

大數(shù)據(jù)分析  
圖4:使用天真貝葉斯通過(guò)變量“天氣”預(yù)測(cè)“比賽”的狀態(tài)
 

  以圖4為例,如果weather ='sunny',結(jié)果如何?
 

  在給定變量天氣=“晴天”的情況下,要確定結(jié)果游戲=“是”或“否”,請(qǐng)計(jì)算P(是|晴天)和P(否|晴天),并以較高的概率選擇結(jié)果。
 

  -> P(yes | sunny)=(P(sunny | yes)* P(yes))/ P(sunny)=(3/9 * 9/14)/(5/14)= 0.60
 

  -> P(no | sunny)=(P(sunny | no)* P(no))/ P(sunny)=(2/5 * 5/14)/(5/14)= 0.40
 

  因此,如果天氣=“晴天”,則結(jié)果為游戲=“是”。
 

  5. KNN
 

  K最近鄰居算法將整個(gè)數(shù)據(jù)集用作訓(xùn)練集,而不是將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。
 

  當(dāng)新數(shù)據(jù)實(shí)例需要結(jié)果時(shí),KNN算法遍歷整個(gè)數(shù)據(jù)集以找到新實(shí)例的k個(gè)最近實(shí)例,或與新記錄最相似的k個(gè)實(shí)例,然后輸出均值結(jié)果(用于回歸問(wèn)題)或模式(最常見(jiàn)的課堂)的分類(lèi)問(wèn)題。k的值是用戶(hù)指定的。
 

  使用諸如歐幾里得距離和漢明距離之類(lèi)的度量來(lái)計(jì)算實(shí)例之間的相似度。
 

  無(wú)監(jiān)督學(xué)習(xí)算法
 

  6.先驗(yàn)
 

  事務(wù)數(shù)據(jù)庫(kù)中使用Apriori算法來(lái)挖掘頻繁的項(xiàng)目集,然后生成關(guān)聯(lián)規(guī)則。它廣泛用于市場(chǎng)購(gòu)物籃分析中,在其中可以檢查數(shù)據(jù)庫(kù)中經(jīng)常同時(shí)出現(xiàn)的產(chǎn)品組合。通常,我們將關(guān)聯(lián)規(guī)則寫(xiě)為“如果某人購(gòu)買(mǎi)了商品X,那么他購(gòu)買(mǎi)了商品Y”為:X->Y。
 

  示例:如果某人購(gòu)買(mǎi)牛奶和糖,那么她可能會(huì)購(gòu)買(mǎi)咖啡粉。這可以用關(guān)聯(lián)規(guī)則的形式寫(xiě)成:{牛奶,糖}->咖啡粉。超過(guò)支持和信心的閾值后,將生成關(guān)聯(lián)規(guī)則。
 

大數(shù)據(jù)分析  
圖5:關(guān)聯(lián)規(guī)則X-> Y的支持度,置信度和提升度的公式
 

  支持度量有助于減少頻繁生成項(xiàng)目集時(shí)要考慮的候選項(xiàng)目集的數(shù)量。該支持措施遵循Apriori原則。Apriori原則指出,如果某個(gè)項(xiàng)目集很頻繁,那么它的所有子集也必須很頻繁。
 

  7. K-均值
 

  K-means是一種將相似數(shù)據(jù)分組為聚類(lèi)的迭代算法,它計(jì)算k個(gè)聚類(lèi)的質(zhì)心,并為其質(zhì)心與數(shù)據(jù)點(diǎn)之間的距離最小的聚類(lèi)分配一個(gè)數(shù)據(jù)點(diǎn)。
 

大數(shù)據(jù)分析  
圖6:K-means算法的步驟
 

  運(yùn)作方式如下:
 

  我們首先選擇k的值。在這里,讓我們說(shuō)k =3。然后,我們將每個(gè)數(shù)據(jù)點(diǎn)隨機(jī)分配給3個(gè)群集中的任何一個(gè)。計(jì)算每個(gè)群集的群集質(zhì)心。紅色,藍(lán)色和綠色的星星分別代表3個(gè)星團(tuán)的質(zhì)心。
 

  接下來(lái),將每個(gè)點(diǎn)重新分配給最近的聚類(lèi)質(zhì)心。在上圖中,高5點(diǎn)被分配給具有藍(lán)色質(zhì)心的聚類(lèi)。遵循相同的過(guò)程將點(diǎn)分配給包含紅色和綠色質(zhì)心的聚類(lèi)。
 

  然后,計(jì)算新群集的質(zhì)心。舊的質(zhì)心是灰色的星星;新的質(zhì)心是紅色,綠色和藍(lán)色的星星。
 

  最后,重復(fù)步驟2-3,直到?jīng)]有點(diǎn)從一個(gè)群集切換到另一個(gè)群集為止。一旦連續(xù)兩個(gè)步驟都沒(méi)有切換,請(qǐng)退出K-means算法。
 

  8. PCA
 

  主成分分析(PCA)用于通過(guò)減少變量數(shù)量使數(shù)據(jù)易于瀏覽和可視化。這是通過(guò)將數(shù)據(jù)中的最大方差捕獲到具有稱(chēng)為“主要成分”的軸的新坐標(biāo)系中來(lái)完成的。
 

  每個(gè)分量都是原始變量的線(xiàn)性組合,并且彼此正交。分量之間的正交性指示這些分量之間的相關(guān)性為零。
 

  第一個(gè)主成分捕獲數(shù)據(jù)中最大可變性的方向。第二個(gè)主成分捕獲數(shù)據(jù)中的剩余方差,但具有與第一個(gè)成分不相關(guān)的變量。同樣,所有連續(xù)的主成分(PC3,PC4等)捕獲剩余的差異,同時(shí)與前一個(gè)成分不相關(guān)。
 

  
大數(shù)據(jù)分析
圖7:將3個(gè)原始變量(基因)簡(jiǎn)化為2個(gè)新變量,稱(chēng)為主成分(PC)
 

  集合學(xué)習(xí)技巧:
 

  匯總是指通過(guò)投票或取平均值,將多個(gè)學(xué)習(xí)者(分類(lèi)器)的結(jié)果組合在一起,以提高結(jié)果。在分類(lèi)期間使用投票,在回歸期間使用平均。這個(gè)想法是全體學(xué)習(xí)者的表現(xiàn)要好于單個(gè)學(xué)習(xí)者。
 

  共有3種組合算法:裝袋,增強(qiáng)和堆疊。我們不會(huì)在這里討論“堆疊”,但是如果您想對(duì)其進(jìn)行詳細(xì)的說(shuō)明,那么這是Kaggle的可靠介紹。
 

  9.隨機(jī)森林套袋
 

  套袋的第一步是使用Bootstrap Sampling方法創(chuàng)建的數(shù)據(jù)集創(chuàng)建多個(gè)模型。在Bootstrap抽樣中,每個(gè)生成的訓(xùn)練集都由來(lái)自原始數(shù)據(jù)集的隨機(jī)子樣本組成。
 

  這些訓(xùn)練集的每一個(gè)都具有與原始數(shù)據(jù)集相同的大小,但是有些記錄會(huì)重復(fù)多次,而有些記錄根本不會(huì)出現(xiàn)。然后,將整個(gè)原始數(shù)據(jù)集用作測(cè)試集。因此,如果原始數(shù)據(jù)集的大小為N,則每個(gè)生成的訓(xùn)練集的大小也為N,唯一記錄的數(shù)量約為(2N / 3);測(cè)試集的大小也為N。
 

  套袋的第二步是在不同的生成的訓(xùn)練集上使用相同的算法來(lái)創(chuàng)建多個(gè)模型。
 

  這是隨機(jī)森林進(jìn)入的地方。與決策樹(shù)不同,在決策樹(shù)中,每個(gè)節(jié)點(diǎn)都在最大特征上進(jìn)行分割,以最大程度地減少錯(cuò)誤,在隨機(jī)森林中,我們選擇特征的隨機(jī)選擇以構(gòu)建最佳分裂。隨機(jī)性的原因是:即使套袋,當(dāng)決策樹(shù)選擇最佳分割特征時(shí),它們最終也會(huì)具有相似的結(jié)構(gòu)和相關(guān)的預(yù)測(cè)。但是,對(duì)特征的隨機(jī)子集進(jìn)行分割后的裝袋意味著子樹(shù)的預(yù)測(cè)之間的相關(guān)性較小。
 

  在每個(gè)分割點(diǎn)要搜索的特征數(shù)量被指定為“隨機(jī)森林”算法的參數(shù)。
 

  因此,在使用“隨機(jī)森林”進(jìn)行裝袋時(shí),每棵樹(shù)都是使用記錄的隨機(jī)樣本構(gòu)建的,而每個(gè)拆分都是使用隨機(jī)變量的預(yù)測(cè)變量構(gòu)建的。
 

  10.使用AdaBoost提升
 

  Adaboost代表自適應(yīng)增強(qiáng)。套袋是一個(gè)并行的集合,因?yàn)槊總€(gè)模型都是獨(dú)立構(gòu)建的。另一方面,boosting是一個(gè)順序集合,其中每個(gè)模型都是基于糾正先前模型的錯(cuò)誤分類(lèi)而構(gòu)建的。
 

  套袋主要涉及“簡(jiǎn)單投票”,其中每個(gè)分類(lèi)器投票以獲得最終結(jié)果,該結(jié)果由大多數(shù)并行模型確定;增強(qiáng)涉及“加權(quán)投票”,其中每個(gè)分類(lèi)器投票以獲得由多數(shù)決定的最終結(jié)果,但是順序模型是通過(guò)為先前模型的錯(cuò)誤分類(lèi)實(shí)例分配更大的權(quán)重來(lái)構(gòu)建的。
 

大數(shù)據(jù)分析  
圖8:決策樹(shù)的Adaboost
 

  在圖8中,步驟1、2、3涉及一個(gè)稱(chēng)為決策樹(shù)的弱學(xué)習(xí)者(一個(gè)僅基于1個(gè)輸入要素的值進(jìn)行預(yù)測(cè)的1層決策樹(shù);其根立即連接到其葉子的決策樹(shù)) 。
 

  構(gòu)造弱學(xué)習(xí)者的過(guò)程一直持續(xù)到構(gòu)造了用戶(hù)定義數(shù)量的弱學(xué)習(xí)者或直到訓(xùn)練期間沒(méi)有進(jìn)一步的改進(jìn)為止。步驟4合并了先前模型的3個(gè)決策樹(shù)樁(因此在決策樹(shù)中具有3個(gè)拆分規(guī)則)。
 

  首先,從一個(gè)決策樹(shù)樁開(kāi)始,對(duì)一個(gè)輸入變量進(jìn)行決策。
 

  數(shù)據(jù)點(diǎn)的大小表明,我們已應(yīng)用相等的權(quán)重將其分類(lèi)為圓形或三角形。決策樹(shù)樁已在上半部分生成一條水平線(xiàn)以對(duì)這些點(diǎn)進(jìn)行分類(lèi)。我們可以看到有兩個(gè)圓被錯(cuò)誤地預(yù)測(cè)為三角形。因此,我們將為這兩個(gè)圈子分配更高的權(quán)重,并應(yīng)用另一個(gè)決策樹(shù)樁。
 

  其次,轉(zhuǎn)到另一個(gè)決策樹(shù)樹(shù)樁,對(duì)另一個(gè)輸入變量進(jìn)行決策。
 

  我們觀察到上一步中兩個(gè)錯(cuò)誤分類(lèi)的圓圈的大小大于其余點(diǎn)?,F(xiàn)在,第二個(gè)決策樹(shù)樁將嘗試正確預(yù)測(cè)這兩個(gè)圓。
 

  分配較高的權(quán)重后,這兩個(gè)圓已通過(guò)左側(cè)的垂直線(xiàn)正確分類(lèi)。但這現(xiàn)在導(dǎo)致對(duì)頂部三個(gè)圓圈的分類(lèi)錯(cuò)誤。因此,我們將為頂部的這三個(gè)圓圈分配更高的權(quán)重,并應(yīng)用另一個(gè)決策樹(shù)樁。
 

  第三,訓(xùn)練另一個(gè)決策樹(shù)樹(shù)樁,以對(duì)另一個(gè)輸入變量進(jìn)行決策。
 

  上一步中的三個(gè)錯(cuò)誤分類(lèi)的圓圈大于其余數(shù)據(jù)點(diǎn)?,F(xiàn)在,已生成右側(cè)的垂直線(xiàn)以對(duì)圓形和三角形進(jìn)行分類(lèi)。
 

  第四,結(jié)合決策樹(shù)樁。
 

  我們結(jié)合了先前3個(gè)模型的分隔符,并觀察到與任何單個(gè)弱學(xué)習(xí)者相比,該模型的復(fù)雜規(guī)則正確地對(duì)數(shù)據(jù)點(diǎn)進(jìn)行了分類(lèi)。

 

  回顧一下,我們介紹了一些最重要的數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)算法:
 

  a)5種監(jiān)督學(xué)習(xí)技術(shù)-線(xiàn)性回歸,邏輯回歸,CART,樸素貝葉斯,KNN。

  b)3種無(wú)監(jiān)督學(xué)習(xí)技術(shù)-Apriori,K-means,PCA。

  c)2種合奏技術(shù)-用隨機(jī)森林裝袋,用XGBoost增強(qiáng)。


 

預(yù)約申請(qǐng)免費(fèi)試聽(tīng)課

填寫(xiě)下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)!怕錢(qián)不夠?可先就業(yè)掙錢(qián)后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動(dòng)者教育科技有限公司版權(quán)所有
備案號(hào):京ICP備12034770號(hào)

?2007-2022/ 5wd995.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話(huà):010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號(hào)

網(wǎng)站地圖