旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實(shí)習(xí)/?A計(jì)劃
全國(guó)統(tǒng)一咨詢熱線:010-5367 2995
首頁(yè) > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化

時(shí)間:2020-09-04來(lái)源:5wd995.cn點(diǎn)擊量:作者:Sissi
時(shí)間:2020-09-04點(diǎn)擊量:作者:Sissi



  大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化?很多人同學(xué)問(wèn)我使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化出點(diǎn)教程,今天AAA教育小編姐姐就詳細(xì)的講如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化,    例如好的草圖總比講話要長(zhǎng)。 該建議可能來(lái)自戰(zhàn)場(chǎng),但也適用于許多其他領(lǐng)域,包括數(shù)據(jù)科學(xué)。通過(guò)簡(jiǎn)單地在R中使用ggplot2可視化數(shù)據(jù)來(lái)“簡(jiǎn)化”我們的數(shù)據(jù),比簡(jiǎn)單地描述發(fā)現(xiàn)的趨勢(shì)更具影響力。
 

  勾畫出房屋的設(shè)計(jì)要比用文字描述要清晰得多。數(shù)據(jù)通常也是如此—這就是使用ggplot2進(jìn)行數(shù)據(jù)可視化的地方!
 

  這就是我們可視化數(shù)據(jù)的原因。我們將數(shù)據(jù)可視化,是因?yàn)樗刮覀兏菀讖目梢?jiàn)的內(nèi)容中學(xué)習(xí)而不是閱讀。對(duì)于使用R的數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家來(lái)說(shuō),值得慶幸的是,有一個(gè)名為ggplot2的tidyverse程序包使數(shù)據(jù)可視化變得輕而易舉!
 

  在此大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化文章中,我們將學(xué)習(xí)如何使用R來(lái)獲取一些數(shù)據(jù)并產(chǎn)生可視化效果。要對(duì)其進(jìn)行處理,最好是如果您已經(jīng)對(duì)R編程語(yǔ)法有所了解,但是您不需要成為專家或有使用ggplot2的任何經(jīng)驗(yàn)。
 

  資料介紹
 

  在全國(guó)衛(wèi)生統(tǒng)計(jì)中心一直在跟蹤美國(guó)死亡率的趨勢(shì)自1900年以來(lái),他們已經(jīng)編制數(shù)據(jù)對(duì)預(yù)期壽命和美國(guó)公民的死亡率。
 

  我們想知道預(yù)期壽命是如何隨著時(shí)間變化的。隨著醫(yī)學(xué)和技術(shù)的進(jìn)步,我們期望人們的預(yù)期壽命會(huì)增加,但是直到一看就無(wú)法確定!
 

  如果您想復(fù)制我們將在此大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化文章中創(chuàng)建的圖形,請(qǐng)?jiān)诖颂幭螺d數(shù)據(jù)集并繼續(xù)學(xué)習(xí)!
 

  不確定如何在個(gè)人計(jì)算機(jī)上使用R?請(qǐng)查看如何開始使用RStudio!
 

  圖中有什么?
 

  在我們深入探討該職位之前,需要一些背景信息。那里有很多類型的可視化,但是其中大多數(shù)可以歸結(jié)為以下內(nèi)容:

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  我們可以將此圖分解成其基本構(gòu)建塊:
 

  1、用于創(chuàng)建圖的數(shù)據(jù):

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  2、繪圖的軸:
 

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  3、用于可視化數(shù)據(jù)的幾何形狀。在這種情況下,一行:
 

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  4、有助于讀者理解圖解的標(biāo)簽或注釋:

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  將圖分成幾層很重要,因?yàn)檫@是ggplot2程序包理解和構(gòu)建圖的方式。該ggplot2包是在一個(gè)程序包tidyverse,它是負(fù)責(zé)可視化。在繼續(xù)閱讀文章時(shí),請(qǐng)牢記這些層次。
 

  導(dǎo)入數(shù)據(jù)
 

  為了開始可視化,我們需要將數(shù)據(jù)放入我們的工作區(qū)。我們將引入tidyverse軟件包并使用該read_csv()函數(shù)導(dǎo)入數(shù)據(jù)。我們將數(shù)據(jù)命名為life_expec.csv,因此您需要根據(jù)文件命名方式對(duì)其進(jìn)行重命名。

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  讓我們看看我們正在處理哪些數(shù)據(jù):

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  通過(guò)該Year列我們可以看到時(shí)間以年為單位編碼。有兩列可讓我們區(qū)分不同的種族和性別類別。最后,最后兩列對(duì)應(yīng)于預(yù)期壽命和死亡率。
 

  讓我們快速瀏覽一下數(shù)據(jù),以查看特定年份的數(shù)據(jù):

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  對(duì)于2000年,有九個(gè)數(shù)據(jù)點(diǎn):

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  一年有九個(gè)不同的行,每行對(duì)應(yīng)一個(gè)不同的人口統(tǒng)計(jì)部門。對(duì)于此可視化,我們將重點(diǎn)放在整個(gè)美國(guó),因此我們需要相應(yīng)地過(guò)濾數(shù)據(jù):

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  數(shù)據(jù)存放在合適的位置,因此我們可以將其ggplot()傳送到函數(shù)中以開始創(chuàng)建圖形。我們使用該ggplot()函數(shù)來(lái)表示我們要?jiǎng)?chuàng)建一個(gè)圖。

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  這段代碼產(chǎn)生了一個(gè)空白圖表(如下所示)。但是life_expec,即使我們尚未看到圖表,它現(xiàn)在也“知道”使用數(shù)據(jù)。
 

  建造斧頭
 

  現(xiàn)在我們已經(jīng)準(zhǔn)備好數(shù)據(jù),我們可以開始構(gòu)建可視化了。我們需要建立的下一層是軸。我們感興趣的是看預(yù)期壽命隨時(shí)間如何變化,所以這指明了我們的兩個(gè)軸分別是:Year和Avg_Life_Expec。
 

  為了指定軸,我們需要使用該aes()功能。aes“美學(xué)”的縮寫,是在這里告訴我們要在圖表的不同部分使用ggplot哪些列。我們?cè)噲D通過(guò)時(shí)間來(lái)看看壽命,因此,這意味著Year將去x-axis,并Avg_Life_Expec會(huì)去y軸。

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  通過(guò)添加aes()功能,圖形現(xiàn)在可以知道哪些列可歸因于軸:

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  但是請(qǐng)注意,情節(jié)上仍然沒(méi)有任何內(nèi)容!我們?nèi)匀恍枰嬖Vggplot()使用什么樣的形狀,以可視化之間的關(guān)系Year和Avg_Life_Expec。
 

  指定幾何
 

  通常,當(dāng)我們想到可視化時(shí),通常會(huì)考慮圖形的類型,因?yàn)樗鼘?shí)際上是我們看到的形狀可以告訴我們大多數(shù)信息。該ggplot2軟件包在選擇形狀繪制數(shù)據(jù)方面為我們提供了很大的靈活性,但值得花一些時(shí)間來(lái)考慮哪種問(wèn)題最適合我們的問(wèn)題。
 

  我們正在嘗試將預(yù)期壽命隨時(shí)間變化的形象化。這意味著我們應(yīng)該有一種方法可以將過(guò)去與未來(lái)直接進(jìn)行比較。換句話說(shuō),我們想要一個(gè)有助于顯示連續(xù)兩年之間的關(guān)系的形狀。為此,折線圖很棒。
 

  要使用創(chuàng)建折線圖ggplot(),我們使用geom_line()函數(shù)。A geom是我們要用來(lái)可視化數(shù)據(jù)的特定形狀的名稱。用于繪制這些形狀的所有功能都geom位于它們的前面。geom_line()創(chuàng)建折線圖,geom_point()創(chuàng)建散點(diǎn)圖等。
 

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化

  注意使用該ggplot()功能后,如何開始使用+符號(hào)向其添加更多層。請(qǐng)務(wù)必注意這一點(diǎn),因?yàn)槲覀兺ǔ?>%會(huì)告訴您ggplot()要使用哪些數(shù)據(jù)。使用之后ggplot(),我們使用+來(lái)添加更多圖層。

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  這張圖正是我們想要的!從總體趨勢(shì)來(lái)看,預(yù)期壽命隨著時(shí)間的推移而增長(zhǎng)。
 

  如果我們只是快速查看數(shù)據(jù),可以在此處停止繪圖,但是這種情況很少發(fā)生。更為常見(jiàn)的是,您將為報(bào)告或團(tuán)隊(duì)中的其他人創(chuàng)建可視化文件。在這種情況下,情節(jié)是不完整的:如果我們將其交給沒(méi)有上下文的隊(duì)友,他們將不會(huì)理解情節(jié)。理想情況下,所有情節(jié)都應(yīng)該能夠通過(guò)注釋和標(biāo)題來(lái)說(shuō)明自己。
 

  添加標(biāo)題和軸標(biāo)簽
 

  當(dāng)前,該圖將列名稱保留為兩個(gè)軸的標(biāo)簽。對(duì)于Year,這已經(jīng)足夠了,但是我們想改變y軸。為了更改圖的軸標(biāo)簽,我們可以使用該labs()函數(shù)并將其作為圖層添加到圖上。labs()可以同時(shí)更改軸標(biāo)簽和標(biāo)題,因此我們將其合并在此。

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  我們最終的拋光圖是:

大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化
 

  結(jié)論:ggplot2功能強(qiáng)大!
 

  僅用幾行代碼,我們就產(chǎn)生了出色的可視化效果,它告訴我們我們需要了解的有關(guān)美國(guó)一般人口的預(yù)期壽命的所有信息??梢暬撬袛?shù)據(jù)分析師的一項(xiàng)必不可少的技能,R使其易于使用。
 

  如果您有興趣了解更多信息,請(qǐng)查看我們?cè)赗路徑中的數(shù)據(jù)分析師!R路徑中的Data Analyst包括使用R進(jìn)行R數(shù)據(jù)可視化的課程ggplot2,您將在其中學(xué)習(xí)如何:
 

  1)使用折線圖可視化隨時(shí)間變化。

  2)使用直方圖了解數(shù)據(jù)分布。

  3)使用條形圖和箱形圖比較圖形。

  4)使用散點(diǎn)圖了解變量之間的關(guān)系。



 

預(yù)約申請(qǐng)免費(fèi)試聽課

填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動(dòng)者教育科技有限公司版權(quán)所有
備案號(hào):京ICP備12034770號(hào)

?2007-2022/ 5wd995.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號(hào)

網(wǎng)站地圖