旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實(shí)習(xí)/?A計(jì)劃
全國(guó)統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析師工作內(nèi)容

大數(shù)據(jù)分析師工作內(nèi)容

時(shí)間:2019-07-13來源:www.5wd995.cn點(diǎn)擊量:作者:Sissi
時(shí)間:2019-07-13點(diǎn)擊量:作者:Sissi



  很多初學(xué)者,對(duì)大數(shù)據(jù)分析的概念都是模糊不清的,大數(shù)據(jù)分析是什么,能做什么,學(xué)的時(shí)候,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,很多人對(duì)于大數(shù)據(jù)分析師的印象就是坐在辦公室對(duì)著電腦噼里啪啦的敲鍵盤,跟程序員差不多,這種想法是錯(cuò)誤的,其實(shí)大數(shù)據(jù)分析師是一個(gè)很高大上的職業(yè),大數(shù)據(jù)分析師通過獲取必要的數(shù)據(jù),分析這些數(shù)據(jù),然后從數(shù)據(jù)中發(fā)現(xiàn)一些問題提出自己的想法,這就是一個(gè)大數(shù)據(jù)分析師的基本工作內(nèi)容。
 

  大數(shù)據(jù)工程師工作內(nèi)容取決于你工作在數(shù)據(jù)流的哪一個(gè)環(huán)節(jié)。從數(shù)據(jù)上游到數(shù)據(jù)下游,大致可以分為:
 

  數(shù)據(jù)采集 -> 數(shù)據(jù)清洗 -> 數(shù)據(jù)存儲(chǔ) -> 數(shù)據(jù)分析統(tǒng)計(jì) -> 數(shù)據(jù)可視化 等幾個(gè)方面
 

  大數(shù)據(jù)分析工作內(nèi)容當(dāng)然就是使用工具組件(Spark、Flume、Kafka等)或者代碼(Java、Scala等)來實(shí)現(xiàn)上面幾個(gè)方面的功能。具體說說如下:

大數(shù)據(jù)分析

一、數(shù)據(jù)采集
 

  業(yè)務(wù)系統(tǒng)的埋點(diǎn)代碼時(shí)刻會(huì)產(chǎn)生一些分散的原始日志,可以用Flume監(jiān)控接收這些分散的日志,實(shí)現(xiàn)分散日志的聚合,即采集。
 

二、數(shù)據(jù)清洗
 

  原始的日志,數(shù)據(jù)是千奇百怪的

  一些字段可能會(huì)有異常取值,即臟數(shù)據(jù)。為了保證數(shù)據(jù)下游的"數(shù)據(jù)分析統(tǒng)計(jì)"能拿到比較高質(zhì)量的數(shù)據(jù),需要對(duì)這些記錄進(jìn)行過濾或者字段數(shù)據(jù)回填。

  一些日志的字段信息可能是多余的,下游不需要使用到這些字段做分析,同時(shí)也為了節(jié)省存儲(chǔ)開銷,需要?jiǎng)h除這些多余的字段信息。

  一些日志的字段信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用'*'字符替換。

大數(shù)據(jù)分析

三、數(shù)據(jù)存儲(chǔ)
 

  清洗后的數(shù)據(jù)可以落地入到數(shù)據(jù)倉(cāng)庫(Hive),供下游做離線分析。如果下游的"數(shù)據(jù)分析統(tǒng)計(jì)"對(duì)實(shí)時(shí)性要求比較高,則可以把日志記錄入到kafka。
 

四、大數(shù)據(jù)分析統(tǒng)計(jì)
 

  大數(shù)據(jù)分析是數(shù)據(jù)流的下游,消費(fèi)來自上游的數(shù)據(jù)。其實(shí)就是從日志記錄里頭統(tǒng)計(jì)出各種各樣的報(bào)表數(shù)據(jù),簡(jiǎn)單的報(bào)表統(tǒng)計(jì)可以用sql在kylin或者h(yuǎn)ive統(tǒng)計(jì),復(fù)雜的報(bào)表就需要在代碼層面用Spark、Storm做統(tǒng)計(jì)分析。一些公司好像會(huì)有個(gè)叫BI的崗位是專門做這一塊的。
 

五、數(shù)據(jù)可視化
 

  用數(shù)據(jù)表格、數(shù)據(jù)圖等直觀的形式展示上游"大數(shù)據(jù)分析統(tǒng)計(jì)"的數(shù)據(jù)。一般公司的某些決策會(huì)參考這些圖表里頭的數(shù)據(jù)。當(dāng)然,大數(shù)據(jù)平臺(tái)(如CDH、FusionInsight等)搭建與維護(hù),也可能是大數(shù)據(jù)工程師工作內(nèi)容的一部分。

大數(shù)據(jù)分析

  大數(shù)據(jù)分析師工作的流程簡(jiǎn)單分為兩部分,第一部分就是獲取數(shù)據(jù),第二部分就是對(duì)數(shù)據(jù)進(jìn)行處理。那么怎么獲得數(shù)據(jù)呢?首先,我們要知道,獲取相關(guān)的數(shù)據(jù),是數(shù)據(jù)分析的前提。每個(gè)企業(yè),都有自己的一套存儲(chǔ)機(jī)制。因此,基礎(chǔ)的SQL語言是必須的。具備基本SQL基礎(chǔ),再學(xué)習(xí)下其中細(xì)節(jié)的語法,基本就可以到很多數(shù)據(jù)了。當(dāng)每個(gè)需求明確以后,都要根據(jù)需要,把相關(guān)的數(shù)據(jù)獲取到,做基礎(chǔ)數(shù)據(jù)。
 

  獲得了數(shù)據(jù)以后,才能夠進(jìn)行數(shù)據(jù)處理工作。獲取數(shù)據(jù),把數(shù)據(jù)處理成自己想要的東西,是一個(gè)關(guān)鍵點(diǎn)。很多時(shí)候,有了數(shù)據(jù)不是完成,而是分析的開始。大數(shù)據(jù)分析師最重要的工作就是把數(shù)據(jù)根據(jù)需求處理好,只有數(shù)據(jù)跟需求結(jié)合起來,才能發(fā)揮數(shù)據(jù)的價(jià)值,看到需求的問題和本質(zhì)所在。如果連數(shù)據(jù)都沒處理好,何談從數(shù)據(jù)中發(fā)現(xiàn)問題呢?
 

  就目前而言,大數(shù)據(jù)分析日益成為研究行業(yè)的重要研究目標(biāo)。面對(duì)其高數(shù)據(jù)量、多維度與異構(gòu)化的特點(diǎn),以及分析方法思路的擴(kuò)展,傳統(tǒng)統(tǒng)計(jì)工具已經(jīng)難以應(yīng)對(duì)。所以我們要使用專業(yè)的大數(shù)據(jù)分析工具。大數(shù)據(jù)分析工具都有Excel、SPSS、SAS等工具。Excel、SPSS、SAS 這三者對(duì)于大數(shù)據(jù)分析師來說并不陌生。但是這三種大數(shù)據(jù)分析工具應(yīng)對(duì)的數(shù)據(jù)分析的場(chǎng)景并不是相同的,一般來說,SPSS 輕量、易于使用,但功能相對(duì)較少,適合常規(guī)基本統(tǒng)計(jì)分析。而SPSS和SAS作為商業(yè)統(tǒng)計(jì)軟件,提供研究常用的經(jīng)典統(tǒng)計(jì)分析處理。由于SAS 功能豐富而強(qiáng)大,且支持編程擴(kuò)展其分析能力,適合復(fù)雜與高要求的統(tǒng)計(jì)性分析。
 

  以上的內(nèi)容就是AAA教育小編為大家講解的大數(shù)據(jù)分析師的工作內(nèi)容了,大數(shù)據(jù)分析師的工作是比較繁瑣的,但是也是比較高大上的。大家在了解大數(shù)據(jù)分析工作內(nèi)容的時(shí)候可以參考這篇文章,這樣可以更好的理解大數(shù)據(jù)分析行業(yè),最后感謝大家的閱讀。



 

預(yù)約申請(qǐng)免費(fèi)試聽課

填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動(dòng)者教育科技有限公司版權(quán)所有
備案號(hào):京ICP備12034770號(hào)

?2007-2022/ www.5wd995.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號(hào)

網(wǎng)站地圖