很多初學(xué)者,對大數(shù)據(jù)分析的概念都是模糊不清的,大數(shù)據(jù)分析是什么,能做什么,學(xué)的時候,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,很多人對于大數(shù)據(jù)分析師的印象就是坐在辦公室對著電腦噼里啪啦的敲鍵盤,跟程序員差不多,這種想法是錯誤的,其實大數(shù)據(jù)分析師是一個很高大上的職業(yè),大數(shù)據(jù)分析師通過獲取必要的數(shù)據(jù),分析這些數(shù)據(jù),然后從數(shù)據(jù)中發(fā)現(xiàn)一些問題提出自己的想法,這就是一個大數(shù)據(jù)分析師的基本工作內(nèi)容。
大數(shù)據(jù)工程師工作內(nèi)容取決于你工作在數(shù)據(jù)流的哪一個環(huán)節(jié)。從數(shù)據(jù)上游到數(shù)據(jù)下游,大致可以分為:
數(shù)據(jù)采集 -> 數(shù)據(jù)清洗 -> 數(shù)據(jù)存儲 -> 數(shù)據(jù)分析統(tǒng)計 -> 數(shù)據(jù)可視化 等幾個方面
大數(shù)據(jù)分析工作內(nèi)容當(dāng)然就是使用工具組件(Spark、Flume、Kafka等)或者代碼(Java、Scala等)來實現(xiàn)上面幾個方面的功能。具體說說如下:
一、數(shù)據(jù)采集
業(yè)務(wù)系統(tǒng)的埋點代碼時刻會產(chǎn)生一些分散的原始日志,可以用Flume監(jiān)控接收這些分散的日志,實現(xiàn)分散日志的聚合,即采集。
二、數(shù)據(jù)清洗
原始的日志,數(shù)據(jù)是千奇百怪的
一些字段可能會有異常取值,即臟數(shù)據(jù)。為了保證數(shù)據(jù)下游的"數(shù)據(jù)分析統(tǒng)計"能拿到比較高質(zhì)量的數(shù)據(jù),需要對這些記錄進行過濾或者字段數(shù)據(jù)回填。
一些日志的字段信息可能是多余的,下游不需要使用到這些字段做分析,同時也為了節(jié)省存儲開銷,需要刪除這些多余的字段信息。
一些日志的字段信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用'*'字符替換。
三、數(shù)據(jù)存儲
清洗后的數(shù)據(jù)可以落地入到數(shù)據(jù)倉庫(Hive),供下游做離線分析。如果下游的"數(shù)據(jù)分析統(tǒng)計"對實時性要求比較高,則可以把日志記錄入到kafka。
四、大數(shù)據(jù)分析統(tǒng)計
大數(shù)據(jù)分析是數(shù)據(jù)流的下游,消費來自上游的數(shù)據(jù)。其實就是從日志記錄里頭統(tǒng)計出各種各樣的報表數(shù)據(jù),簡單的報表統(tǒng)計可以用sql在kylin或者hive統(tǒng)計,復(fù)雜的報表就需要在代碼層面用Spark、Storm做統(tǒng)計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。
五、數(shù)據(jù)可視化
用數(shù)據(jù)表格、數(shù)據(jù)圖等直觀的形式展示上游"大數(shù)據(jù)分析統(tǒng)計"的數(shù)據(jù)。一般公司的某些決策會參考這些圖表里頭的數(shù)據(jù)。當(dāng)然,大數(shù)據(jù)平臺(如CDH、FusionInsight等)搭建與維護,也可能是大數(shù)據(jù)工程師工作內(nèi)容的一部分。
大數(shù)據(jù)分析師工作的流程簡單分為兩部分,第一部分就是獲取數(shù)據(jù),第二部分就是對數(shù)據(jù)進行處理。那么怎么獲得數(shù)據(jù)呢?首先,我們要知道,獲取相關(guān)的數(shù)據(jù),是數(shù)據(jù)分析的前提。每個企業(yè),都有自己的一套存儲機制。因此,基礎(chǔ)的SQL語言是必須的。具備基本SQL基礎(chǔ),再學(xué)習(xí)下其中細節(jié)的語法,基本就可以到很多數(shù)據(jù)了。當(dāng)每個需求明確以后,都要根據(jù)需要,把相關(guān)的數(shù)據(jù)獲取到,做基礎(chǔ)數(shù)據(jù)。
獲得了數(shù)據(jù)以后,才能夠進行數(shù)據(jù)處理工作。獲取數(shù)據(jù),把數(shù)據(jù)處理成自己想要的東西,是一個關(guān)鍵點。很多時候,有了數(shù)據(jù)不是完成,而是分析的開始。大數(shù)據(jù)分析師最重要的工作就是把數(shù)據(jù)根據(jù)需求處理好,只有數(shù)據(jù)跟需求結(jié)合起來,才能發(fā)揮數(shù)據(jù)的價值,看到需求的問題和本質(zhì)所在。如果連數(shù)據(jù)都沒處理好,何談從數(shù)據(jù)中發(fā)現(xiàn)問題呢?
就目前而言,大數(shù)據(jù)分析日益成為研究行業(yè)的重要研究目標(biāo)。面對其高數(shù)據(jù)量、多維度與異構(gòu)化的特點,以及分析方法思路的擴展,傳統(tǒng)統(tǒng)計工具已經(jīng)難以應(yīng)對。所以我們要使用專業(yè)的大數(shù)據(jù)分析工具。大數(shù)據(jù)分析工具都有Excel、SPSS、SAS等工具。Excel、SPSS、SAS 這三者對于大數(shù)據(jù)分析師來說并不陌生。但是這三種大數(shù)據(jù)分析工具應(yīng)對的數(shù)據(jù)分析的場景并不是相同的,一般來說,SPSS 輕量、易于使用,但功能相對較少,適合常規(guī)基本統(tǒng)計分析。而SPSS和SAS作為商業(yè)統(tǒng)計軟件,提供研究常用的經(jīng)典統(tǒng)計分析處理。由于SAS 功能豐富而強大,且支持編程擴展其分析能力,適合復(fù)雜與高要求的統(tǒng)計性分析。
以上的內(nèi)容就是AAA教育小編為大家講解的大數(shù)據(jù)分析師的工作內(nèi)容了,大數(shù)據(jù)分析師的工作是比較繁瑣的,但是也是比較高大上的。大家在了解大數(shù)據(jù)分析工作內(nèi)容的時候可以參考這篇文章,這樣可以更好的理解大數(shù)據(jù)分析行業(yè),最后感謝大家的閱讀。
填寫下面表單即可預(yù)約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費! 怕學(xué)不會?助教全程陪讀,隨時解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ 5wd995.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc