旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實(shí)習(xí)/?A計(jì)劃
全國(guó)統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析工程師DE職能要求

大數(shù)據(jù)分析工程師DE職能要求

時(shí)間:2019-07-04來源:www.5wd995.cn點(diǎn)擊量:作者:Sissi
時(shí)間:2019-07-04點(diǎn)擊量:作者:Sissi


  相對(duì)大數(shù)據(jù)科學(xué)家DS大數(shù)據(jù)分析科學(xué)家DS職能要求》,大數(shù)據(jù)工程師DE就比較雜了,做的事情也多。當(dāng)時(shí)中國(guó)data team 就3個(gè),2個(gè)大數(shù)據(jù)科學(xué)家DS,大數(shù)據(jù)工程師DE也就一個(gè),DE的崗位有人認(rèn)為是打雜的。因?yàn)?a href="http://www.5wd995.cn/data/1748.html" target="_blank">大數(shù)據(jù)工程師DS只負(fù)責(zé)算法輸出。你們想想,一個(gè)項(xiàng)目光有算法能行嗎?誰去執(zhí)行它,它要如何被外部調(diào)用?臟數(shù)據(jù)的清洗工作誰來做?還有很多很多的事情需要你考慮。
 

一、清洗數(shù)據(jù)
 

  首先大數(shù)據(jù)工程師DE最重要的事情就是輔助DS清洗數(shù)據(jù),我們叫data cleaning。因?yàn)楹芏鄷r(shí)候從外部拿到的數(shù)據(jù),無論是買來的,爬來的,還是已有的,都是原始數(shù)據(jù),大數(shù)據(jù)工程師DS需要對(duì)這部分?jǐn)?shù)據(jù)做一個(gè)預(yù)處理,否則很容易污染樣本數(shù)據(jù)。DE的工作,很重要的一部分就是去清洗數(shù)據(jù)。至于規(guī)則是DE和DS討論的,沒有一個(gè)固定的模版。
 

二、獲得數(shù)據(jù)來源
 

  剛剛說到的數(shù)據(jù)來源,有一個(gè)是爬來的,所以你還得會(huì)爬蟲。關(guān)于爬蟲部分的內(nèi)容我會(huì)另起一篇,給大家好好講講。當(dāng)時(shí)我想做,但沒有做的一部分就是爬蟲,因?yàn)槿烙泻芏喙_數(shù)據(jù)是可以去獲取的,當(dāng)時(shí)我想做的是分類,包括清洗、過濾、入庫、展示。沒來得及做。
 

  如果你會(huì)爬蟲,DS就會(huì)很高興了,因?yàn)樗麄儾挥脼闆]有數(shù)據(jù)犯愁了,你要知道,對(duì)于DS來說,數(shù)據(jù)的數(shù)量和質(zhì)量都是他們關(guān)心的東西。而老板更是了,因?yàn)镈S要數(shù)據(jù),他就要花錢去買,如果你是DE你說你可以嘗試爬爬看,那老板對(duì)你什么看法?
 

三、后端開發(fā)
 

  那你如果還會(huì)做后端開發(fā)就更好了,會(huì)自動(dòng)化建設(shè)那就更好了。自動(dòng)化建設(shè)一般老板是沒有要求做,若你想著提升生產(chǎn)效率。這樣可以提升工作效率,任務(wù)從一周時(shí)間縮減到1-2分鐘,只需要改配置就可以了,當(dāng)然這個(gè)過程是非常痛苦的,需要你前前后后與DS對(duì)需求,review代碼。

  服務(wù)端代碼寫好后,我們還可以做前端展示,對(duì)于vendor來說,他們不關(guān)心數(shù)據(jù)怎么來的,他們想看直接的東西dashboard。

  所以對(duì)于大數(shù)據(jù)工程師DE來說,做的事情可以很多。那python就是我們的武器庫了,武器是爬蟲、數(shù)據(jù)清洗、后端、前端等等,要什么拿什么,就看你有多少了。而武器庫里還可以加上kettle、tableau、informatica等等,這些只是附加項(xiàng)了。參加大數(shù)據(jù)分析培訓(xùn)機(jī)構(gòu)4個(gè)月培訓(xùn)應(yīng)對(duì)這個(gè)工作,信手拈來。

 

四、大數(shù)據(jù)工程師DE職能要求

  工作職責(zé)

  1、參與大數(shù)據(jù)分析平臺(tái)的規(guī)劃和建設(shè)

  2、協(xié)助相關(guān)業(yè)務(wù)數(shù)據(jù)服務(wù)接口的制定

  3、負(fù)責(zé)大數(shù)據(jù)處理分析平臺(tái)的服務(wù)框架的設(shè)計(jì)與開發(fā)

  要求:

  1. 重點(diǎn)本科或以上學(xué)歷,計(jì)算機(jī)、數(shù)學(xué)、通信等相關(guān)專業(yè);

  2. 有海量數(shù)據(jù)處理和并行計(jì)算開發(fā)經(jīng)驗(yàn)者,熟悉 Hadoop生態(tài),有實(shí)際大數(shù)據(jù)項(xiàng)目經(jīng)驗(yàn);

  3. 扎實(shí)的數(shù)據(jù)結(jié)構(gòu)及算法功底,優(yōu)秀的工程實(shí)現(xiàn)能力;

  4. 了解并掌握MySQL/Hive/Spark的使用;

  5. 精通設(shè)計(jì)模式、設(shè)計(jì)原則、面向?qū)ο缶幊涕_發(fā),精通可擴(kuò)展分布式編程經(jīng)驗(yàn);

  6. 優(yōu)秀的分析問題解決問題能力、學(xué)習(xí)能力、團(tuán)隊(duì)合作意識(shí);

  加分項(xiàng):

  1. 推薦系統(tǒng)、算法調(diào)優(yōu)經(jīng)驗(yàn)

  2. 有海量大數(shù)據(jù)開發(fā)經(jīng)驗(yàn)

  3. 有 Hadoop/Spark/HBase/Kafka/Storm/Lucene/Elasticsearch 深入源代碼分析經(jīng)驗(yàn)

  4. 熟悉機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、分布式計(jì)算

大數(shù)據(jù)工程師DE職能要求

預(yù)約申請(qǐng)免費(fèi)試聽課

填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動(dòng)者教育科技有限公司版權(quán)所有
備案號(hào):京ICP備12034770號(hào)

?2007-2022/ www.5wd995.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號(hào)

網(wǎng)站地圖