旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實(shí)習(xí)/?A計(jì)劃
全國(guó)統(tǒng)一咨詢熱線:010-5367 2995
首頁(yè) > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析面試題庫(kù)—基本的大數(shù)據(jù)分析面試問(wèn)題

大數(shù)據(jù)分析面試題庫(kù)—基本的大數(shù)據(jù)分析面試問(wèn)題

時(shí)間:2019-12-25來(lái)源:www.5wd995.cn點(diǎn)擊量:作者:Sissi
時(shí)間:2019-12-25點(diǎn)擊量:作者:Sissi




  每當(dāng)您去進(jìn)行大數(shù)據(jù)分析面試時(shí),面試官都會(huì)問(wèn)一些基本的問(wèn)題。無(wú)論您是大數(shù)據(jù)分析領(lǐng)域的新手還是經(jīng)驗(yàn)豐富的人,都需要具備基本知識(shí)。因此,AAA教育整理了一些常見(jiàn)的基本大數(shù)據(jù)分析面試問(wèn)題,和大家分享一下:
 

  一、您對(duì)“大數(shù)據(jù)分析”一詞有什么了解?
 

  答: 大數(shù)據(jù)分析是與復(fù)雜和大型數(shù)據(jù)集相關(guān)的術(shù)語(yǔ)。關(guān)系數(shù)據(jù)庫(kù)無(wú)法處理大數(shù)據(jù)分析,這就是為什么使用特殊的工具和方法對(duì)大量數(shù)據(jù)執(zhí)行操作的原因。大數(shù)據(jù)分析使公司能夠更好地了解其業(yè)務(wù),并幫助他們從定期收集的非結(jié)構(gòu)化和原始數(shù)據(jù)中獲取有意義的信息。大數(shù)據(jù)分析還使公司能夠在數(shù)據(jù)的支持下做出更好的業(yè)務(wù)決策。


二、大數(shù)據(jù)分析的五個(gè)V是什么?
 

  答:大數(shù)據(jù)分析的五個(gè)V如下:

  卷–卷表示卷的數(shù)量,即以高速率增長(zhǎng)的數(shù)據(jù)量,即以PB為單位的數(shù)據(jù)量

  速度–速度是數(shù)據(jù)增長(zhǎng)的速度。社交媒體在增長(zhǎng)數(shù)據(jù)的速度中起著重要作用。

  多樣性–多樣性是指不同的數(shù)據(jù)類型,即各種數(shù)據(jù)格式,例如文本,音頻,視頻等。

  準(zhǔn)確性–準(zhǔn)確性是指可用數(shù)據(jù)的不確定性。由于大量數(shù)據(jù)帶來(lái)不完整和不一致,因此會(huì)出現(xiàn)準(zhǔn)確性。

  價(jià)值–價(jià)值是指將數(shù)據(jù)轉(zhuǎn)化為價(jià)值。通過(guò)將訪問(wèn)的大數(shù)據(jù)分析轉(zhuǎn)化為價(jià)值,企業(yè)可以創(chuàng)造收入。


大數(shù)據(jù)分析
5 V的大數(shù)據(jù)分析
 

  注意: 這是大數(shù)據(jù)分析采訪中提出的基本且重要的問(wèn)題之一。如果您看到面試官有興趣了解更多信息,則可以選擇詳細(xì)解釋五個(gè)V。但是,如果詢問(wèn)“大數(shù)據(jù)分析”一詞,甚至可以提及這些名稱。
 

三、告訴我們大數(shù)據(jù)分析和Hadoop之間的關(guān)系。
 

  答: 大數(shù)據(jù)分析和Hadoop幾乎是同義詞。隨著大數(shù)據(jù)分析的興起,專門用于大數(shù)據(jù)分析操作的Hadoop框架也開(kāi)始流行。專業(yè)人士可以使用該框架來(lái)分析大數(shù)據(jù)分析并幫助企業(yè)做出決策。

  注意: 在大數(shù)據(jù)分析采訪中通常會(huì)問(wèn)這個(gè)問(wèn)題。 Ÿ歐可以進(jìn)一步去回答這個(gè)問(wèn)題,并試圖解釋的Hadoop的主要組成部分。
 

四、大數(shù)據(jù)分析分析如何有助于增加業(yè)務(wù)收入?
 

  答:大數(shù)據(jù)分析對(duì)于企業(yè)來(lái)說(shuō)已經(jīng)變得非常重要。它可以幫助企業(yè)與眾不同,并增加收入。通過(guò)預(yù)測(cè)分析,大數(shù)據(jù)分析為企業(yè)提供了定制的建議。此外,大數(shù)據(jù)分析使企業(yè)能夠根據(jù)客戶的需求和偏好推出新產(chǎn)品。這些因素使企業(yè)獲得了更多收入,因此公司正在使用大數(shù)據(jù)分析。通過(guò)實(shí)施大數(shù)據(jù)分析,公司的收入可能會(huì)大幅增長(zhǎng)5-20%。一些使用大數(shù)據(jù)分析來(lái)增加收入的受歡迎的公司是-沃爾瑪,LinkedIn,F(xiàn)acebook,Twitter,美國(guó)銀行等。
 

五、解釋部署大數(shù)據(jù)分析解決方案應(yīng)遵循的步驟。
 

  答:以下是部署大數(shù)據(jù)分析解決方案的三個(gè)步驟:

  1、資料提取

  部署大數(shù)據(jù)分析解決方案的第一步是數(shù)據(jù)攝取,即從各種來(lái)源提取數(shù)據(jù)。數(shù)據(jù)源可以是Salesforce之類的CRM,SAP之類的企業(yè)資源計(jì)劃系統(tǒng),MySQL之類的RDBMS或任何其他日志文件,文檔,社交媒體源等??梢酝ㄟ^(guò)批處理作業(yè)或?qū)崟r(shí)流來(lái)提取數(shù)據(jù)。然后將提取的數(shù)據(jù)存儲(chǔ)在HDFS中。


大數(shù)據(jù)分析
部署大數(shù)據(jù)分析解決方案的步驟
 

  2、數(shù)據(jù)存儲(chǔ)

  提取數(shù)據(jù)后,下一步是存儲(chǔ)提取的數(shù)據(jù)。數(shù)據(jù)可以存儲(chǔ)在HDFS或NoSQL數(shù)據(jù)庫(kù)(即HBase)中。HDFS存儲(chǔ)適用于順序訪問(wèn),而HBase適用于隨機(jī)讀取/寫入訪問(wèn)。

  3、數(shù)據(jù)處理

  部署大數(shù)據(jù)分析解決方案的最后一步是數(shù)據(jù)處理。數(shù)據(jù)通過(guò)Spark,MapReduce,Pig等處理框架之一進(jìn)行處理。
 

六、定義HDFS和YARN的各個(gè)組件
 

  答: HDFS的兩個(gè)主要組成部分是-

  NameNode –這是主節(jié)點(diǎn),用于處理HDFS中數(shù)據(jù)塊的元數(shù)據(jù)信息

  DataNode / Slave節(jié)點(diǎn)–這是一個(gè)充當(dāng)從節(jié)點(diǎn)存儲(chǔ)數(shù)據(jù)以供NameNode處理和使用的節(jié)點(diǎn)

  除了滿足客戶端請(qǐng)求之外,NameNode還執(zhí)行以下兩個(gè)角色之一:

  CheckpointNode –它運(yùn)行在與NameNode不同的主機(jī)上

  BackupNode-這是一個(gè)只讀的NameNode,其中包含文件系統(tǒng)元數(shù)據(jù)信息(不包括塊位置)

 


大數(shù)據(jù)分析


  YARN的兩個(gè)主要組成部分是:

  ResourceManager –此組件接收處理請(qǐng)求,并根據(jù)處理需要相應(yīng)地分配給相應(yīng)的NodeManager。

  NodeManager –在每個(gè)數(shù)據(jù)節(jié)點(diǎn)上執(zhí)行任務(wù)
 

七、為什么將Hadoop用于大數(shù)據(jù)分析?
 

  答: 由于數(shù)據(jù)分析已成為業(yè)務(wù)的關(guān)鍵參數(shù)之一,因此,企業(yè)正在處理大量的結(jié)構(gòu)化,非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。在Hadoop以其以下功能為主要角色的情況下,分析非結(jié)構(gòu)化數(shù)據(jù)非常困難

  存儲(chǔ)

  處理中

  數(shù)據(jù)采集

  此外,Hadoop是開(kāi)源的,并且在商品硬件上運(yùn)行。因此,它是企業(yè)的成本效益解決方案。
 

八、什么是fsck?
 

  答: fsck代表文件系統(tǒng)檢查。這是HDFS使用的命令。此命令用于檢查不一致以及文件中是否存在任何問(wèn)題。例如,如果文件缺少任何塊,則HDFS將通過(guò)此命令得到通知。
 

九、NAS(網(wǎng)絡(luò)附加存儲(chǔ))和HDFS之間的主要區(qū)別是什么?
 

  答: NAS(網(wǎng)絡(luò)附加存儲(chǔ))和HDFS之間的主要區(qū)別–

  HDFS在計(jì)算機(jī)集群上運(yùn)行,而NAS在單臺(tái)計(jì)算機(jī)上運(yùn)行。因此,數(shù)據(jù)冗余是HDFS中的常見(jiàn)問(wèn)題。相反,對(duì)于NAS,復(fù)制協(xié)議是不同的。因此,數(shù)據(jù)冗余的機(jī)會(huì)要少得多。

  對(duì)于HDFS,數(shù)據(jù)將作為數(shù)據(jù)塊存儲(chǔ)在本地驅(qū)動(dòng)器中。對(duì)于NAS,它存儲(chǔ)在專用硬件中。
 

十、格式化NameNode的命令是什么?
 

  答案: $ hdfs namenode -format




 

預(yù)約申請(qǐng)免費(fèi)試聽(tīng)課

填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動(dòng)者教育科技有限公司版權(quán)所有
備案號(hào):京ICP備12034770號(hào)

?2007-2022/ www.5wd995.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號(hào)

網(wǎng)站地圖