旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實習/?A計劃
全國統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析數(shù)據(jù)清洗的價值和意義

大數(shù)據(jù)分析數(shù)據(jù)清洗的價值和意義

時間:2020-04-29來源:5wd995.cn點擊量:作者:Sissi
時間:2020-04-29點擊量:作者:Sissi



  在這個由物聯(lián)網(wǎng)(IoT),社交媒體,邊緣計算以及越來越多的計算能力(如量子計算)支持的數(shù)字時代,數(shù)據(jù)可能是任何企業(yè)最有價值的資產(chǎn)之一。正確(或不正確)的數(shù)據(jù)管理將對企業(yè)的成功產(chǎn)生巨大影響。換句話說,它可以成敗一個企業(yè)。
 

  這就是原因,為了利用這些巨大的數(shù)據(jù),無論大小,企業(yè)都在使用機器學習和深度學習等技術(shù),以便他們可以建立有用的客戶群,增加銷售量并提高品牌忠誠度。
 

  但是在大多數(shù)情況下,由于具有許多收集源和各種格式(結(jié)構(gòu)化和非結(jié)構(gòu)化),數(shù)據(jù)可能是不準確,不一致和冗余的。
 

  通過向機器學習算法提供具有此類異常的數(shù)據(jù),我們是否可以及時,全面地訪問相關(guān)信息?

 

大數(shù)據(jù)分析

  不,當然不!首先需要清除此類數(shù)據(jù)。
 

  這就是數(shù)據(jù)清理的地方!
 

  數(shù)據(jù)清理是建立有效的機器學習模型的第一步,也是最重要的一步。至關(guān)重要!
 

  簡而言之,如果尚未清理和預(yù)處理數(shù)據(jù),則機器學習模型將無法正常工作。
 

  盡管我們經(jīng)常認為數(shù)據(jù)科學家將大部分時間都花在修補ML算法和模型上,但實際情況有所不同。大多數(shù)數(shù)據(jù)科學家花費大約80%的時間來清理數(shù)據(jù)。
 

  為什么?由于ML中的一個簡單事實,
 

  換句話說,如果您具有正確清理的數(shù)據(jù)集,則簡單的算法甚至可以從數(shù)據(jù)中獲得令人印象深刻的見解。
 

  我們將在本文中涉及與數(shù)據(jù)清理相關(guān)的一些重要問題:
 

  a.什么是數(shù)據(jù)清理?

  b.為什么需要它?

  c.數(shù)據(jù)清理有哪些常見步驟?

  d.與數(shù)據(jù)清理相關(guān)的挑戰(zhàn)是什么?

  e.哪些公司提供數(shù)據(jù)清理服務(wù)?
 

  讓我們一起開始旅程,了解數(shù)據(jù)清理!
 

  數(shù)據(jù)清洗到底是什么?
 

  數(shù)據(jù)清理,也稱為數(shù)據(jù)清理,用于檢測和糾正(或刪除)記錄集,表或數(shù)據(jù)庫中的不準確或損壞的記錄。廣義上講,數(shù)據(jù)清除或清除是指識別不正確,不完整,不相關(guān),不準確或其他有問題(“臟”)的數(shù)據(jù)部分,然后替換,修改或刪除該臟數(shù)據(jù)。
 

  通過有效的數(shù)據(jù)清理,所有數(shù)據(jù)集都應(yīng)該沒有任何在分析期間可能出現(xiàn)問題的錯誤。
 

  為什么需要數(shù)據(jù)清理?
 

  通常認為數(shù)據(jù)清理是無聊的部分。但這是一個有價值的過程,可以幫助企業(yè)節(jié)省時間并提高效率。
 

  這有點像準備長假。我們可能不喜歡準備部分,但我們可以提前收緊細節(jié),以免遭受這一噩夢的困擾。
 

  我們只需要這樣做,否則我們就無法開始玩樂。就這么簡單!
 

  讓我們來看一些由于“臟”數(shù)據(jù)而可能在各個領(lǐng)域出現(xiàn)的問題的示例:
 

  a.假設(shè)廣告系列使用的是低質(zhì)量的數(shù)據(jù)并以不相關(guān)的報價吸引用戶,則該公司不僅會降低客戶滿意度,而且會錯失大量銷售機會。

  b.如果銷售代表由于沒有準確的數(shù)據(jù)而未能聯(lián)系潛在客戶,則可以了解對銷售的影響。

  c.任何規(guī)模大小的在線企業(yè)都可能因不符合其客戶的數(shù)據(jù)隱私規(guī)定而受到政府的嚴厲處罰。例如,F(xiàn)acebook因劍橋數(shù)據(jù)分析違規(guī)向聯(lián)邦貿(mào)易委員會支付了50億美元的罰款。

  d.向生產(chǎn)機器提供低質(zhì)量的操作數(shù)據(jù)可能會給制造公司帶來重大問題。
 

  數(shù)據(jù)清理涉及哪些常見步驟?
 

  每個人都進行數(shù)據(jù)清理,但沒人真正談?wù)撍?。當然,這不是機器學習的“最奇妙”部分,是的,沒有任何隱藏的技巧和秘密可以發(fā)現(xiàn)。
 

  盡管不同類型的數(shù)據(jù)將需要不同類型的清除,但是我們在此處列出的常見步驟始終可以作為一個良好的起點。
 

  因此,讓我們清理數(shù)據(jù)中的混亂!
 

  刪除不必要的觀察
 

  數(shù)據(jù)清理的第一步是從我們的數(shù)據(jù)集中刪除不需要的觀測值。不需要的觀察包括重復(fù)或不相關(guān)的觀察。
 

  a.在數(shù)據(jù)收集過程中,最常見的是重復(fù)或多余的觀察結(jié)果。例如,當我們組合多個地方的數(shù)據(jù)集或從客戶端接收數(shù)據(jù)時,就會發(fā)生這種情況。隨著數(shù)據(jù)的重復(fù),這種觀察會在很大程度上改變效率,并且可能會增加正確或不正確的一面,從而產(chǎn)生不忠實的結(jié)果。
 

  b.不相關(guān)的觀察結(jié)果實際上與我們要解決的特定問題不符。例如,在手寫數(shù)字識別領(lǐng)域,掃描錯誤(例如污跡或非數(shù)字字符)是無關(guān)緊要的觀察結(jié)果。這樣的觀察結(jié)果是任何沒有用的數(shù)據(jù),可以直接刪除。
 

  修復(fù)結(jié)構(gòu)錯誤
 

  數(shù)據(jù)清理的下一步是修復(fù)數(shù)據(jù)集中的結(jié)構(gòu)錯誤。
 

  結(jié)構(gòu)錯誤是指在測量,數(shù)據(jù)傳輸或其他類似情況下出現(xiàn)的那些錯誤。這些錯誤通常包括:
 

  a.功能名稱中的印刷錯誤(typos),

  b.具有不同名稱的相同屬性,

  c.貼錯標簽的類,即應(yīng)該完全相同的單獨的類,

  d.大小寫不一致。
 

  例如,模型應(yīng)將錯字和大小寫不一致(例如“印度”和“印度”)視為同一個類別,而不是兩個不同的類別。與標簽錯誤的類有關(guān)的一個示例是“不適用”和“不適用”。如果它們顯示為兩個單獨的類,則應(yīng)將它們組合在一起。
 

  這些結(jié)構(gòu)錯誤使我們的模型效率低下,并給出質(zhì)量較差的結(jié)果。
 

  過濾不需要的離群值
 

  數(shù)據(jù)清理的下一步是從數(shù)據(jù)集中過濾掉不需要的離群值。數(shù)據(jù)集包含離訓(xùn)練數(shù)據(jù)其余部分相距甚遠的異常值。這樣的異常值會給某些類型的ML模型帶來更多問題。例如,線性回歸ML模型的穩(wěn)定性不如Random Forest ML模型強。
 

  但是,離群值在被證明有罪之前是無辜的,因此,我們應(yīng)該有一個合理的理由刪除一個離群值。有時,消除異常值可以提高模型性能,有時卻不能。
 

  我們還可以使用離群值檢測估計器,這些估計器總是嘗試擬合訓(xùn)練數(shù)據(jù)最集中的區(qū)域,而忽略異常觀察值。
 

  處理丟失的數(shù)據(jù)
 

  機器學習中看似棘手的問題之一是“缺少數(shù)據(jù)”。為了清楚起見,您不能簡單地忽略數(shù)據(jù)集中的缺失值。出于非常實際的原因,您必須以某種方式處理丟失的數(shù)據(jù),因為大多數(shù)應(yīng)用的ML算法都不接受帶有丟失值的數(shù)據(jù)集。
 

  讓我們看一下兩種最常用的處理丟失數(shù)據(jù)的方法。
 

  a.刪除具有缺失值的觀察值:
 

  這是次優(yōu)方式,因為當我們丟棄觀察值時,也會丟棄信息。原因是,缺失的值可能會提供參考,在現(xiàn)實世界中,即使某些功能缺失,我們也經(jīng)常需要對新數(shù)據(jù)進行預(yù)測。
 

  b.根據(jù)過去或其他觀察結(jié)果估算缺失值:
 

  這也是次優(yōu)的方法,因為無論我們的估算方法多么復(fù)雜,原始值都會丟失,這總是會導(dǎo)致信息丟失。由于缺少值可能會提供信息,因此應(yīng)該告訴我們的算法是否缺少值。而且,如果我們推算我們的價值觀,我們只是在加強其他功能已經(jīng)提供的模式。
 

  簡而言之,關(guān)鍵是告訴我們的算法最初是否缺少值。
 

  那么我們該怎么做呢?
 

  a.要處理分類特征的缺失數(shù)據(jù),只需將其標記為“缺失”即可。通過這樣做,我們實質(zhì)上是添加了新的功能類別。

  b.要處理丟失的數(shù)字數(shù)據(jù),請標記并填充值。通過這樣做,我們實質(zhì)上允許算法估計缺失的最佳常數(shù),而不僅僅是用均值填充。
 

  與數(shù)據(jù)清理相關(guān)的主要挑戰(zhàn)是什么?
 

  盡管數(shù)據(jù)清理對于任何組織的持續(xù)成功都是必不可少的,但它也面臨著自己的挑戰(zhàn)。一些主要挑戰(zhàn)包括:
 

  a.對引起異常的原因了解有限。

  b.錯誤地刪除數(shù)據(jù)會導(dǎo)致數(shù)據(jù)不完整,無法準確地“填寫”。

  c.為了幫助提前完成該過程,構(gòu)建數(shù)據(jù)清理圖非常困難。

  d.對于任何正在進行的維護,數(shù)據(jù)清理過程既昂貴又費時。




 

預(yù)約申請免費試聽課

填寫下面表單即可預(yù)約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!

?2007-2021/北京漫動者教育科技有限公司版權(quán)所有
備案號:京ICP備12034770號

?2007-2022/ 5wd995.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號

網(wǎng)站地圖