學習對象:
1、大專以上理工科比較容易入門;
2、在計算機、數(shù)學專業(yè)最易入門;
3、有一定數(shù)學基礎的專業(yè);
4、經(jīng)濟學,金融學商科也有優(yōu)勢;
5、具備一定工作經(jīng)驗,想要謀求多元發(fā)展;
6、能夠承受高壓,希望以最短時間學習大數(shù)據(jù)開發(fā)開發(fā)核心內(nèi)容,并使之成為職場加分項;
7、想要學習大數(shù)據(jù)完成彎道提升,打破現(xiàn)處職業(yè)瓶頸;
8、為自己追加競爭資本。
培訓周期:
培訓時間:3個月
上課時間:周一至周五 (AM 9:00-12:30,PM 13:30-17:00)
學習費用:
大數(shù)據(jù)分析學費2萬左右
入學方式:
報名后由專業(yè)職業(yè)規(guī)劃師面試入學(咨詢詳情)
第1階段、Linux&&Hadoop生態(tài)體系 | ||
課程名稱 | 重點內(nèi)容 | 目標 |
一、Linux大綱 |
1) 第四層負載均衡2) 了解機架服務器,采用真實機架服務器部署linux3) Linux的常用命令:常用命令的介紹、常用命令的使用和練習;4) Linux系統(tǒng)進程管理基本原理及相關管理工具如ps、pkill、top、htop等的使用;5) Linux啟動流程,運行級別詳解,chkconfig詳解;6) VI、VIM編輯器:VI、VIM編輯器的介紹、VI、VIM扥使用和常用快捷鍵;7) Linux用戶和組賬戶管理:用戶的管理、組管理;8) Linux磁盤管理,lvm邏輯卷,nfs詳解;9) Linux系統(tǒng)文件權限管理:文件權限介紹、文件權限的操作;10) Linux的RPM軟件包管理:RPM包的介紹、RPM安裝、卸載等操作;11) yum命令,yum源搭建;12) Linux網(wǎng)絡:Linux網(wǎng)絡的介紹、Linux網(wǎng)絡的配置和維護;13) Shell編程:Shell的介紹、Shell腳本的編寫;14) Linux上常見軟件的安裝:安裝JDK、安裝Tomcat、安裝mysql,web項目部署; |
這章是基礎課程,幫大家進入大數(shù)據(jù)領域打好Linux基礎,以便更好地學習Hadoop,hbase,NoSQL,Spark,Storm,docker,kvm,openstack等眾多課程。因為企業(yè)中無一例外的是使用Linux來搭建或部署項目。 |
二、大型網(wǎng)站高并發(fā)處理 |
1) 第四層負載均衡a) Lvs負載均衡
i. 負載算法,NAT模式,直接路由模式(DR),隧道模式(TUN)
b) F5負載均衡器介紹 2) 第七層負載均衡a) Nginx b) Apache 3) Tomcat、jvm優(yōu)化提高并發(fā)量4) 緩存優(yōu)化a) Java緩存框架
i. Oscache,ehcache
b) 緩存數(shù)據(jù)庫
i. Redis,Memcached
5) Lvs nginx tomcat redis|memcache構建二層負載均衡千萬并發(fā)處理6) Haproxy7) Fastdfs小文件獨立存儲管理8) Redis緩存系統(tǒng)a) Redis基本使用 b) Redis sentinel高可用 c) Redis好友推薦算法 |
本章的學習大家將會了解大數(shù)據(jù)的源頭,數(shù)據(jù)從何而來,繼而更好的了解大數(shù)據(jù)。并且經(jīng)過學習何果處理大型網(wǎng)站高并發(fā)問題反向更深入的學習了Linux,同時站在了更高的角度去觸探了架構。 |
三、Lucene課程 |
1) Lucene介紹2) Lucene 倒排索引原理3) 建索引 IndexWriter4) 搜索 IndexSearcher5) Query6) Sort和 過濾 (filter)7) 索引優(yōu)化和高亮 |
在大數(shù)據(jù)里面文本數(shù)據(jù)的搜索是很重要的一塊,特別是里面的分詞技術,是后面機器學習里面文本挖掘的基石,我們需要深入學習java領域里面的搜索核心技術lucene,同時也可以了解到百度 google這樣的搜索系統(tǒng)是怎么架構實現(xiàn)的。 |
四、Solr課程 |
1) 什么是solr2) 為什么工程中要使用solr3) Solr的原理4) 如何在tomcat中運行solr5) 如何利用solr進行索引與搜索6) solr的各種查詢7) solr的Filter8) solr的排序9) solr的高亮10) solr的某個域統(tǒng)計11) solr的范圍統(tǒng)計12) solrcloud集群搭建 |
接著前面lucene技術搜索,如果把lucene技術比如為發(fā)動機,那solr就是一兩成型的汽車了。學習完solr可以幫助你在企業(yè)里面**的架構搜索系統(tǒng)。首先Solr是基于Lucene做的,Lucene是一套信息檢索工具包,但并不包含搜索引擎系統(tǒng),它包含了索引結構、讀寫索引工具、相關性工具、排序等功能,因此在使用Lucene時你仍需要關注搜索引擎系統(tǒng),例如數(shù)據(jù)獲取、解析、分詞等方面的東西。而Solr的目標是打造一款企業(yè)級的搜索引擎系統(tǒng),因此它更接近于我們認識到的搜索引擎系統(tǒng),它是一個搜索引擎服務,經(jīng)過各種API可以讓你的應用使用搜索服務,而不需要將搜索邏輯耦合在應用中。而且Solr可以根據(jù)配置文件定義數(shù)據(jù)解析的方式,更像是一個搜索框架,它也支持主從、熱換庫等操作。還添加了飄紅、facet等搜索引擎常見功能的支持。 |
五、Hadoop離線計算大綱 |
一、1) Hadoop生態(tài)環(huán)境介紹 2) Hadoop云計算中的位置和關系 3) 國內(nèi)外Hadoop應用案例介紹 4) Hadoop 概念、版本、歷史 5) Hadoop 核心組成介紹及hdfs、mapreduce 體系結構 6) Hadoop 的集群結構 7) Hadoop 偽分布的詳細安裝步驟 8) 經(jīng)過命令行和瀏覽器觀察hadoop 二、1) HDFS底層工作原理 2) HDFS datanode,namenode詳解 3) Hdfs shell 4) Hdfs java api 三、1) Mapreduce四個階段介紹 2) Writable 3) InputSplit和OutputSplit 4) Maptask 5) Shuffle:Sort,Partitioner,Group,Combiner 6) Reducer 四、Mapreducer案例1) 二次排序 2) 倒排序索引 3) zui優(yōu)路徑 4) 電信數(shù)據(jù)挖掘之-----移動軌跡預測分析(中國棱鏡計劃) 5) 社交好友推薦算法 6) 互聯(lián)網(wǎng)精準廣告推送 算法 7) 阿里巴巴天池大數(shù)據(jù)競賽 《天貓推薦算法》案例 8) Mapreduce實戰(zhàn)pagerank算法 五、1) Hadoop2.x集群結構體系介紹 2) Hadoop2.x集群搭建 3) NameNode的高可用性(HA) 4) HDFS Federation 5) ResourceManager 的高可用性(HA) 6) Hadoop集群常見問題和解決方法 7) Hadoop集群管理 |
一、初識hadoop聽過大數(shù)據(jù),必聽過hadoop,此部分帶領大家了解hadoop的用途,在大數(shù)據(jù)中的用途,以及**搭建一個hadoop的實驗環(huán)境,在本過程中不僅將用到前面的Linux知識,而且會對hadoop的架構有深入的理解,并為你以后架構大數(shù)據(jù)項目打下堅實基礎。 二、HDFS體系結構和shell以及java操作詳細剖析HDFS,從知曉原理到開發(fā)網(wǎng)*的項目讓大家打好學習大數(shù)據(jù)的基礎,大數(shù)據(jù)之于分布式,分布式學習從學習分布式文件系統(tǒng)(HDFS)開始。 三、 詳細講解MapreduceMapreduce可以說是任何一家大數(shù)據(jù)公司都會用到的計算框架,也是每個大數(shù)據(jù)工程師應該熟練掌握的。 五、 Hadoop2.x集群搭建前面帶領大家開發(fā)了大量的MapReduce程序 |
六、分布式數(shù)據(jù)庫Hbase |
1) HBase與RDBMS的對比2) 數(shù)據(jù)模型3) 系統(tǒng)架構4) HBase上的MapReduce5) 表的設計6) 集群的搭建過程講解7) 集群的監(jiān)控8) 集群的管理9) HBase Shell以及演示10) Hbase 樹形表設計11) Hbase 一對多 和 多對多 表設計12) Hbase 微博 案例13) Hbase 訂單案例14) Hbase表級優(yōu)化15) Hbase 寫數(shù)據(jù)優(yōu)化16) Hbase 讀數(shù)據(jù)優(yōu)化 |
大數(shù)據(jù)中使用Hbase的案例多的舉不勝舉,也可凸顯大家學習的必要性。即使工作多年的大數(shù)據(jù)工程師Hbase的優(yōu)化也是需要好好學習的重點。 |
七、數(shù)據(jù)倉庫Hive |
1) 數(shù)據(jù)倉庫基礎知識2) Hive定義3) Hive體系結構簡介4) Hive集群5) 客戶端簡介6) HiveQL定義7) HiveQL與SQL的比較8) 數(shù)據(jù)類型9) 外部表和分區(qū)表10) ddl與CLI客戶端演示11) dml與CLI客戶端演示12) select與CLI客戶端演示13) Operators 和 functions與CLI客戶端演示14) Hive server2 與jdbc15) 用戶自定義函數(shù)(UDF 和 UDAF)的開發(fā)與演示16) Hive 優(yōu)化 |
Hive是使用sql進行計算的hadoop框架,工作中常用到的部分,也是面試的重點,此部分大家將從方方面面來學習Hive的應用,任何細節(jié)都將給大家涉及到。 |
八、數(shù)據(jù)遷移工具Sqoop |
1) 介紹 和 配置Sqoop2) Sqoop shell使用3) Sqoop-importa) DBMS-hdfs b) DBMS-hive c) DBMS-hbase 4) Sqoop-export |
sqoop適用于關系型數(shù)據(jù)庫和HDFS分布式數(shù)據(jù)系統(tǒng)之間進行數(shù)據(jù)轉(zhuǎn)換,在企業(yè)中,是構建數(shù)據(jù)倉庫的一大工具。 |
九、Flume分布式日志框架 |
1) flume簡介-基礎知識2) flume安裝與測試3) flume部署方式4) flume source相關配置及測試5) flume sink相關配置及測試6) flume selector 相關配置與案例分析7) flume Sink Processors相關配置和案例分析8) flume Interceptors相關配置和案例分析9) flume AVRO Client開發(fā)10) flume 和kafka 的整合 |
Flume是Cloudera提供的日志收集系統(tǒng),目前是Apache下的一個孵化項目,F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。大家學習完此節(jié)后不但可以掌握Flume的使用,而且可以進行對于Flume的開發(fā)。 |
十、Zookeeper開發(fā) |
1) Zookeeper java api開發(fā)2) Zookeeper rmi高可用分布式集群開發(fā)3) Zookeeper redis高可用監(jiān)控實現(xiàn)4) Netty 異步io通信框架5) Zookeeper實現(xiàn)netty分布式架構的高可用 |
Zookeeper在分布式集群(Hadoop生態(tài)圈)中的地位越來越突出,對分布式應用的開發(fā)也提供了極大便利,這也是這里我們帶領大家深初入學習 Zookeeper的原因。本課程主要內(nèi)容包括Zookeeper深入、客戶端開發(fā)(Java編程,案例開發(fā))、日常運維、Web界面監(jiān)控。大家這里學好Zookeeper,對后面學習其他技術至關重要。 |
十一、某一線公司的真實項目 |
項目技術架構體系:a) Web項目和云計算項目的整合 b) Flume經(jīng)過avro實時收集web項目中的日志 c) 數(shù)據(jù)的ETL d) Hive 批量 sql執(zhí)行 e) Hive 自定義函數(shù) f) Hive和hbase整合。 g) Hbase 數(shù)據(jù)支持 sql查詢分析 h) Mapreduce數(shù)據(jù)挖掘 i) Hbase dao處理 j) Sqoop 在項目中的使用。 k) Mapreduce 定時調(diào)用和監(jiān)控 |
某大型的一線網(wǎng)站的日志分析和訂單管理在實戰(zhàn)中學習,技術點非常多,怎么樣實際運用這些點是我們在自學過程中體驗不到的。Cookie日志分析包括:pv、uv,跳出率,二跳率、廣告轉(zhuǎn)化率、搜索引擎優(yōu)化等,訂單模塊有:產(chǎn)品推薦,商家排名,歷史訂單查詢,訂單報表統(tǒng)計等。 |
第二階段、云計算體系 | ||
課程名稱 | 重點內(nèi)容 | 目標 |
一、Docker 課程 |
1) 基本介紹2) vm docker 對比3) docker基本架構介紹4) unfs cgroup namespace5) 進程虛擬化 輕量級虛擬化6) docker 安裝7) docker 鏡像制作8) docker 常用命令9) docker 鏡像遷移10) docker pipework【i.openvswitch】11) docker weave |
Docker 是一個開源的應用容器引擎,讓開發(fā)者可以打包他們的應用以及依賴包到一個可移植的容器中,然后發(fā)布到任何流行的 Linux 機器上,也可以實現(xiàn)虛擬化。容器是完全使用沙箱機制,相互之間不會有任何接口(類似 iPhone 的 app)。幾乎沒有性能開銷,可以很容易地在機器和數(shù)據(jù)中心中運行。重要的是,他們不依賴于任何語言、框架包括系統(tǒng)。 |
二、虛擬化KVM |
1) 虛擬化介紹,虛擬化適用場景等等2) Qemu Libvirt & KVM3) 安裝KVM, Qemu, Libvirt4) QEMU-KVM: 安裝第1個能上網(wǎng)的虛擬機5) Kvm虛擬機 nat,網(wǎng)橋基本原理6) kvm虛擬機克隆7) kvm虛擬機vnc配置8) kvm虛擬機擴展磁盤空間9) Kvm快照10) Kvm 遷移11) Java,python,c語言編程控制kvm12) 構建自己的虛擬云平臺 |
云計算平臺,比如openstack,cloudstack 底層采用的技術都是虛擬化方案,現(xiàn)在以kvm市場占有率高,我們要深入的去學習這些原生的虛擬化,才能深入了解和架構openstack這樣的云計算的平臺,也才更有能力去開發(fā)自己的云計算平臺 |
三、云平臺OpenStack |
1) openstack介紹和模塊基本原理分析2) openstack多節(jié)點安裝部署【a.采用centos6.x系統(tǒng)】3) Keystone基本原理4) glance5) Cinder6) Swift7) Neutron8) Openstack api 二次開發(fā) |
在實戰(zhàn)中學習,課程絕不是紙上談兵,經(jīng)過搭建和調(diào)試一個真實的openstack平臺,深入淺出, 詳細講解openstack的各個組成模塊:keystone, glance, nova, cinder, neutron, horizen。課程中遇到的各種實際問題,不僅演示了如何解決,更是要教會大家學會去找到解決問題的方法。難點問題全面講解。在云計算的各種技術當中,網(wǎng)絡部分是zui難,也是zui復雜多樣的。課程中針對虛擬網(wǎng)絡進行了詳細的講解,包括基本原理,以及實際環(huán)境搭建,問題的跟蹤和解決。講師擁有豐富的移動集團工作經(jīng)驗,負責云平臺的各方面工作,講課內(nèi)容完全貼近企業(yè)需求,絕不紙上談兵。 |
第三階段、大數(shù)據(jù)計算框架體系 | ||
課程名稱 | 重點內(nèi)容 | 目標 |
一、Python課程 |
1) 介紹Python以及特點2) Python的安裝3) Python基本操作(注釋、邏輯、字符串使用等)4) Python數(shù)據(jù)結構(元組、列表、字典)5) 使用Python進行批量重命名小例子6) Python常見內(nèi)建函數(shù)7) 更多Python函數(shù)及使用常見技巧8) 異常9) Python函數(shù)的參數(shù)講解10) Python模塊的導入11) Python中的類與繼承12) 網(wǎng)絡爬蟲案例13) 數(shù)據(jù)庫連接,以及pip安裝模塊14) Mongodb基礎入門15) 講解如何連接mongodb16) Python的機器學習案例 |
Python語言的部分大家在學習后可以完全掌握Python的精髓,并經(jīng)過這部分的學習給大家打好一個基礎,在其他計算框架中多語言的使用上都會涉及到Python這門流行的語言。同時課程里會經(jīng)過機器學習的案例讓大家學習Python的同時去更好的理解機器學習 |
二、Scala課程 |
1) scala解釋器、變量、常用數(shù)據(jù)類型等2) scala的條件表達式、輸入輸出、循環(huán)等控制結構3) scala的函數(shù)、默認參數(shù)、變長參數(shù)等4) scala的數(shù)組、變長數(shù)組、多維數(shù)組等5) scala的映射、元組等操作6) scala的類,包括bean屬性、輔助構造器、主構造器等7) scala的對象、單例對象、伴生對象、擴展類、apply方法等8) scala的包、引入、繼承等概念9) scala的特質(zhì)10) scala的操作符11) scala的高階函數(shù)12) scala的集合13) scala數(shù)據(jù)庫連接 |
Scala課程 在此部分內(nèi),將更注重scala的各種語言規(guī)則與簡單直接的應用,而不在于其是如何具體實現(xiàn),經(jīng)過學習本課程能具備初步的Scala語言實際編程能力。本部分課程也可以視為大家下面學習Spark課程的鋪墊,供大家掃盲熟悉Scala,提前進行熱身運動。 |
三、Spark大數(shù)據(jù)處理 |
1) 1) Spark介紹2) Spark應用場景3) Spark和Hadoop MR、Storm的比較和優(yōu)勢4) RDD5) Transformation6) Action7) Spark計算PageRank8) Lineage9) Spark模型簡介10) Spark緩存策略和容錯處理11) 寬依賴與窄依賴12) Spark配置講解13) Spark集群搭建14) 集群搭建常見問題解決15) Spark原理核心組件和常用RDD16) 數(shù)據(jù)本地性17) 任務調(diào)度18) DAGScheduler19) TaskScheduler20) Spark源碼解讀21) 性能調(diào)優(yōu)22) Spark和Hadoop2.x整合:Spark on Yarn原理 |
Spark大數(shù)據(jù)處理 本部分內(nèi)容全面涵蓋了Spark生態(tài)系統(tǒng)的概述及其編程模型,深入內(nèi)核的研究,Spark on Yarn,Spark Streaming流式計算原理與實踐,Spark SQL,Spark的多語言編程以及SparkR的原理和運行。不僅面向項目開發(fā)人員,甚至對于研究Spark的學員,此部分都是非常有學習指引意義的課程。 |
四、Spark—Streaming大數(shù)據(jù)處理 |
1) Spark Streaming:數(shù)據(jù)源和DStream2) 無狀態(tài)transformation與有狀態(tài)transformation3) Streaming Window的操作4) sparksql 編程實戰(zhàn)5) spark的多語言操作6) spark新版本的新特性 |
Spark—Streaming是流式計算里zui有特點的框架,便于機器學習上模型的使用,當下公司Spark默認就是Streaming,可見它的重要性,對于微批處理的流式計算,框架簡介,Dstream的模型使用 |
五、Spark—Mlib機器學習 |
1) 介紹a) Spark MLlib組件介紹 b) 基本數(shù)據(jù)類型 2) 回歸算法c) 廣義線性模型 d) 邏輯回歸 3) 分類算法e) 樸素貝葉斯 f) 決策樹 g) 隨機森林 4) 第四章 推薦系統(tǒng)5) 第五章 聚類6) spark新版本的新特性h) Kmeans i) Sparse kmeans j) Kmeans k) Kmeans II l) Streaming kmeans m) Gaussian Mixture Model |
前面課程大家已經(jīng)掌握第1代機器學習工具R,而后又學習了第二代機器學習工具Mahout,這里大家將會學習第三代機器學習工具MLlib,大家不僅將會了解MLlib的組件及其調(diào)用,而且會經(jīng)過Spark的項目深入了解MLlib的現(xiàn)實使用。經(jīng)過此部分大家也可以看出課程不僅著眼于現(xiàn)在,更是著眼于大家的未來在行業(yè)中的發(fā)展。 |
六、Spark—GraphX 圖計算 |
a) 二分圖b) 概述c) 構造圖d) 屬性圖e) PageRank |
這節(jié)課程是 Apache的開源的圖計算框架Giraph,以及卡內(nèi)基梅隆大學主導的GraphLab等,當然還有本文的主角——基于Spark的GraphX |
七、基于Spark的推薦系統(tǒng)(某一線公司真實的項目) |
項目技術架構體系:a) 實時流處理 Kafka,Spark Streaming b) 分布式運算 Hadoop,Spark c) 數(shù)據(jù)庫 Hbase,Redis d) 機器學習 Spark Mllib e) 前臺web展示數(shù)據(jù) Struts2,echart f) 分布式平臺 Hadoop,Spark g) 數(shù)據(jù)清洗 Hive h) 數(shù)據(jù)分析 R RStudio i) 推薦服務 Dubbox j) 規(guī)則過濾 Drools k) 機器學習 MLlib |
個性化推薦是根據(jù)用戶的興趣特點和購買行為,向用戶推薦用戶感興趣的信息和商品。隨著電子商務規(guī)模的不斷擴大,商品個數(shù)和種類**增長,顧客需要花費大量的時間才能找到自己想買的商品。這種瀏覽大量無關的信息和產(chǎn)品過程無疑會使淹沒在信息過載問題中的消費者不斷流失。為了解決這些問題,個性化推薦系統(tǒng)應運而生。個性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎上的一種高級商務智能平臺,以幫助電子商務網(wǎng)站為其顧客購物提供完全個性化的決策支持和信息服務 |
八、Kafka課程 |
1) kafka是什么2) kafka體系結構3) kafka配置詳解4) kafka的安裝5) kafka的存儲策略6) kafka分區(qū)特點7) kafka的發(fā)布與訂閱8) zookeeper協(xié)調(diào)管理9) java編程操作kafka10) scala編程操作kafka11) flume 和kafka 的整合12) Kafka 和storm 的整合 |
Kafka是當下流行的隊列,可以說是從數(shù)據(jù)采集到大數(shù)據(jù)計算承上啟下的重要環(huán)節(jié),大家在此部分將會詳細學習它的架構,kafka在大家大數(shù)據(jù)的項目中幾乎都會涉及到。 |
九、Strom實時數(shù)據(jù)處理 |
項目技術架構體系:1) Storm的基本概念 2) Storm的應用場景 3) Storm和Hadoop的對比 4) Storm集群的安裝的linux環(huán)境準備 5) zookeeper集群搭建 6) Storm集群搭建 7) Storm配置文件配置項講解 8) 集群搭建常見問題解決 9) Storm常用組件和編程API:Topology、 Spout、Bolt 10) Storm分組策略(stream groupings) 11) 使用Strom開發(fā)一個WordCount例子 12) Storm程序本地模式debug、Storm程序遠程debug 13) Storm事物處理 14) Storm消息可靠性及容錯原理 15) Storm結合消息隊列Kafka:消息隊列基本概念(Producer、Consumer、Topic、Broker等)、消息隊列Kafka使用場景、Storm結合Kafka編程API 16) Storm Trident概念 17) Trident state 原理 18) Trident開發(fā)實例 19) Storm DRPC(分布式遠程調(diào)用)介紹 20) Storm DRPC實戰(zhàn)講解 21) Storm和Hadoop 2.x的整合:Storm on Yarn Storm開發(fā)實戰(zhàn): Kafka Storm Hbase redis項目實戰(zhàn),以及多個案例 |
本部分學習過后,大家將全面掌握Storm內(nèi)部機制和原理,經(jīng)過大量項目實戰(zhàn),讓大家擁有完整項目開發(fā)思路和架構設計,掌握從數(shù)據(jù)采集到實時計算到數(shù)據(jù)存儲再到前臺展示,所有工作一個人搞定!譬如可以一個人搞定淘寶雙11大屏幕項目!不光從項目的開發(fā)的層次去實現(xiàn),并可以從架構的層次站在架構師的角度去完成一個項目。 |
十、Strom項目實戰(zhàn) |
項目技術架構體系:Storm hbase kafka flume echartsa) flume實時采集日志 b) kafka緩沖隊列 c) storm實時處理 d) Hbase dao存儲處理結果 e) 前端Web實時展示報表 |
中國移動基站**平臺一個市級移動公司,每天的產(chǎn)生海量話務數(shù)據(jù)(一線城市更高),經(jīng)過大數(shù)實時分析,監(jiān)控每個基站的掉話率,基站通話總數(shù),基站掉話總數(shù),基站告警,3g/4g上網(wǎng)流量實時監(jiān)控。對以上維度進行實時分析以達到對基站工作情況的監(jiān)控。 |
機器學習&&深度學習 | ||
課程名稱 | 重點內(nèi)容 | 目標 |
一、R語言&&機器學習 |
1) R語言介紹,基本函數(shù),數(shù)據(jù)類型2) 線性回歸3) 樸素貝葉斯聚類4) 決策樹分類5) k均值聚類a) 離群點檢測 6) 關聯(lián)規(guī)則探索7) 神經(jīng)網(wǎng)絡 |
R本身是一款十分優(yōu)秀的數(shù)據(jù)分析和數(shù)據(jù)可視化軟件,同時作為第1代機器學習的工具,其中包括大量用于機器學習的添加包。此部分帶領大家學習R語言更是帶領大家進入機器學習的領域,機器學習算法為主線的同時,經(jīng)過案例學習將會讓大家對內(nèi)容脈絡掌握的更加清晰。 |
二、Mahout機器學習 |
1) 介紹為什么使用它,它的前景a) 簡單介紹Mahout b) 簡單介紹機器學習 c) 實例演示Mahout單機推薦程序 2) 配置安裝(hadoop2.x版本的)編譯安裝步驟說明a) 命令行中測試運行協(xié)同過濾概念 3) 推薦a) 講解基于用戶的協(xié)同過濾 b) 講解基于物品的協(xié)同過濾 4) 分類a) 分類概念 b) 分類的應用及Mahout分類優(yōu)勢 c) 分類和聚類、推薦的區(qū)別 d) 分類工作原理 e) 分類中概念術語 f) 分類項目工作流 g) 如何定義預測變量 h) 線性分類器的介紹,及貝葉斯分類器 i) 決策樹分類器的介紹,及隨機森林分類器 j) 如何使用貝葉斯分類器和隨機森林分類器的代碼展示 5) 聚類a) 聚類概念 b) 聚類步驟流程 c) 聚類中的距離測度 d) 講解K-means聚類 e) K-means聚類算法展示 f) 聚類其他算法 g) 介紹TF-IDF h) 歸一化 i) 微博聚類案例 |
Mahout提供一些可擴展的機器學習領域經(jīng)典算法的實現(xiàn),很多公司會使用Mahout方便快捷地創(chuàng)建智能應用程序。Mahout包含許多實現(xiàn),包括聚類、分類、推薦過濾、頻繁子項挖掘。Mahout經(jīng)過使用 Apache Hadoop,可以有效地擴展到云中。被業(yè)界奉為第二代機器學習工具。此部分過后大家不僅會學習到mahout的組件而且會有項目讓大家真正把它應用到工作中。 |
三、項目實戰(zhàn) |
項目技術架構體系:a) 分布式平臺 Hadoop,MapReduce b) 數(shù)據(jù)采集 Flume c) 數(shù)據(jù)清洗 ETL d) 數(shù)據(jù)庫 Hbase,Redis e) 機器學習 Mahout |
微博營銷數(shù)據(jù)挖掘項目使用數(shù)據(jù)來自微博平臺,項目目標經(jīng)過機器學習所學知識挖掘目標客戶群體,找到代言人進行微博營銷廣告投放。 |
填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!
?2007-2022/ 5wd995.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc