![大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)教程目錄_第1頁](http://file4.renrendoc.com/view/fc31a8629996ba8666dbf8ff16390543/fc31a8629996ba8666dbf8ff163905431.gif)
![大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)教程目錄_第2頁](http://file4.renrendoc.com/view/fc31a8629996ba8666dbf8ff16390543/fc31a8629996ba8666dbf8ff163905432.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)開發(fā)實(shí)戰(zhàn)教程錄數(shù)據(jù)開發(fā)實(shí)戰(zhàn)教程錄、 課程性質(zhì)、的和任務(wù)1. 本課程的是讓學(xué)了解并掌握四個領(lǐng)域(1)數(shù)據(jù)系統(tǒng)的起源及系統(tǒng)特征(2)數(shù)據(jù)系統(tǒng)的架構(gòu)設(shè)計及功能標(biāo)設(shè)計(3)數(shù)據(jù)系統(tǒng)程序開發(fā)、企業(yè)數(shù)據(jù)案例分析的內(nèi)容2. 利真機(jī)實(shí)驗(yàn)環(huán)節(jié)以及數(shù)據(jù)實(shí)訓(xùn)體機(jī)來提升學(xué)對數(shù)據(jù)開發(fā)的實(shí)踐能;3. 本課程重點(diǎn)讓學(xué)掌握五個的內(nèi)容:(1)HDFS 使操作;(2)MapReduce 開發(fā);(3)HBase 數(shù)據(jù)庫的開發(fā);(4)Hive 數(shù)據(jù)倉庫開發(fā);(5)數(shù)據(jù)案例分析;、 教學(xué)內(nèi)容及要求第節(jié) 數(shù)據(jù)概述授課學(xué)時:1基本要求:1. 了解數(shù)據(jù)概念、特征、數(shù)據(jù)計量單位以及數(shù)據(jù)的類型;2. 了解數(shù)據(jù)系統(tǒng)的設(shè)計背景、以及當(dāng)前數(shù)據(jù)系統(tǒng)
2、存在的不;3. 了解數(shù)據(jù)系統(tǒng)的設(shè)計思想、設(shè)計標(biāo)和設(shè)計原則;4. 了解數(shù)據(jù)系統(tǒng)的整體邏輯架構(gòu)設(shè)計及運(yùn)邏輯,了解當(dāng)前數(shù)據(jù)系統(tǒng)的主流架構(gòu);第節(jié) 數(shù)據(jù)應(yīng)開發(fā)思路和開發(fā)環(huán)境配置授課學(xué)時:1基本要求:5. 掌握數(shù)據(jù)系統(tǒng)應(yīng)讀寫操作的開發(fā)流程;6. 掌握分析數(shù)據(jù)開發(fā)技術(shù)及思路;7. 掌握數(shù)據(jù) Java 開發(fā)的環(huán)境配置、Plugin 插件的安裝,Hadoop 環(huán)境配置;第三節(jié) HDFS 分布式件系統(tǒng)授課學(xué)時:4基本要求:1. 了解 MapReduce 的設(shè)計思想、基本概念;2. 了解 MapReduce 的系統(tǒng)架構(gòu)、作業(yè)運(yùn)機(jī)制和關(guān)鍵技術(shù);3. 掌握 MapReduce 的數(shù)據(jù)類型的定義以及數(shù)據(jù)類型的使;4. 掌
3、握 MapReduce 開發(fā),定制輸輸出的數(shù)據(jù)格式;5. 掌握將 HDFS 件系統(tǒng)中整個件作為輸數(shù)據(jù)的開發(fā);6. 掌握利 MapReduce 完成件聚合成個件的開發(fā);7. 掌握壓縮數(shù)據(jù)處理程序開發(fā);8. 掌握任務(wù)組合過程,掌握迭代組合、并組合及串組合;9. 掌握任務(wù)的前后鏈?zhǔn)浇M合;10. 掌握多數(shù)據(jù)源連接的開發(fā),包含 Map 端開發(fā)以及 Reduce 端開發(fā);11. 掌握 Hadoop 全局參數(shù)的使,全局件的使;12. 掌握與關(guān)系型數(shù)據(jù)庫的訪問連接;13. 真機(jī)實(shí)操訓(xùn)練(實(shí)驗(yàn)環(huán)節(jié) 2);第五節(jié) HBase 分布式數(shù)據(jù)庫授課學(xué)時:4基本要求:1. 了解 HBase 分布式數(shù)據(jù)庫的設(shè)計標(biāo)、基本概念
4、;2. 了解 HBase 邏輯架構(gòu)以及物理架構(gòu);3. 掌握 HBase 分布式數(shù)據(jù)庫Shell命令操作;4. 掌握HBase 數(shù)據(jù)庫系統(tǒng)的 Java 開發(fā),包含創(chuàng)建表、刪除表,查詢所有表操作;5. 掌握HBase 數(shù)據(jù)庫系統(tǒng)的 Java 開發(fā),包含插記錄、查詢數(shù)據(jù),組合查詢、修改刪除記錄等開發(fā);6. 真機(jī)實(shí)操訓(xùn)練(實(shí)驗(yàn)環(huán)節(jié) 3);第六節(jié) Hive 數(shù)據(jù)倉庫開發(fā)授課學(xué)時:6基本要求:1. 了解Hive 數(shù)據(jù)倉庫的作原理及特點(diǎn);2. 了解Hive 架構(gòu)設(shè)計,包含數(shù)據(jù)類型、數(shù)據(jù)存儲式以及查詢式;3. 掌握Hive 數(shù)據(jù)倉庫系統(tǒng)的 HQL 語語法;4. 掌握 HQL 的創(chuàng)建表、查看表及查詢有結(jié)構(gòu),修改
5、表以及刪除表;5. 掌握利 HQL 語句將 HDFS 的件導(dǎo)數(shù)據(jù)倉庫;6. 掌握分區(qū)表、桶表、外部表的使;7. 掌握 HQL 語句的聯(lián)合查詢、查詢、創(chuàng)建視圖等操作;8. 掌握利 Java 開發(fā) UDF 定義函數(shù),以及定義函數(shù)的使;9. 掌握 Java 連接 Hive 數(shù)據(jù)倉庫進(jìn)數(shù)據(jù)查詢;10. 真機(jī)實(shí)操訓(xùn)練(實(shí)驗(yàn)環(huán)節(jié) 4);第七節(jié) Spark 數(shù)據(jù)挖掘授課學(xué)時:4基本要求:1. 了解數(shù)據(jù)挖掘的基本概念和段,介紹數(shù)據(jù)挖掘的常算法、編程語等;2. 了解常的數(shù)據(jù)挖掘具;3. 了解最新數(shù)據(jù)處理技術(shù) Spark 平臺,包括 RDD 基礎(chǔ)及編程接介紹,以及 SparkSQL 邏輯架構(gòu), 流式處理技術(shù) Sp
6、arkStream等;4. 了解介紹 Spark 平臺下機(jī)器學(xué)習(xí)(Machine Learning)架構(gòu)解析,以及 Spark MLlib 經(jīng)典算法解析和案例;5. 案例詳解,解析通過 Spark MLlib 的協(xié)同過濾算法,來分析某型電商的商品推薦過程,并說明實(shí)現(xiàn)法和代碼;第節(jié) 綜合案例分析1、 某站訪問志分析授課學(xué)時:2基本要求:1. 了解站訪問志的數(shù)據(jù)結(jié)構(gòu);2. 了解站訪問志的分析法以及本次分析志需要完成的錄;3. 了解分析過程以及分析具的使;4. 數(shù)據(jù)環(huán)境實(shí)驗(yàn)(實(shí)驗(yàn)環(huán)節(jié) 5);2、某搜索引擎站志分析授課學(xué)時:2基本要求:1. 了解搜狐站對關(guān)鍵詞搜索記錄的數(shù)據(jù)結(jié)構(gòu);2. 了解關(guān)鍵詞搜索的
7、分析標(biāo)及預(yù)期完成分析結(jié)果;3. 了解分析流程、分析具以及重點(diǎn)代碼的介紹;4. 數(shù)據(jù)環(huán)境實(shí)驗(yàn)(實(shí)驗(yàn)環(huán)節(jié) 6);3、某型電商數(shù)據(jù)分析授課學(xué)時:2基本要求:1. 了解本案例中電商數(shù)據(jù)的字段結(jié)構(gòu);2. 了解本次電商數(shù)據(jù)預(yù)期完成分析的指標(biāo)以及分析結(jié)果的再利介紹;3. 了解分析流程、分析具以及重點(diǎn)代碼的介紹;4. 數(shù)據(jù)環(huán)境實(shí)驗(yàn)(實(shí)驗(yàn)環(huán)節(jié) 7);實(shí)驗(yàn)環(huán)節(jié)介紹實(shí)驗(yàn)環(huán)節(jié) 1:HDFS 操作命令操作實(shí)驗(yàn)標(biāo)及要求:讓學(xué)掌握分布式件系統(tǒng) HDFS 的件操作,包含導(dǎo)導(dǎo)出件、列表、查找、刪除件等。實(shí)驗(yàn)環(huán)節(jié) 2:MapReduce 開發(fā)(單詞計數(shù))實(shí)驗(yàn)標(biāo)及要求:讓學(xué)掌握在 HDFS 件系統(tǒng)內(nèi)的 Map 及 Reduce 的
8、 Java 開發(fā),實(shí)現(xiàn)對指定本件的單詞計數(shù),將統(tǒng)計結(jié)果輸出控制臺。實(shí)驗(yàn)環(huán)節(jié) 3:HBase 數(shù)據(jù)庫命令操作實(shí)驗(yàn)標(biāo)及要求:讓學(xué)掌握分布式件數(shù)據(jù)庫系統(tǒng) HBase 的數(shù)據(jù)庫操作,包含創(chuàng)建表、刪除表、增加列、導(dǎo)記錄、刪除記錄等。實(shí)驗(yàn)環(huán)節(jié) 4:Hive 數(shù)據(jù)倉庫基礎(chǔ)使實(shí)驗(yàn)標(biāo)及要求:讓學(xué)掌握在 Hive 數(shù)據(jù)倉庫的基本命令的操作,包含創(chuàng)建數(shù)據(jù)倉庫、創(chuàng)建表、刪除表、導(dǎo)及導(dǎo)出數(shù)據(jù),統(tǒng)計查詢等在 CLI模式下的使操作。實(shí)驗(yàn)環(huán)節(jié) 5:分析站訪問志實(shí)驗(yàn)標(biāo)及要求:實(shí)踐在企業(yè)應(yīng)中的互聯(lián)站訪問志的分析案例,利 Hive 具完成對每時內(nèi)的訪問 PV 及 IP 數(shù)據(jù),同時將統(tǒng)計結(jié)果輸出頁。實(shí)驗(yàn)環(huán)節(jié) 6:分析搜索引擎站志數(shù)據(jù)
9、實(shí)驗(yàn)標(biāo)及要求:分析關(guān)鍵字的統(tǒng)計志的數(shù)據(jù),利 Hive 具完成對關(guān)鍵詞的統(tǒng)計,包含搜索關(guān)鍵詞排、戶習(xí)慣點(diǎn)擊第個連接、訪問標(biāo)站排等,同時將統(tǒng)計結(jié)果輸出頁。實(shí)驗(yàn)環(huán)節(jié) 7:分析電商站數(shù)據(jù)實(shí)驗(yàn)標(biāo)及要求:對此型電商數(shù)據(jù)進(jìn)實(shí)踐分析,利 Hive 具完成對商品銷售統(tǒng)計,同類商品推薦等分析指標(biāo),將分析結(jié)果導(dǎo)出關(guān)系型數(shù)據(jù)庫Mysql。附錄 2:教材錄第章 數(shù)據(jù)概述 71.1. 數(shù)據(jù)的起源 71.1.1. 豌雜交實(shí)驗(yàn) 71.1.2. 曹沖稱象啟 71.1.3. 歌的三項核元素 91.2. 數(shù)據(jù)的概念 91.2.1. 數(shù)據(jù)概念 101.2.2. 數(shù)據(jù)的特征 101.2.3. 數(shù)據(jù)計量單位 111.2.4. 數(shù)據(jù)來源
10、111.2.5. 數(shù)據(jù)類型 121.3. 數(shù)據(jù)系統(tǒng) 121.3.1. 系統(tǒng)設(shè)計背景 121.3.2. 設(shè)計標(biāo)和原則 131.3.3. 系統(tǒng)的設(shè)計思想 141.3.4. 系統(tǒng)的邏輯架構(gòu) 161.3.5. 與現(xiàn)有系統(tǒng)的關(guān)系 171.3.6. 當(dāng)前的數(shù)據(jù)系統(tǒng) 191.4. 企業(yè)的數(shù)據(jù)觀 251.4.1. 企業(yè)臨的挑戰(zhàn) 251.4.2. 企業(yè)數(shù)據(jù)從哪來 251.4.3. 企業(yè)數(shù)據(jù)如何存儲 271.4.4. 企業(yè)數(shù)據(jù)如何加 311.4.5. 企業(yè)的數(shù)據(jù)到哪去 351.4.6. 企業(yè)數(shù)據(jù)觀總結(jié) 37第章 數(shù)據(jù)系統(tǒng)應(yīng)開發(fā)思路及環(huán)境 382.1. 總體思路 382.1.1. 數(shù)據(jù)讀寫應(yīng)的開發(fā) 382.1.2.
11、 數(shù)據(jù)分析應(yīng)的開發(fā) 382.2. 開發(fā)環(huán)境 392.2.1. Plugin 插件的安裝 392.2.2. Hadoop 開發(fā)環(huán)境的配置 392.2.3. 例程序驗(yàn)證 41第三章 HDFS 分布式件系統(tǒng) 483.1. 設(shè)計標(biāo) 483.2. 基本概念 493.2.1. 塊 493.2.2. 名稱節(jié)點(diǎn)與數(shù)據(jù)節(jié)點(diǎn) 493.3. 系統(tǒng)架構(gòu) 503.3.1. 邏輯架構(gòu) 503.3.2. 物理架構(gòu) 513.4. 運(yùn)機(jī)制 513.4.1. 件讀取 523.4.2. 件寫 533.4.3. 特別關(guān)注 543.5. 系統(tǒng)功能 573.5.1. 多件系統(tǒng) 573.5.2. 錄管理 583.5.3. 件管理 593.
12、5.4. 件歸檔 593.5.5. 并復(fù)制 603.6. 系統(tǒng) I/O 特性 613.6.1. 完整性校驗(yàn) 613.6.2. 壓縮與編碼解碼 623.6.3. 序列化 643.6.4. 特殊件結(jié)構(gòu) 653.7. Java 訪問接 663.8. 系統(tǒng)性能 673.8.1. 可靠性措施 673.8.2. 性能優(yōu)化 683.9. 程序開發(fā) 693.9.1. 件列表 693.9.2. 件讀取 713.9.3. 件上傳 723.9.4. 件創(chuàng)建 743.9.5. 件寫 753.9.6. 件壓縮與解壓 763.9.7. 壓縮寫 773.9.8. 解壓讀取 783.9.9. 錄創(chuàng)建 803.9.10. 件重
13、命名 813.9.11. 刪除件 833.9.12. 查看件時間 843.9.13. 查看件是否存在 863.9.14. 查找件位置 873.9.15. 查找集群所有的節(jié)點(diǎn) 893.9.16. SequenceFile 件格式轉(zhuǎn)換 903.9.17. 讀取 SequenceFile 格式的件 923.9.18. MapFile 件格式轉(zhuǎn)換 953.9.19. 讀取 MapFile 格式的件 97第四章 MapReduce 分布式編程 994.1. 不同于傳統(tǒng) 994.2. 設(shè)計思想 1004.3. 基本概念 1004.3.1. map()函數(shù) 1014.3.2. reduce()函數(shù) 1014
14、.3.3. 鍵值對 1024.3.4. 中間結(jié)果 1024.3.5. 移動代碼 1034.3.6. 作業(yè)和任務(wù)節(jié)點(diǎn) 1044.4. 系統(tǒng)架構(gòu) 1044.4.1. 邏輯架構(gòu) 1044.4.2. 物理架構(gòu) 1064.5. 運(yùn)機(jī)制 1064.5.1. 作業(yè)運(yùn) 1064.5.2. 作業(yè)調(diào)度 1094.5.3. 任務(wù)執(zhí) 1094.5.4. 狀態(tài)更新 1104.5.5. 作業(yè)完成 1114.5.6. 故障處理 1114.6. 關(guān)鍵技術(shù) 1124.6.1. 計數(shù)器 1124.6.2. 排序 1134.6.3. 連接 1134.6.4. shuffle 1144.6.5. 內(nèi)存處理 1154.6.6. 分布式
15、緩存 1164.7. 類型與格式 1174.7.1. MR 的類型 1174.7.2. 輸格式 1194.7.3. 輸出格式 1214.8. MapReduce 程序開發(fā) 1224.8.1. 定制數(shù)據(jù)類型 1224.8.2. 定制輸格式 1264.8.3. 定制輸出格式 1314.8.4. 將整個件作為輸 1374.8.5. 件聚合成個件 1434.8.6. 多集合件輸出 1454.8.7. 對壓縮數(shù)據(jù)處理 1484.8.8. 定制 partitioner 1514.8.9. 定制 combiner 1554.8.10. MapReduce 組合 1594.8.11. 多數(shù)據(jù)源連接 1754.
16、8.12. 全局參數(shù)應(yīng) 1894.8.13. 全局件應(yīng) 1924.8.14. 關(guān)系數(shù)據(jù)庫訪問 195第五章 HBase 分布式數(shù)據(jù)庫 2045.1. 設(shè)計標(biāo) 2045.2. 基本概念 2055.2.1. 邏輯模型 2055.2.2. 物理模型 2065.2.3. 區(qū)域 2075.2.4. 基本單元 2075.2.5. Region 服務(wù)器 2085.2.6. Master 主服務(wù)器 2095.2.7. 元數(shù)據(jù)表.META 2105.2.8. 元數(shù)據(jù)表ROOT 2115.3. 系統(tǒng)架構(gòu) 2125.3.1. 邏輯架構(gòu) 2125.3.2. 物理架構(gòu) 2135.4. 運(yùn)機(jī)制 2145.5. 系統(tǒng)功能
17、2155.5.1. 戶界 2155.5.2. Shell 操作 2185.6. 庫表設(shè)計 2205.7. 訪問接 2215.8. 程序開發(fā) 2225.8.1. 創(chuàng)建表 2225.8.2. 刪除表 2255.8.3. 查詢表 2265.8.4. 插記錄 2285.8.5. 查詢記錄 2295.8.6. 修改記錄 2405.8.7. 刪除記錄 242第六章 Hive 數(shù)據(jù)倉庫開發(fā) 2446.1. Hive 介紹 2446.1.1. Hive 作原理 2446.1.2. Hive 數(shù)據(jù)類型 2456.1.3. Hive 的特點(diǎn) 2466.2. Hive 架構(gòu) 2486.2.1 Hive 戶接 248
18、6.2.2 Hive 元數(shù)據(jù)庫 2506.2.3 Hive 的數(shù)據(jù)存儲 2516.2.4 Hive 解析器 2526.3. Hive 件格式 2536.3.1 TextFile 格式 2546.3.2 SequenceFile 格式 2546.3.3 RCFile 件格式 2546.4. HiveQL 語 2576.5. HiveQL 表操作 2576.5.1. 內(nèi)部表 2576.5.2. 外部表 2646.5.3. 分區(qū)表 2656.5.4. 桶表 2696.5.5. 視圖 2716.6. HiveQL 查詢 2726.6.1. 連接 2726.6.2. 查詢 2756.7. UDF 編碼 2766.7.1. 加 jar 包 2776.7.2. 命名函數(shù) 2776.7.3. 調(diào)測試函數(shù) 2776.7.4. 移除 jar 包 2786.8. UDAF 編碼 2786.8.1. 在 Hive 中加 jar 包。 2796.8.2. 命名成個函數(shù)。 2806.8.3. 調(diào)測試函數(shù) 2806.8.4. 在 Hive 中移除 jar 包 2806.9. 客服端編碼 2806.9.1. 與 hive 服務(wù)器端連接建 2816.9.2. 與 hive 進(jìn)指令交互 2826.9.3. 客戶端命令組織
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- PB-22-6-Hydroxyisoquinoline-isomer-生命科學(xué)試劑-MCE-4732
- KOTX1-生命科學(xué)試劑-MCE-8752
- Dipalmitelaidin-生命科學(xué)試劑-MCE-4147
- Asante-potassium-green-1-TMA-APG-1-TMA-生命科學(xué)試劑-MCE-1099
- 8-S-Hydroxy-9-S-hexahydrocannabinol-生命科學(xué)試劑-MCE-2932
- 1cP-MiPLA-生命科學(xué)試劑-MCE-6571
- 二零二五年度股權(quán)與合伙人協(xié)議書整合執(zhí)行細(xì)則
- 二零二五年度2025年度新材料研發(fā)與應(yīng)用連帶保證借款合同
- 2025年度耕地復(fù)墾與農(nóng)業(yè)生態(tài)環(huán)境保護(hù)合同
- 二零二五年度解除影視制作合作解除協(xié)議
- 小學(xué)六年級數(shù)學(xué)上冊《簡便計算》練習(xí)題(310題-附答案)
- 地理標(biāo)志培訓(xùn)課件
- 2023行政主管年終工作報告五篇
- 高教版2023年中職教科書《語文》(基礎(chǔ)模塊)下冊教案全冊
- 人教版英語七年級上冊閱讀理解專項訓(xùn)練16篇(含答案)
- 比較思想政治教育學(xué)
- 醫(yī)用內(nèi)窺鏡冷光源產(chǎn)品技術(shù)要求深圳邁瑞
- 砌墻磚和砌塊檢測作業(yè)指導(dǎo)書
- 護(hù)理教學(xué)查房評分標(biāo)準(zhǔn)
- GB/T 23505-2017石油天然氣工業(yè)鉆機(jī)和修井機(jī)
- 人工智能發(fā)展史課件
評論
0/150
提交評論