大数据真实案列分析《HadoopSpark企业应用实战》11月份班

资源名称：大数据真实案列分析《HadoopSpark企业应用实战》11月份班
教程内容：授课对象商业智能（BI）和企业数据仓库（EDW）的管理人员、建模人员、分析和开发人员、系统管理员等；有意将Hadoop生态系统中的组件，作为现有EDW的补充，或未来替代产品的项目负责人及开发人员；企业中牵涉到大数据处理的数据中心运行、规划、设计负责人；Hadoop企业级应用、整合项目的成员、负责人、开发人员熟悉Hadoop生态系统，想了解和学习Hadoop与Spark整合在企业应用实战案例的朋友。
课程大纲本课程会介绍 Hadoop / Spark 各组件的架构，但不会涉及任何安装的内容，安装的教程、录像视频什么的网上到处都是，讲安装太浪费时间~ Hadoop/Spark环境的安装请大家自行解决，建议用Cloudera CDH或者Hortonworks HDP 本课程目标是：给大家分享一些在网上不能随便就搜到的内容和窍门，展示企业线上生产系统中应用 Hadoop、Spark 的成功案例，以及与现有企业BI平台整合的方案第一周：企业级Hadoop/Spark应用概述，Hadoop/Spark生态系统与现有企业级应用的整合企业级集群部署、数据管理、任务调度、集群监控Hadoop架构介绍、Spark / Shark 介绍Spark与Hadoop的关系现有Hadoop架构的种种问题和限制企业数据仓库的选型，Hadoop世界与EDW世界中的TPC（TPC DS与TPC H）Hadoop世界中的DBA成本考量 —— 人？物？物是人非……
第二周：Hadoop Eco System 进阶应用基础知识HDFS / MapReduce / Yarn / Hive / Impala / Oozie 进阶应用、资源分配及调优玩转Hive ETL高级应用：权限管理、external table、partition、中文支持、HiveServer2 JDBC接口Hive的Windowing and Analytics FunctionsHive 0.13的新功能Impala与Hive对比，各种Hints：Hive的Map Join，Impala的SHUFFLE Join（partitioned join）
第三周：进阶应用实例 — 物流/广告/电商/零售/互联网行业Hadoop大数据应用企业级应用实例1：物流行业 — 订单跟踪—〉 Hive通过external table、partition、动态partition与NFS结合使用创建数据表，避免LOAD DATA—〉 Hive和Impala的Join优化Hints，MapJoin、Shuffle Join 实例企业级应用实例2：广告行业 — 基于用户行为分析的用户归类标签 (客户画像)—〉 Hive复合数据类型array—〉 array与collect_set、collect_list、array_contains、sort_array—〉 impala的group_concat—〉 array与lateral view、LATERAL VIEW OUTER企业级应用实例3：电商/零售行业 — 简单的推荐系统 Recommender System 实现 (基于用户标签/客户画像)—〉 Hive复合数据类型map、str_to_map、map_keys、map_values，map与lateral view—〉通过Hive、Impala转换函数进行数据保护，确保企业应用信息安全（通过translate进行简单数据脱敏Data Masking—〉 HiveServer2 JDBC接口实例应用、中文支持Bug纠错—〉 Hive的窗口和分析函数入门（row_number、rank、dense_rank等）企业级应用实例4：互联网行业 — 访问量业绩报表—〉 Hive的窗口和分析函数进阶（NTILE、CUME_DIST、PERCENT_RANK、LEAD、LAG、FIRST_VALUE、LAST_VALUE等）—〉 ROWS BETWEEN ... AND ... （CURRENT ROW，rows PRECEDING，rows FOLLOWING）本周总结 —— 物流/广告/电商/零售/互联网行业Hadoop企业级大数据应用方案经验教训总结
第四周：Hadoop & Spark / Shark 进阶应用基础知识HBase / ZooKeeper / Sqoop / Graphite / Ganglia 进阶应用及调优，Spark / Spark SQL / Shark 简介HBase Shell 与 HBase REST API 应用HBase的Region进阶应用Compact、Split与MergeHBase进阶脚本应用：jruby ｓｃｒｉｐｔHBase与Hive的整合高级应用：binary(byte) value，lateral view explodeHive 0.13：posexplode+Spark / Spark SQL / Shark 架构介绍、Spark Scala / Python 开发介绍
第五周：进阶应用实例 — Hadoop/Spark平台企业级开发框架Hadoop生态系统中为企业级开发提供的测试框架应用实例Spark实现“物流行业 — 订单跟踪 SLA”的实例，Scala语言及Python语言实现，Spark SQL + Parquet文件实现，Spark Scala Maven项目实例HBase开发实例：REST API使用、JRuby脚本编写、Region进阶应用与Continuous Integration系统整合的可能—— 软件/互联网行业Hadoop企业级开发框架
第六周：Hadoop & Spark / Shark 企业级应用整合HBase与Hive整合的大坑HBase Python 客户端 happybase 使用介绍、编程实例HBase Coprocessor与HBase + Hive 特征特点比较、分别适用的场景企业中应用 HBase，Hive，Impala，Spark / Shark 的注意事项，资源分配方案Hadoop与现有企业级BI平台的整合Pentaho PDI / KettleOracle or In-Memory DatabaseMicroStrategy / Tableau
第七周：进阶应用实例 — Hadoop / Spark 企业级大数据BI应用整合互联网行业时间序列(time series data)数据处理实例 —— 整合 HBase 与 Hive：增量数据与全量数据，冷数据与热数据分治互联网行业时间序列(time series data)数据处理实例 —— 整合 Spark 与 HBaseSpark 访问 HBase 数据实例：通过 Spark 对 HBase 表进行 scan，Scala语言处理 HBase 返回值 Result 类中 KeyValue 对象的 ByteBuffer / ByteArray通过 Kettle / Spoon 工具整合Hadoop与现有RDBMS的企业级BI解决方案其它整合Hadoop与RDBMS构建企业级BI应用平台的可能（如使用PostgreSQL FDW，使用Presto的JDBC connector等）—— 互联网行业Hadoop企业级大数据BI应用整合方案
第八周：总结与展望企业级大数据应用总结构建企业大数据团队探讨Hadoop方面工作面试秘籍：应用开发方向、数据分析方向、技术架构方向、团队带头人现有几大Hadoop平台比较：Cloudera CDH，Hortonworks HDP，MapRHadoop大数据还能干什么？通过Spark整合Streaming与Batch processing？金融 / 工业 / 能源 / 智慧城市 / 医疗行业 / Smart Data德国汽车、新能源行业的大数据创新项目分享德国医疗行业大数据应用现状Hadoop大数据企业应用面临的问题)