欢迎您来到尚观教育——13年运营 精准教学 口碑见证 全国咨询热线:400-700-0056

UPlooking kechengdagang

当前位置

尚观大数据开发架构师课程 V2.0

一线大数据架构师联合研发,基于hadoop、spark技术的大数据开发课程,采用BAT一线互联网公司最流行的技术框架,全程项目实战教学,真正贴合企业用人需求

课程定位

本套课程以时下最流行的实战项目驱动教学,全面涵盖Hadoop、Spark、Scala、机器学习、图计算等前沿大数据技术。课程主要针对有一定编程基础的学员,零基础的学员可以先参加免费预科班,学完全套可达到大数据开发架构师水平。能胜任的职位包括大数据开发工程师、大数据挖掘工程师、大数据架构师等,主要面向大型电商、游戏、金融、保险、教育行业,及国家企事业单位。根据职友集统计,2017年北京市大数据开发工程师月均薪31K。

什么人可以学

1. 从事非 IT 类工作者; 特点:不满意目前的待遇、职业前景,想转行从事 IT 行业.

2. 应届及往届大学生; 特点:对未来发展比较迷茫,对自身定位缺乏有效指导,渴望自身突破;

3. 从事 IT 基础开发工作者; 特点:技术含量低,做的事情杂,未来提升空间小,期待改变现状,提升待遇空间;

课程模块概览

JavaSE阶段
Java基础 面向对象 常用类 集合框架 多线程 IO输入输出流 网络编辑

Java反射 正则表达式 Mysql安装与使用
工具项
Maven项目管理 SVN项目版本控制 Linux系统环境实战
Hadoop
生态阶段
Hadoop Hive Hbase Kafka Redis Storm 互联网爬虫项目

ElasticSearch CDH/HDP Impala HUE和Oozie
Spark
生态阶段
Scala SparkCore原理 SparkCore优化 SparkSQL MySQL 集群 Sparksteaming

离线数据平台项目 Zeppelin Sparkmlib 实时DDos检测和防御项目
项目实战阶段
尚观官网用户画像项目 基于Spark实时网络流量异常检测 JVM加强项目实战

基于Spark实时动态过滤ETL项目 Spark策略和代码编译引擎等通用平台项目

数据仓储全面学习及项目实战 数据服务平台+数据集市设计项目
大数据高级知识
拓展阶段
分布内存数据计算和事务平台ignite 高效分布式通用大数据分析引擎Flink

ApacheBeam和Apache Metrom优化

课程大纲详情

尚观大数据开发架构师课程
大数据之JavaSE阶段
阶段 知识点基础 详细内容
JAVASE阶段 Java基础 1. 基本常识 Java环境搭建 HelloWorld classpath设置
2. 标识符 常量 数据进制 变量 数据类型 运算符(算数 逻辑 位)
3. 选择语句(if else switch) 循环控制语句(while do..while for) break continue return
4. 函数 函数重载 数组
面向对象 1. 面向对象思想 类和对象 成员变量和局部变量 封装 构造函数置
2. 静态 单例设计模式 继承 继承的特性 方法覆置
盖 3. 抽象类 接口 多态置
4. 内部类 Object类认识 异常处理 自定义异常置
5. 包 导入 IDEA 工具学习 Math工具类
常用类 String StringBuilder/Buffer 包装类
集合框架 1. 集合框架概述 List ArrayList 迭代器Iterator LinkedList实战
2. Set HashSet 二叉树 TreeSet Comparable Comparator 泛型
3. Map HashMap TreeMap 集合工具类 高级for循环 可变参数 System Date
多线程 1. 线程和进程 Thread Runnable 多线程同步 同步锁机制 单例设计模式
2. 线程间通信 线程通信唤醒机制 生产者消费者模型 守护线程
IO输入输出流 1. 字符输出流 字符输入流 字符输入缓冲流 装饰设计模式
2. 字节输出流 字节输入流 转换流
3. File文件 Properties PrintWriter 对象序列化
网络编程 网络概述 TCP/IP UDP编程模型
Java反射&正则表达式 Java反射机制 正则表达式实战
MySQL安装与使用 1. SQL简介 MySQL安装配置 DDL DML DQL 数据完整性 多表设计 多表查询
2. 分组查询 数据库的备份和恢复 JDBC SQL注入
3. SQL分页 存储过程 触发器 事务 批处理
4. 数据库连接池 DBUtils
大数据之工具阶段
阶段 知识点基础 详细内容
工具篇 Maven项目管理 1. 项目构建、依赖管理、项目信息管理概念
2. Maven的安装&配置、Maven和Eclipse&IDEA整合
3. Maven核心概念:项目对象模型、项目依赖模型、pom坐标、仓库管理、生命周期、继承和聚合
4. Maven私服搭建和使用(高级)
SVN项目版本控制 1. 项目版本控制概念介绍
2. SVN安装&客户端TortoiseSVN操作
3. SVN目录约定之:trunk、branches、tags
4. SVN和Eclipse、IDEA整合
5. 搭建SVN Apache的服务
Linux实战篇 Linux安装配置:
1. Linux系统概述 Linux常见版本及VMware
2. 基于CentOS6.5的虚拟机安装方式
3.虚拟机网络配置(IP地址、主机名、防火墙、NAT\Bridged\HostOnly)
系统管理和目录管理:
1.Linux文件系统架构
2.Shell基本命令、使用命令行补全和通配符
3.移动复制、删除、查找操作
4.文件和目录权限 文件类型和重定向
5.cat、sort、grep、sed、awk等高级命令
用户与用户组管理:
1. 软件包管理
2. 磁盘基本管理命令(df、du、fdisk、mount)
3. 用户与用户组
4. 管理、查看、切换用户
5. 内存监控命令(top free等)操作
6. 软件安装方式(rpm、tar、yum)
7. 进程管理
大数据阶段大纲
阶段 知识点基础 详细内容
Hadoop生态阶段 Hadoop 1. 大数据生态介绍&Hadoop单机环境搭建
2. HDFS原理学习&HDFS SHELL基本操作
3. Zookeeper学习&Hadoop分布式环境搭建
4. Yarn&MapReduce Shuffle执行过程 自定义分区Partition Combiner
5. MapReduce hadoop的序列化 Writable 二次排序 TopN多表连接
Hive 1. Hive概述&Hive操作&Hive表的分类
2. Hive数据仓库实战&Hive 函数 UDF UDTF实战
Hbase 1. HBase概述&HBase分布式环境搭建&HBase逻辑模 型&HBase物理模型
2. HBase SHELL实战&HBase API实战&HBase行健设计&HBase和Hive phoenix整合
Sqoop&Flume 数据迁移工具Sqoop和数据采集Flume工具实战
Kafka 分布式消息中间件Kafka实战
Redis 分布式缓存K-V键值对数据库Redis实战
Storm 1. 实时流统计Storm概说&设计思想&Storm实战
2. Storm Topology分组实战 动态调整Storm并行度 Storm雪崩
3. Strom DRPC Storm与Flume Kafka Redis整合案例实战
项目:互联网爬虫项目 1. 爬虫概说&爬虫框架搭建
2. 爬虫实战之能功能实现 分布式爬虫
3. 爬虫动态代理 爬虫监控 爬虫常见问题讲解
ElasticSearch 1. 全文引擎概说&分布式ElasticSearch集群搭建&Elastic Search RestFul
2. ElasticSearch实战 仿百度搜索引擎搭建
Hadoop发行版本CDH|HDP CDH|HDP搭建及使用
Impala 交互式数据库学习
HUE和Oozie 大数据工作流框架
Spark生态阶段 Scala 1. Scala入门实战 (数组和map等各种实战); 2. Scala进阶实战案例;
3. Scala面向对象入门实战(基本的类、对象和Trait接口实战);
4. Scala面向对象进阶实战;
5. Scala函数式编程大量实战案例(高阶函数、集合和序列等);
6. Scala高级功能函数实战(泛型、隐式参数和隐士类等);
7. Scala的Actor实战;
8. AKKA的架构解析与案例实战;
9. Scala课程总结;
SparkCore 1. Spark Runtime(Driver、Masster、Worker和Executor)深度分析和RDD;
2. Spark Java开发WordCount实战(local本地运行);
3. Spark Java开发WordCount程序提交到集群运行;
4. Spark Scala、Python开发WordCount程序;
5. Spark spark-shell开发WordCount程序;
6. Spark pyspark开发WordCount程序;
7. Spark spark-submit命令详细说明;
8. Spark WordCount深度原理剖析;
9. Spark 架构原理剖析;
10. Spark RDD基本创建所需要的数据源(集合、本地文件、HDFS、Hbase)
11. Spark RDD实战和各种实战案例;
12. Spark RDD持久化、广播变量和累加器;
13. Spark高级排序和TopN深度揭秘;
14. Spark Core综合实战(Java和Scala);
SparkCore核心原理&源码剖析 1. Spark内核架构深度剖析;
2. Spark RDD的依赖关系深度剖析(Lineage);
3. Spark ON Local深度剖析;
4. Spark ON Yarn深度剖析;
5. Spark ON Mesos深度剖析;
6. Spark的开启之旅深度剖析;
7. Spark的Master(HA、注册、状态改变和资源调度算法等)原理剖析和源码剖析;
8. Spark的Worker原理剖析和源码剖析(Worker运行流程图分析、Worker启动Driver源码分析、和Worker启动Executor源码分析”;
9. Spark中Job运行原理深度分析;
10. Spark的大脑运行机制深度分析;
11. Spark的Task处理内幕和源码深度剖析;
12. Spark的Shuffer模块原理剖析;
13. Spark的BlockManager架构原理、运行流程图和源码分析;
14. CacheManager运行原理流程图和源码分析;
15. Spark 回顾和总结主要技术点;
SparkCore优化 1. Spark性能优化整体介绍;
2. Spark性能优化:开发调优(开发Spark过程中如何进行调优);
3. Spark性能优化:资源调优(Spark各种资源参数的配置,对优化程序有重大影响);
4. Spark性能优化:数据倾斜(各种大量数据产生的数据倾斜的解决方案)
5. Spark性能优化:各种Shuffer调优(各个Shuffer过程的调优方案);
6. Spark2.0给性能带来了那些重要变比,比如(Tungsten第二阶段、统一内存管理和DataSet等性能提升);
SparkSQL 1. Spark SQL 背景整体介绍;
2. 进行Spark SQL之前预热的Hive实战
3. Spark SQL DataFrame处理的案例与解析;
3.1 Spark SQL DataFrame的编程模型、基本操作案例与解析;
3.2 Spark SQL DataFrame与RDD之间的转化案例与解析(Java、Scala和Python);
3.3 Spark SQL 缓存表(列式存储)的案例与解析;
3.4 Spark SQL DataFrame API的应用案例与解析;
4. Spark SQL 处理各种数据源的案例与解析;
4.1 Spark SQL 加载保存功能的案例与解析(Java、Scala和Python)
4.2 Spark SQL Parquet综合案例实战
4.3 Spark SQL Hive数据源复杂综合案例实战(读写各种分区表)
4.4 Spark SQL JDBC数据源复杂综合案例实战
4.5 Spark SQL JSON数据源复杂综合案例实战
4.6 Spark SQL 集成ElasticSearch的案例实战
5. Spark SQL 各种函数综合实战(包含UDF、UDAF和开窗函数等功能)
6. Spark SQL Thrift Server实战
7. Spark SQL Hive On Spark大揭秘(企业级还没有正式用,扩展知识面)
8. Spark SQL 内核引擎深入解析与性能优化策略(缓存数据、增加并行度 、高效的数据格式、内存的使用、广播变量和合适的task等)”;
9. Spark SQL 综合案例实战;
SparkStreaming 1. Spark Streaming基本工作原理介绍;
2. Spark Streaming与其它流式框架(Flink、Storm)的对比分析;
3. Spark Streaming实时案例实战(Java和Scala);
4. Spark Streaming 处理不同数据源的原理与实战;
4.1 Spark Streaming 处理TCP数据的案例与解析;
4.2 Spark Streaming的DStream与HDFS的实战;
4.3 Spark Streaming的DStream与Kafka实战(基于Receiver的方式);
4.4 Spark Streaming的DStream与Kafka实战(基于Direct的方式);
4.5 Spark Streaming的DStream与Flume实战;
4.6 Spark Streaming的DStream与ActiveMQ实战;
5. Spark Streaming DStream的各种转化和Action实战;
5.1 Spark Streaming的DStream的transformation操作剖析和实战;
5.2 Spark Streaming的transform以及模拟Nginx日志实时过滤案例实战
5.3 Spark Streaming各种DStream之间的合并实战;
6. Spark Streaming与Spark SQL结合实时案例实战(企业级最常用的方式)
7. Spark Streaming的缓存和CheckPoint机制;
8. Spark Streaming 底层运行原理与架构进阶;
9. Spark Streaming StreamingContext DStream和Receiver启动原理剖析与源码分析
10. Spark Streaming 源码分析;
11. Spark Streaming 性能调优【优化运行时间、合适的批次大小和优化内存使用】;
项目:某大型网站离线数据分析平台项目 1、项目背景介绍、数据分析、需求分析
2、方案设计、数据库设计、编码实现、单元测试
3、性能优化、shuffle调优、数据倾斜处理
4、数据前端echarts展示 统计结果分析
Spark Zeppelin Spark大数据可视化
Sparkmlib SparkMlib机器学习实战&常见算法PageRank 朴素贝叶斯 k近邻等算法
SparkGraphx 1. 图计算的整体背景介绍以及跟其它图数据库和图计算引擎的结合和对比
(Neo4j、GraphSQL、GraphLab、Hama、Giraph和Spark Graphx);
2. Spark GraphX原理和实现.;
3. Spark GraphX的基本操作(Verticies\Edges\Triplets)实战;
4. Spark GraphX 在社交领域中的实战(Triangle);
5. Spark GraphX 两点之间最短优化路径实战(ShortestPaths);
6. Spark GraphX PageRank实战;
7. Spark GraphX 在金融领域中的实战(反欺诈、组团欺诈和客户失联等)
8. Spark GraphX 医疗行业中的实战(医疗中病、症、医案、病和方剂的推理);
项目:基于Spark实时DDoS检测和防御 项目背景介绍&项目环境搭建&Flume+Kafka+SparkStreaming+Redis实战
项目实战阶段 项目:尚观官网用户画像项目 1. 用户画像简介&项目环境搭建
2. 用户画像实战
3. 用户画像实战&常见问题解答
项目:基于Spark实时网络流量异常检测 Spark实时进行网络流量异常检测实战
JVM加强 JVM实战加强
项目:基于Spark实时动态过滤ETL项目 1. 项目背景介绍&项目环境搭建&ELT概念深化讲解
2. 实时动态过滤ETL实战&问题处理
项目:Spark策略和代码编译引擎等通用平台项目 1. 项目背景介绍&项目业务简介&项目环境搭建
2. 项目实战&问题分析
数据仓库概念全面学习 1. 数据仓库讲解,数仓用途和数据库对比,常用工具:Druid、Greenplum、Tajo、Kylin、Hive对比
2. Druid概述、部署、使用,基本案例实战
3. Apache Kylin概述、部署、使用,实战
项目:数据服务平台+数据 集市设计项目 1. 项目背景介绍、项目设计细节、项目环境搭建、基本实现
2. 项目开发&部署&问题处理
大数据高级知识阶段 分布式内存数据计算和事务平台Ignite 版本:apache-ignite-fabric-1.7.0,Apache Ignite内存数据组织是高性能的、集成化的以及分布式的内存平 台,他可以实时地在大数据集中执行事务和计算,和传统的基于磁盘或者闪存的技术相比,性能有数量级的提升。
1. Apache Ignite讲解:【Ignite简介】【Ignite是什么?】
2. Ignite特性:【高级集群化】【数据网格(JCache)】【流计算和CEP】【计算、服务网格】【文件系统】 【分布式数据结构】【分布式消息】【分布式事件模型】【Hadoop加速】【Spark共享RDD】
3. Ignite和Hadoop以及Spark的关系;
4. Ignite和Redis的对比;
5. Ignite部署:【配置】【第一个ignite案例】
6. 基本概念介绍;
7. 集群化部署:【集群组】【领导者选举】【集群配置】【集群API】;
8. 交互式SQL:【Ignite与Apache Zeppelin】【zeppelin安装和配置使用】;
9. 分布式数据结构:【队列和集合】【原子类型】【ID生成器】;
10. Ignite RestAPI:【常见API具体操作】;
11. Ignite文件系统(IGFS)介绍;
12. Hadoop加速器:【Ignite和Hadoop整合】【Ignite和Hive整合】;
13. Ignite与Spark整合讲解;
14. Visor管理控制台;
高效分布式通用大数据分析引擎Flink Apache Flink是一个高效、分布式、基于Java实现的通用大数据分析引擎,它具有分布式 MapReduce一类平 台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基 于Java和Scala的API。版本: ink-1.1.2-bin-hadoop26-scala_2.10.tgz.
1. Flink讲解;
2. Flink特点:【快速】【可靠性扩展性】【表现力】【易用性】【完全兼容Hadoop】;
3. Flink中的调度讲解
4. Flink生态圈讲解
5. Flink的安装部署【Standalone模式】【yarn Cluster模式】
6. Flink的HA简单介绍(主要依托Yarn的HA);
7. Flink的Rest API简单讲解;
8. Flink实战——wordcount;
ApacheBeam&ApacheMetron Apache Beam & Apache Metron概述 实战 大数据技术发展趋势

课程特色

企业真实环境:上课过程真实模拟企业部门环境,实战授课

• 尚观大数据开发课程,上课过程模拟真实企业部门环境,将学员分组,职责明确,完全实战授课,学习场景就是以后
  工作的场景, 完全做到学以致用。

• 学习期间,尚观还会邀请就职于BAT等互联网公司的学长学姐返校讲座,分享最新技术心得及行业动态。

签订就业协议

• 大专以上学历学员,尚观提供全方位的就业体系保障,授课期间包含《职业规划课程》《简历包装与压力面试课程》
  《尚观合作企业就业推荐免试服务》等个人职业能力重塑服务;

• 校区具有严格的学习保障体系,每日强制自习至晚 9 点;
   每日作业项目练习,专业督导老师检查确认;
   严格的学分管理制度保证学员高薪就业;

灵活付费方式,可零首付,先学习,高薪就业后分期付费

• 尚观 12 年口碑教学,在国内拥有良好的金融信用,目前已经合作的银行包括,中国银行,哈尔滨银行,交通银行,
  百度金融,宜信金融;

• 北京银行等金融学贷机构;尚观担保,快速放款,超低利率,无压力学习;

一次报名,终身学习,入职后全国免费猎头服务

报名尚观长期课程,培训入职企业后,可免费参加尚观周末班同等课程,无限制听课。随时请教老师解决实际企业问题,
尚观多达 100名外企 IT 技术顾问,辅助学员在职期间遇到的技术难题。猎头服务终身免费,尚观提供高薪跳槽直通渠道,
全国 2 万家企业人力资源。

我要报名

每期开班座位有限,预报名优先享有占座特权