Eddic Training Center » Hadoop

Cloudera Training for Hive & Pig

Eddic Training Center — Fri, 01 Apr 2016 12:39:14 +0000

cloudera 授权 Hive 和 Pig 培训

Cloudera Training for Hive & Pig

Cloudera 的 Apache Hadoop 培训和认证使你的知识迈上新台阶

专门为数据分析和数据挖掘人员量身定做的培训科目。学员将学习和掌握使用高级脚本语言或类 SQL 语言来编写 MapReduce 任务，而无需掌握 Java 编程语言和熟悉 Hadoop API。通过掌握 Hive 和/或 Pig，将极大缩短数据分析人员设计编写和调试常见数据分析问题的周期，提高工作效率；从而为企业节省费用，缩短分析结果市场化的周期。

主要内容

Hive 如何扩展 MapReduce
如何使用 Hive 创建和操作表
Hive 基本和高级数据类型
对数据进行分区和分组
高级 Hive 特性
如何用 Pig 加载和操作数据
PigLatin 编程语言的特性
用 Pig 解决实际数据分析问题

参训相关信息

课程时长：2天

学员基础

应具备基本 SQL 或者高级脚本语言编程经验；对 Hadoop 组成和工作原理有基本了解。

授课形式

采取教师讲解和学员上机操作相结合的形式。上机实验有机地穿插在重要课题讲解后，学员能马上学以致用，巩固刚刚所学的概念和知识，转化为自身的技能应用到实战中。我们鼓励学员在课堂上大胆自由地提问，和授课教师进行互动，获得最大的收益。

课程内容纲要

Hive 导引

什么是 Hadoop
Hive 的动机

将数据导入到 Hive

Hive 体系结构
创建 Hive 表
导入数据
创建不同的数据库
上机实验

Hive 数据操作

使用 SELECT 语句检索数据
合并表格
将查询结果存入 HDFS
基本 Hive 函数
上机实验

对数据进行分区和分组

数据分区
数据分组
上机实验

Hive 高级特性

更多高级 HiveQL 表
Hive 变量
创建用户自定义函数
跟踪调试 Hive 查询

Hive 最佳实践

配置共享元数据
处理日期
使用 SerDes

Pig 读写数据

加载数据
Pig 数据结构
写数据
上机实验

PigLatin 深入

数据过滤
数据分组和排序
Pig 表达式和函数
合并多个数据集
验证数据集
高级性能（例如 COGROUP 和 STREAM）
上机实验

调试 Pig 代码

调试 Pig 程序策略
处理坏数据
使用 ILLUSTRATE

Pig 最佳实践

一般性实战经验
产品化 Pig 代码性能优化

发挥 Hive 和 Pig 优势

什么情况下使用 Hive
什么情况下使用 Pig

Cloudera Training for Apache HBase

Eddic Training Center — Fri, 01 Apr 2016 10:30:41 +0000

cloudera 授权 Apache HBase 培训

Cloudera Training for Apache HBase

Cloudera 的 Apache Hadoop 培训和认证使你的知识迈上新台阶

Cloudera University 四天的 Apache HBase 培训课程使学员能够储存和访问大量多结构数据及完成每秒数以百计的运行。

提升你的生态系统技术

Apache HBase 是一个机遇 Apache Hadoop 的分布式、可扩展、非关系型数据库。HBase 可以在由数十亿行和数以百万计列组成的大量表格里储存数据，实时为用户和应用提供数据，实现快速随机的读写访问。

使用 Hadoop

通过指导性的讨论互动和实践，学员将使用 Hadoop 生态系统学习到如下内容：
HBase、Hadoop、RDBMS 的应用案例和使用场合
如何使用 HBase shell 来直接操作 HBase 数据
如何优化设计 HBase schemas 来进行有效的数据存储和恢复
学习使用 HBase 的 Java API
如何发现和解决性能问题

HBase 认证

完成培训的学员将获得 Cloudera Certified Specialist in Apache HBase (CCSHB) 模拟考试机会，这个认证会帮助你成为这个领域的领导者，给雇主和客户带去切实的技术和专长上的验证。

参训相关信息

课程时长：4天

学员基础

本课程适合于准备使用 HBase 的开发员和系统管理员；
具备数据库和数据建模的基础和经验将对本课程的学习有所帮助，但不是必需的；
具备 Java 基础和经验将有所帮助，无需 Hadoop 经验；
Cloudera 的 Hadoop 开发员培训可以作为前序课程。

授课形式

课程内容纲要

Hadoop 介绍

What Is Big Data?
Introducing Hadoop
Hadoop Components

HBase 介绍

What Is HBase?
Why Use HBase?
HBase and RDBMS
The Give and Take of HBase

HBase 基本概念

HBase Concepts
Working with HBase

HBase 管理 API

HBase Shell
Creating Tables
HBase Java API
Administration Calls

HBase 数据访问 API (1)

API Usage
Getting Data from the Shell, Java API, and Thrift API
Adding and Updating Data in the Shell
Driving Data from the Shell, Java API, and Thrift API

HBase 数据访问 API (2)

Adding and Updating Data with the API
The Scan API
Advanced API
Working with Eclipse

HBase 体系结构 (1)

Cluster Components
How HBase Scales

HBase 体系结构 (2)

HBase Write Paths
HBase Read Paths
Compactions and Splits

HBase 安装和配置

HBase Installation
Hardware Considerations
HBase Configuration
MapReduce and HBase Clusters
Replication and Disaster Recovery

HBase Row Key 设计

From RDBMS to HBase Schema Design
Application-Centric Design
Row Key Design

HBase Schema 设计

Column Families
Schema Design Considerations
Hotspotting

HBase 生态系统介绍

OpenTSDB
Kiji
HBase and Hive

Cloudera Data Analyst Training: Using Pig, Hive and Impala with Hadoop

Eddic Training Center — Fri, 01 Apr 2016 08:09:55 +0000

cloudera 授权 Apache Hadoop 数据分析员培训

Cloudera Data Analyst Training:
Using Pig, Hive and Impala with Hadoop

Cloudera 的 Apache Hadoop 培训和认证使你的知识迈上新台阶

Cloudera University 三天的数据分析员课程会教你把传统数据分析和商业智能技术应用于大数据。Cloudera 展示专业数据工具来访问，操纵和分析使用 SQL 和常见脚本语言的复杂数据集。

提升你的生态系统技术

Apache Hive 使得分析师、数据库管理员和其他无 Java 编程技术的人能使用多结构数据。Apache Pig 把常见脚本语言的基础原则应用于 hadoop 集群。Cloudera Impala 使得实时交互式数据分析通过本地 SQL 存储在 hadoop。

使用 Hadoop

通过指导性的讨论互动和实践，学员将使用 Hadoop 生态系统学习到如下内容：
Apache Hadoop 基础及数据 ETL（包括数据提取、转换及加载）、Hadoop 相关工具使用
如何使用 Apache Pig 对多数据集进行 join 操作以及分析独立数据
如何使用 Apache Hive：通过定义合适的表来组织数据、执行各种数据变换、简化复杂查询
如何使用 Impala 来对存储在 HDFS 里的大规模数据进行实时和交互式的分析查询
如何根据数据分析任务来选择合适的数据分析工具

参训相关信息

课程时长：3天

学员基础

本课程适合于具备 SQL、基本 UNIX/Linux 命令经验的数据分析员、商业分析员以及系统管理员，无需 Apache Hadoop 经验

授课形式

课程内容纲要

Hadoop 基础

The Motivation for Hadoop
Hadoop Overview
HDFS
MapReduce
The Hadoop Ecosystem
Lab Scenario Explanation
Hands-On Exercise: Data Ingest with

Pig 介绍

What Is Pig?
Pig’s Features
Pig Use Cases
Interacting with Pig

使用 Pig 进行简单数据分析

Pig Latin Syntax
Loading Data
Simple Data Types
Field Definitions
Data Output
Viewing the Schema
Filtering and Sorting Data
Commonly-Used Functions
Hands-On Exercise: Using Pig for ETL Processing

使用 Pig 处理复杂数据

Storage Formats
Complex/Nested Data Types
Grouping
Built-in Functions for Complex Data
Iterating Grouped Data
Hands-On Exercise: Analyzing Ad Campaign Data with Pig

使用 Pig 分析处理多数据集

Techniques for Combining Data Sets
Joining Data Sets in Pig
Set Operations
Splitting Data Sets
Hands-On Exercise: Analyzing Disparate Data Sets with Pig

扩展 Pig

Adding Flexibility with Parameters
Macros and Imports
UDFs
Contributed Functions
Using Other Languages to Process Data with Pig
Hands-On Exercise: Extending Pig with Streaming and UDFs

Pig 排错和优化

Troubleshooting Pig
Logging
Using Hadoop’s Web UI
Optional Demo: Troubleshooting a Failed Job with the Web UI
Data Sampling and Debugging
Performance Overview
Understanding the Execution Plan
Tips for Improving the Performance of Your Pig Jobs

Hive 介绍

What Is Hive?
Hive Schema and Data Storage
Comparing Hive to Traditional Databases
Hive vs. Pig
Hive Use Cases
Interacting with Hive

使用 Hive 进行数据分析

Hive Databases and Tables
Basic HiveQL Syntax
Data Types
Joining Data Sets
Common Built-in Functions
Hands-On Exercise: Running Hive
Queries on the Shell, Scripts, and Hue

Hive 数据管理

Hive Data Formats
Creating Databases and Hive-Managed Tables
Loading Data into Hive
Altering Databases and Tables
Self-Managed Tables
Simplifying Queries with Views
Storing Query Results
Controlling Access to Data
Hands-On Exercise: Data Management

使用 Hive 分析处理文本数据

Overview of Text Processing
Important String Functions
Using Regular Expressions in Hive
Sentiment Analysis and N-Grams
Hands-On Exercise (Optional): Gaining Insight with Sentiment
Analysis

Hive 优化

Understanding Query Performance
Controlling Job Execution Plan
Partitioning
Bucketing
Indexing Data

扩展 Hive

SerDes
Data Transformation with Custom Scripts
User-Defined Functions
Parameterized Queries
Hands-On Exercise: Data Transformation with Hive

Impala 介绍

What is Impala?
How Impala Differs from Hive and Pig
How Impala Differs from Relational Databases
Limitations and Future Directions
Using the Impala Shell

使用 Impala 进行数据分析

Basic Syntax
Data Types
Filtering, Sorting, and Limiting Results
Joining and Grouping Data
Improving Impala Performance
Hands-On Exercise: Interactive Analysis with Impala

如何选取数据分析工具

Comparing MapReduce, Pig, Hive, Impala, and Relational Databases
Which to Choose?

Cloudera Administrator Training for Apache Hadoop

Eddic Training Center — Fri, 01 Apr 2016 07:46:19 +0000

cloudera 授权 Apache Hadoop 管理员培训

Administrator Training for Apache Hadoop

Cloudera 的 Apache Hadoop 培训和认证使你的知识迈上新台阶

Cloudera University 的 Apache Hadoop 四天管理员培训课程为参加者提供了操作和维护 Hadoop 集群必要步骤的全面理解。从安装配置到负载平衡优化，Cloudera 培训课程都是 Hadoop 管理员应对实时挑战最好的准备。

使用 Hadoop

通过指导性的讨论互动和实践，学员将使用 Hadoop 生态系统学习到如下内容：
MapReduce 和 HDFS 的内置及如何搭建 Hadoop 框架
通过合适的集群配置和部署集成系统与数据中心的硬件
如何使用 Flume 加载动态生成文件及使用 Sqoop 连接关系数据库
配置 FairScheduler 为集群多用户提供服务级别协议
为集群安装和实施基于 Kerberos 的安全性
准备和维护 Apache Hadoop
排错，诊断，调优和解决 Hadoop 问题

管理员认证

完成培训的学员将获得 Cloudera Certified Administrator for Apache Hadoop (CCAH) 模拟考试机会，这个认证会帮助你成为这个领域的领导者，给雇主和客户带去切实的技术和专长上的验证

参训相关信息

课程时长：4天

学员基础

本课程适合于具备 linux 简单经验的系统管理员和 IT 经理，无需 Apache Hadoop 经验

授课形式

认证考试

Cloudera Apache Hadoop 资格管理员考试提供业界进行 Hadoop 安装部署及管理调优领域里唯一且最具权威性、并得到全球认可的认证。为企业提供了高质量可以依赖的 Hadoop 管理员，保障了海量数据存储和处理计算平台系统的高质量；为工程师技术人员提供了最新的技术装备，开拓了职业发展。

课程内容纲要

Apache Hadoop 的应用案例

Why Hadoop?
A Brief History of Hadoop
Core Hadoop Components
Fundamental Concepts

Hadoop 分布式文件系统

HDFS Features
Writing and Reading Files
NameNode Considerations
Overview of HDFS Security
Using the Namenode Web UI
Using the Hadoop File Shell

Hadoop 数据载入

Ingesting Data from External Sources with
Flume
Ingesting Data from Relational
Databases with Sqoop
REST Interfaces
Best Practices for Importing Data

MapReduce

What Is MapReduce?
Features of MapReduce
Basic Concepts
Architectural Overview
MapReduce Version 2
Failure Recovery
Using the JobTracker Web UI

规划 Hadoop 机群

General Planning Considerations
Choosing the Right Hardware
Network Considerations
Configuring Nodes
Planning for Cluster Management

Hadoop 安装和基本配置

Deployment Types
Installing Hadoop
Specifying the Hadoop Configuration
Performing Initial HDFS Configuration
Performing Initial MapReduce Configuration
Log File Locations

安装配置 Hive,Impala 和 Pig

Hive
Impala
Pig

Hadoop 客户端

What is a Hadoop Client?
Installing and Configuring Hadoop Clients
Installing and Configuring Hue
Hue Authentication and Configuration

Cloudera 经理

The Motivation for Cloudera Manager
Cloudera Manager Features
Standard and Enterprise

高级配置

Advanced Configuration Parameters
Configuring Hadoop Ports
Explicitly Including and Excluding Hosts
Configuring HDFS for Rack Awareness
Configuring HDFS High Availability

Hadoop 安全

Why Hadoop Security Is Important
Hadoop’s Security System Concepts
What Kerberos Is and How it Works
Securing a Hadoop Cluster with Kerberos

管理和调度作业

Managing Running Jobs
Scheduling Hadoop Jobs
Configuring the FairScheduler

机群维护

Checking HDFS Status
Copying Data Between Clusters
Adding and Removing Cluster Nodes
Rebalancing the Cluster
NameNode Metadata Backup
Cluster Upgrading

机群监测和排错

General System Monitoring
Managing Hadoop’s Log Files
Monitoring Hadoop Clusters
Common Troubleshooting Issues

Cloudera Developer Training for Apache Hadoop

Eddic Training Center — Fri, 01 Apr 2016 04:44:02 +0000

cloudera 授权 Apache Hadoop 开发员培训

Developer Training for Apache Hadoop

Cloudera 的 Apache Hadoop 培训和认证使你的知识迈上新台阶

Cloudera University 四天的开发员培训课程传达了关键概念和技术，给学员创造使用 Hadoop 的稳健数据分析处理应用。从工作流实现和 APIs 工作到写 MapReduce 代码，Cloudera 的培训课程都是 Hadoop 开发员应对实时挑战最好的准备。

使用 Hadoop

通过指导性的讨论互动和实践，学员将使用 Hadoop 生态系统学习到如下内容：
MapReduce 和 HDFS 核心以及如何书写 MapReduce 代码
Hadoop 发展，调试，工作流实现和常见算法的实践
如何平衡 Hive，Pig，Sqoop，Flume，Oozie，Mahout 和其他 Hadoop 生态系统项目
最佳硬件配置和网络把 hadoop 嵌入数据中心
如何用 MapReduce 来联结数据集
实时数据分析的先进 hadoop API 主题

开发员认证

完成培训的学员将获得 Cloudera Certified Developer for Apache Hadoop (CCDH) 模拟考试机会，这个认证会帮助你成为这个领域的领导者，给雇主和客户带去切实的技术和专长上的验证。

参训相关信息

课程时长：4天

学员基础

本课程适合于具备编程经验的开发员和工程师，尤其需要 Java 方面的技能和经验

授课形式

认证考试

Cloudera Apache Hadoop 资格开发员考试提供 Hadoop 上软件开发在业界唯一且最具权威性、并得到全球认可的认证。为企业提供高质量保证的 Hadoop 开发人员；为工程师技术人员提供了最新的技术装备，开拓了职业发展。

课程内容纲要

Hadoop 动机

Problems with Traditional
Large-Scale Systems
Introducing Hadoop
Hadoopable Problems

Hadoop 基本概念和 HDFS

The Hadoop Project and Hadoop Components
The Hadoop Distributed File System

MapReduce 介绍

MapReduce Overview
Example: WordCount
Mappers
Reducers

Hadoop 集群和 Hadoop 生态系统

Hadoop Cluster Overview
Hadoop Jobs and Tasks
Other Hadoop Ecosystem Components

使用 Java 编写 MapReduce 程序

Basic MapReduce API Concepts
Writing MapReduce Drivers, Mappers, and Reducers in Java
Speeding Up Hadoop Development by Using Eclipse
Differences Between the Old and New MapReduce APIs

使用 Streaming 编写 MapReduce 程序

Writing Mappers and Reducers with the Streaming API

MapReduce 单元测试

Unit Testing
The JUnit and MRUnit Testing Frameworks
Writing Unit Tests with MRUnit
Running Unit Tests

深入 Hadoop API

Using the ToolRunner Class
Setting Up and Tearing Down Mappers and Reducers
Decreasing the Amount of Intermediate Data with Combiners
Accessing HDFS Programmatically
Using The Distributed Cache
Using the Hadoop API’s Library of Mappers, Reducers and Partitioners

开发技巧

Strategies for Debugging MapReduce Code
Testing MapReduce Code Locally by Using LocalJobRunner
Writing and Viewing Log Files
Retrieving Job Information with Counters
Reusing Objects
Creating Map-Only MapReduce Jobs

Reducer 和 Partitioner

How Partitioners and Reducers Work Together
Determining the Optimal Number of Reducers for a Job
Writing Customer Partitioners

数据输入/输出

Creating Custom Writable and Writable-Comparable Implementations
Saving Binary Data Using SequenceFile and Avro Data Files
Issues to Consider When Using File Compression
Implementing Custom InputFormats and OutputFormats

大数据培训课程

Eddic Training Center — Tue, 01 Mar 2016 04:47:31 +0000

大数据培训课程

课程介绍

培训对象：

对云计算、分布式数据存储于处理、大数据等感兴趣的朋友
传统的数据库，例如 Oracle、MaySQL、DB2 等的管理人员
Java、C 等任意一门编程语言的开发者
网站服务器端的开发人员
在校大学生、中专生或者刚毕业的学生
云计算大数据从业者
熟悉 Hadoop 生态系统，想了解和学习 Hadoop 与 Spark 整合在企业应用实战案例的朋友
系统架构师、系统分析师、高级程序员、资深开发人员
牵涉到大数据处理的数据中心运行、规划、设计负责人
政府机关，金融保险、移动和互联网等大数据来源单位的负责人
高校、科研院所涉及到大数据与分布式数据处理的项目负责人
数据仓库管理人员、建模人员，分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员

培训目标：

了解大数据时代的基础技术和思维
体会大数据驱动下的营销变革与实战分享
能从电子商务等新型企业的大数据应用情况和案例中理解大数据价值
分享大数据应用案例，培养听众对大数据挖掘与分析的认识
掌握以 Hadoop 为代表的大数据平台实现技术能力

课程内容纲要

第1个主题：大数据生态圈和案例介绍

1. 认识大数据（大数据时代的思维，价值体现是什么，大数据应用的热点、发展、展望）
2. 大数据与云计算（大数据与云计算的关系是什么，大数据云计算的应用和领域）
3. 大数据技术概述（大数据技术的分类有哪些，大数据的主流技术有哪些）
4. 国外、国内大数据应用情况现状以及发展方向（其他行业大数据案例分享，国内大型互联网公司案例分享）

第2个主题：Hadoop 三问（彻底理解 Hadoop）

1. Hadoop 为什么是云计算分布式大数据的事实开源标准软件框架？
2. Hadoop 的具体是如何工作？
3. Hadoop 的生态架构和每个模块具体的功能是什么？

第3个主题：彻底掌握 HDFS（深入理解 HDFS）

1. HDFS 体系架构剖析
2. 名称节点、数据节点、辅助名称节点架构
3. 名称节点的高可靠性最佳实践
4. 数据节点中 Block 划分的原理和具体存储方式

第4个主题：彻底掌握 MapReduce（剖析 MapReduce 执行）

1. MapReduce 执行的经典步骤
2. wordcount 运行过程解析
3. Mapper 和 Reducer 剖析

第5个主题：YARN（理解和使用 YARN）

1. YARN 的设计思想
2. YARN 的核心组件
3. YARN 的共组过程
4. YARN 应用程序编写

第6个主题：深入理解 Hive（掌握 Hive 数据仓库的实现查询）

1. 了解基于 Hadoop 的数据平台架构
2. 了解 Hive 的应用环境
3. 了解 Hive 的作用及原理
4. 案例和演示

第7个主题：深入理解 HBase（掌握 HBase 数据仓库的原理及应用场景）

1. HBase 简介和架构
2. HBase 核心知识点
3. HBase 高级应用
4. HBase 安装、部署、启动
5. 案例和演示

第8个主题：深入理解 Zookeeper（掌握 Zookeeper的原理及应用场景）

1. Zookeeper 简介和架构
2. Zookeeper 核心知识点
3. 使用 Zookeeper 实现 Name Node 高可用

第9个主题：Spark 的架构设计（理解 Spark 平台和应用场景）

1. Spark 生态系统剖析
2. Spark 的架构设计剖析
3. RDD 计算流程解析
4. Spark 的出色容错机制
5. 案例分享

Cloudera 授权 Hadoop 开发者培训

Eddic Training Center — Mon, 14 Oct 2013 13:36:54 +0000

Cloudera 授权 Hadoop 开发者培训

课程目标

适用于使用 Apache Hadoop 来创建开发强大的数据处理应用的各类 Hadoop 开发技术人员。通过本课程的学习，学员将掌握开启海量数据处理技术大门的金钥匙，为企业提供前所未有的从所有不同类型数据里挖掘商业价值的机会。

课程内容

• Hadoop 分布式文件系统（HDFS）和 MapReduce 的工作原理
• 如何利用 JAVA API 或者其他编程语言来开发 MapReduce 应用
• MapReduce 任务开发中的注意事项
• 如何在 Hadoop 上实现常见算法
• Hadoop 开发和调试的最佳实用经验
• 如何利用其他 Hadoop 相关技术，包括 Apache Hive, Apache Pig, Sqoop 和 Oozie 等
• 满足解决实际数据分析问题的高级 Hadoop API

参训相关信息

课程时间：4 天

学员基础

具备编程经验的开发人员（最好是面向对象高级编程语言，譬如 Java）。不需要事先掌握 Hadoop 相关知识。

授课形式

认证考试

课程内容纲要

Hadoop 的来源和动机

• 传统大规模系统存在的问题
• 对一种新的解决方案的需求

Hadoop 基本概念

• Hadoop 概述
• Hadoop 分布式文件系统
• 上机实验
• MapReduce 工作原理
• 上机实验
• Hadoop 机群剖析
• Hadoop 生态系统

编写 MapReduce 程序

• MapReduce 流程
• 剖析一个 MapReduce 程序
• 基本 MapReduce API 概念
• 驱动代码
• Mapper
• Reducer
• Hadoop 流 API
• 使用 Eclipse 进行快速开发
• 上机实验
• 新 MapReduce API

集成 Hadoop 到现有工作流

• 关系数据库管理系统
• 存储系统
• 利用 Sqoop 从关系型数据库系统中导入数据到 Hadoop
• 上机实验
• 利用 Flume 导入实时数据到 Hadoop
• 使用 FuseDFS 和 Hoop 访问 HDFS

Hadoop API 深入探讨

• ToolRunner 介绍
• 使用 MRUnit 进行测试
• 利用 Combiners 来减少中间数据
• 使用 Configure 和 Close 方法来进行 Map/Reduce 设置和关闭
• 编写 Partitioner 来优化负载平衡
• 上机实验
• 直接访问 Hadoop 分布式文件系统（HDFS）
• 使用分布式缓存（Distributed Cache）
• 上机实验

常见 MapReduce 算法

• Hadoop 概述
• Hadoop 分布式文件系统
• 上机实验
• MapReduce 工作原理
• 上机实验
• 如何利用其他 Hadoop 相关技术，包括 Apache Hive, Apache Pig, Sqoop 和 Oozie 等
• 满足解决实际数据分析问题的高级 Hadoop API

使用 Hive 和 Pig

• Hive 基础
• Pig 基础
• 上机实验

实用开发技巧

• 排序和搜索
• 索引
• 上机实验
• 用 Mahout 进行机器学习
• Term Frequency – Inverse Document Frequency
• Word Co-Occurrence
• 上机实验

使用 Hive 和 Pig

• Hive 基础
• Pig 基础
• 上机实验

实用开发技巧

• 调试 MapReduce 代码
• 使用 LocalJobRunner 模式进行轻松调试
• 利用计数器来检索任务信息
• 日志
• 可分割文件格式
• 如何确定最优的 Reducer 数目
• 只使用 Mapper 的 MapReduce 任务
• 上机试验

高级 MapReduce 编程

• 定制 Writables 和 WritableComparables
• 使用 SequenceFiles 和 Avro 文件保存二进制数据
• 创建 InputFormats 和 OutputFormats
• 上机实验

用 MapReduce 合并数据集

• 在 Map 方的合并
• 辅助排序在 Reducer 方的合并

图的操作

• 图论简介
• 用 Hadoop 表示图
• 一个图算法的实现：单源最短路径

使用 Oozie 创建工作流

• 使用 Oozie 的动机
• Oozie 工作流定义格式
• 上机实验

Cloudera 授权 Hadoop 管理员培训

Eddic Training Center — Mon, 14 Oct 2013 13:18:26 +0000

Cloudera 授权 Hadoop 管理员培训

课程目标

专门为系统管理员和其他技术人员量身定做的课程，以进行用于产品或开发测试环境中的 Hadoop 机群的安装部署，管理和优化，为企业进行海量数据存储和分析搭建经济高效和高可靠的系统平台。

课程内容

• Hadoop 分布式文件系统（HDFS）和 MapReduce 的工作原理
• 如何优化 Hadoop 机群所需要的硬件配置
• 搭建 Hadoop 机群所需要考虑的网络因素
• 如何利用 Hadoop 配置选项进行系统性能调优
• 如何利用 FairScheduler 为多用户提供服务级别保障
• Hadoop 机群维护和监控
• 如何使用 Flume 从动态生成的文件加载数据到 Hadoop
• 如何使用 Sqoop 从关系型数据库加载数据
• 使用其他 Hadoop 相关系统工具（诸如 Hive，Pig 和 HBase）所涉及到的系统管理问题

参训相关信息

课程时间：3 天

学员基础

具备基本 Linux 系统管理经验。不需要事先掌握 Hadoop 相关知识。

授课形式

认证考试

课程内容纲要

Hadoop 和 HDFS 入门

• 为什么使用 Hadoop?
• HDFS 介绍
• MapReduce介绍
• Hive, Pig, HBase 和其他 Hadoop 生态系统项目
• 上机实验

Hadoop 机群规划

• 一般考虑因素
• 选择合适的硬件
• 网络考虑
• 配置节点

配置和部署 Hadoop 机群

• 部署种类
• 安装 Hadoop
• 使用 Cloudera Manager 进行简易安装
• 典型配置参数
• 机柜配置（Rack Awareness）
• 使用配置管理工具
• 上机实验

管理调度任务

• 管理运行的任务
• 上机实验
• 先进先出调度器（FIFO Scheduler）
• 公平调度器（FairScheduler）
• 配置公平调度器
• 上机实验

Hadoop 维护

• 检查 HDFS 状态
• 上机实验
• Hadoop 机群之间的数据拷贝
• 增减 Hadoop 机群节点
• Hadoop 机群数据负载平衡
• 上机实验
• 名字节点（NameNode）元数据（Metadata）的备份
• 机群升级

Hadoop 机群监控和故障排除

• 一般性系统监控
• 管理 Hadoop 日志文件
• 使用 NameNode 和 JobTracker 的 Web UI
• 上机实验
• 使用 Ganglia 来监控机群
• 常见故障问题
• 用基准测试工具测试机群性能

为 Hadoop 机群加载外部数据源

• Flume 概述
• 上机实验
• Sqoop 概述
• 导入数据的最佳实践

安装和管理其他 Hadoop 项目

• Hive
• Pig
• 上机实验
• HBase

云计算技术之 Hadoop 大数据技术企业培训

Eddic Training Center — Sun, 01 Sep 2013 14:29:28 +0000

云计算技术之 Hadoop 大数据技术企业培训

Hadoop 是一个分布式文件系统，广泛应用于云计算领域。对于现在的互联网企业和云计算服务企业来说，每天都会产生大量的数据，而且并发访问也非常高，传统的关系型数据库已经无法满足大数据量高并发的要求。因此各大互联网企业已经开始使用 Hadoop 软件解决大数据量高并发的问题。像：淘宝、百度、京东、Yahoo、Facebook、暴风影音都已经为他们的企业引入了 Hadoop 技术。在国内，越来越多的企业急需引入 Hadoop 技术，由于市面上掌握 Hadoop 技术的开发人员并不多，直接导致了 Hadoop 技术人员的薪水远高于 JavaEE 程序员，Hadoop 技术的入门薪资已经达到了8000以上，工作一年达到12000以上。

课程内容

• EasyHadoop 大数据处理生态系统和成功案例
• EasyHadoop 开发者
• Hadoop EDW 数据库管理员

参训相关信息

课程时间：2 天

学员基础

具备编程经验的开发人员（最好是面向对象高级编程语言，譬如 Java）。不需要事先掌握 Hadoop 相关知识。

课程内容纲要

EasyHadoop 大数据处理生态系统和成功案例

课程目标：此课程面向企业 CIO、CTO、架构师、以及传统数据库管理员、数据分析师、或对 Hadoop 技术感兴趣的技术人员。通过此课程的培训，学员可以了解 Hadoop 的历史及目前发展的现状、以及 Hadoop 的技术特点和适用场景，从而把握分布式计算框架及未来发展方向，在大数据时代对能为企业的技术选型及架构设计提供决策参考。
目标学员：CIO、CTO、架构师、DBA、数据分析师、数据库开发人员
学员基础：无编程技术要求

一、Hadoop 的起源
二、Hadoop 在云计算和大数据的位置和关系
三、Hadoop 国外企业成功案例
四、Hadoop 国内企业成功案例
五、Hadoop 生态系统介绍和演示
六、Hadoop 和传统数据库技术优劣势对比
七、Hadoop 现有软件厂商和产品对比和选型
八、Hadoop 现有硬件厂商和产品对比和选型
九、EasyHadoop 软件系统和培训课程优势介绍

EasyHadoop 开发者

课程目标：此课程面向企业软件工程师、数据库工程师、以及对 Hadoop 开发感兴趣的各类技术人员。通过此课程的学习，学员可以全面掌握 Hadoop 的架构原理和使用场景，并通过贯穿课程的习题项目进行实战锻炼，从而熟练使用 Hadoop 进行 MapReduce 程序开发。课程还涵盖了分布式计算领域的常用算法介绍，帮助学员为企业在利用大数据方面体现自身价值。
目标学员：软件工程师、高级软件工程师、数据库开发人员、互联网服务后台开发人员、运维人员
学员基础：需要了解 Linux 系统，了解网络，懂 Java 编程

一、Hadoop MapReduce
二、使用 Hadoop MapReduce Streaming 编程
三、MapReduce 分布式程序
四、Hadoop 核心代码导读
五、HDFS 分布式文件系统编程
六、Hadoop Mapreduce 高级编程
七、MapReduce 的优化
八、MapReduce 的任务调度
九、MapReduce 编程实战
十、flume + hadoop 日志的收集实战

Hadoop EDW 数据库管理员

课程目标：此课程面向公司系统管理员、数据库管理员，希望转型的 DBA 以及对 Hadoop 感兴趣的各类技术人员。通过此课程的培训，学员可以深入理解 Hadoop 技术架构，对 Hadoop 运作机制有清晰全面的认识，可以独立规划及部署生产环境的 Hadoop 集群，掌握 Hadoop 基本运维思路和方法，对 Hadoop 集群进行管理和优化。
目标学员：软件工程师、高级软件工程师、数据库开发人员、互联网服务后台开发人员、运维人员
学员基础：需要了解 Linux 系统，了解网络，了解 Shell SQL Python 等脚本语言的一种

集群安装和管理
一、Hadoop 的来源和动机
二、EasyHadoop 安装和部署准备
三、EasyHadoop 集群安装和部署
四、Hadoop 组件详解
五、EasyHadoop 集群配置详解

集群优化和管理
六、EasyHadoop 集群配置：机架感知,开启压缩和任务均衡
七、Hadoop 集群维护与管理
八、Hadoop 集群规划和测试
九、Hadoop 集群监控和运维
十、Hadoop HDFS 高可用

EasyHive EasyPig 数据仓库
十一、EasyHive 仓库集群
十二、EasyHive 仓库集群高级
十三、EasyHive 仓库优化
十四、EasyHive 仓库外围系统

Eddic Training Center » Hadoop

Cloudera Training for Hive & Pig

cloudera 授权 Hive 和 Pig 培训

Cloudera Training for Hive & Pig

Cloudera 的 Apache Hadoop 培训和认证使你的知识迈上新台阶

主要内容

参训相关信息

课程时长：2天

学员基础

授课形式

课程内容纲要

Hive 导引

将数据导入到 Hive

Hive 数据操作

对数据进行分区和分组

Hive 高级特性

Hive 最佳实践

Pig 读写数据

PigLatin 深入

调试 Pig 代码

Pig 最佳实践

发挥 Hive 和 Pig 优势

Cloudera Training for Apache HBase

cloudera 授权 Apache HBase 培训

Cloudera Training for Apache HBase

Cloudera 的 Apache Hadoop 培训和认证使你的知识迈上新台阶

提升你的生态系统技术

使用 Hadoop

HBase 认证

参训相关信息

课程时长：4天

学员基础

授课形式

课程内容纲要

Hadoop 介绍

HBase 介绍

HBase 基本概念

HBase 管理 API

HBase 数据访问 API (1)

HBase 数据访问 API (2)

HBase 体系结构 (1)

HBase 体系结构 (2)

HBase 安装和配置

HBase Row Key 设计

HBase Schema 设计

HBase 生态系统介绍

Cloudera Data Analyst Training: Using Pig, Hive and Impala with Hadoop

cloudera 授权 Apache Hadoop 数据分析员培训

Cloudera Data Analyst Training:Using Pig, Hive and Impala with Hadoop

Cloudera 的 Apache Hadoop 培训和认证使你的知识迈上新台阶

提升你的生态系统技术

使用 Hadoop

参训相关信息

课程时长：3天

学员基础

授课形式

课程内容纲要

Hadoop 基础

Pig 介绍

使用 Pig 进行简单数据分析

使用 Pig 处理复杂数据

使用 Pig 分析处理多数据集

扩展 Pig

Pig 排错和优化

Hive 介绍

使用 Hive 进行数据分析

Hive 数据管理

使用 Hive 分析处理文本数据

Hive 优化

扩展 Hive

Impala 介绍

使用 Impala 进行数据分析

如何选取数据分析工具

Cloudera Administrator Training for Apache Hadoop

cloudera 授权 Apache Hadoop 管理员培训

Administrator Training for Apache Hadoop

Cloudera 的 Apache Hadoop 培训和认证使你的知识迈上新台阶

使用 Hadoop

管理员认证

参训相关信息

Cloudera Data Analyst Training:
Using Pig, Hive and Impala with Hadoop