译者序

随着Hadoop技术在互联网公司的广泛应用,普及程度越来越高,自学Hadoop的Java程序员也越来越多。大多数人(包括译者本人)自学Hadoop的都是从“部署Hadoop环境+运行WordCount例子”开始,而且大多数自学者也都终止在WordCount。因没有具体的应用场景而感到学习没有方向,没有成就感。

本书特色是以实践结合理论分析,手把手教读者如何操作,并且对每个操作都做详细的解释,对一些重要的知识点也做了必要的拓展。此外,书中的教学源代码都可以在官网上下载到。本书整体可分成3部分,第一部分为基础篇包含第1章、第2章、第3章、第4章、第8章内容,主要介绍Hadoop数据导入导出、HDFS的概述、Pig与Hive的使用、ETL和简单的数据处理,还介绍了MapReduce的调试方式;第二部分为数据分析高级篇包含第5章、第6章、第7章、第10章内容,主要介绍高级聚合、大数据分析等技巧;第三部分为系统管理篇,包含第 9 章,主要介绍 Hadoop 的部署的各种模式、添加新节点、退役节点、快速恢复、MapReduce调优等。

如果你是Hadoop初学者,建议你先阅读第一部分内容,完成这部分内容的学习以后,你基本上可以使用Hadoop来进行数据处理。

如果你已经是Hadoop工程师或者数据挖掘工程师,可以系统地学习第二部分内容,当然也可以根据需要进行查阅学习。完成这部分内容的学习,有助于解决一些复杂的业务分析。

如果你是 Hadoop 系统管理员,建议你阅读第三部分内容,当然你也可以阅读第一部分的内容,这样更有助于进行日常运维。

本书也可作为一本手册,在教学、工作中随时查阅,解决相关问题。

Get Hadoop实际解决方案手册 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.