前言

本书能帮助开发者更方便地使用 Hadoop,从而熟练地解决问题。读者会更加熟悉Hadoop相关的各种工具从而进行最佳的实践。

本书指导读者使用各种工具解决各种问题。这些工具包括:Apache Hive、Pig、MapReduce、Mahout、Giraph、HDFS、Accumulo、Redis以及Ganglia。

本书提供了深入的解释以及代码实例。每章的内容包含一组问题集的描述,并对面临的技术挑战提出了解决方案,最后完整地解决了这些问题。每节将单一问题分解成不同的步骤,这样更容易按照步骤执行相关操作。本书覆盖的内容包括:关于HDFS的导入、导出数据,使用Giraph进行图分析,使用Hive、Pig以及MapReduce进行批量数据分析,使用Mahout 进行机器学习方法,调试并修改MapReduce 作业的错误,使用Apache Accumulo对结构数据进行列存储与检索。

本书的示例中涉及的Hadoop技术同样也可以应用于读者自己所面对的问题。

本书涵盖哪些内容

第1章“Hadoop分布式文件系统——导入和导出数据”,包含了从一些流行的数据库导入导出数据的方法,包括MySQL、MongoDB、Greenplum以及MSSQL Server。此外,还包括一些辅助工具,例如Pig、Flume以及Sqoop。

第2章“HDFS”,介绍从HDFS读入或写出数据,介绍了如何使用不同的序列化库,包含 Avro、Thrift 以及 Protocol Buffers。同样包含如何设置数据块大小、备份数以及是否需要进行LZO压缩。

第3 章“抽取和转换数据”,包含对不同数据源类型进行基本的Hadoop ETL 操作。不同的工具包括Hive、Pig以及MapRedcue JAVA API,用于批量处理数据,输出一份或多份转换数据。 ...

Get Hadoop实际解决方案手册 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.