第3章 抽取和转换数据

本章我们将介绍:

使用MapReduce 将Apache 日志转换为TSV 格式

使用Apache Pig 过滤网络服务器日志中的爬虫访问量

使用Apache Pig 根据时间戳对网络服务器日志数据排序

使用Apache Pig 对网络服务器日志进行会话分析

通过Python 扩展Apache Pig 的功能

使用MapReduce 及二次排序计算页面访问量

使用Hive 和Python 清洗、转换地理事件数据

使用Python 和Hadoop Streaming 执行时间序列分析

在MapReduce 中利用MultipleOutputs 输出多个文件

创建用户自定义的Hadoop Writable 及InputFormat 读取地理事件数据

3.1 介绍

对大规模数据进行解析、格式化来使其满足商业需求是一件极具挑战性的工作,相关软件和架构必须满足高可扩展性、高可用性以及运行时间的限制。Hadoop是一套抽取和转换大规模数据的理想框架。Hadoop提供了一套非常适合大数据处理的高可扩展性、高可靠性的分布式处理框架。本章将展示使用MapReduce、Apache Pig、Apache Hive 以及Python对数据进行抽取转换的方法。

3.2 使用MapReduce将Apache日志转换为TSV格式

对于将数据转化为制表符分隔值格式(TSV),MapReduce是一个优秀的工具。只要将数据载入 HDFS,整个 Hadoop 集群就可以并行地转换大规模的数据集。本节将展示从Apache访问日志抽取相关记录并以制表符分隔值格式在HDFS存储这些记录的方法。

准备工作

你需要从http://www.packtpub.com/support下载数据集apache_clf.txt,并将其导入HDFS。 ...

Get Hadoop实际解决方案手册 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.