Presto实战

by Matt Fuller, Manfred Moser, Martin Traverso

Released March 2021

Publisher(s): Posts & Telecom Press

ISBN: 9787115560056

Start your free trial

Book description

作为高性能分布式SQL查询引擎，Presto能够针对不同的数据源高效、快速地执行交互式分析。大数据的兴起使得数据存储机制多样化。面对标准不一的存储系统，你可以利用Presto轻松打破壁垒，连通数据孤岛。

本书由Presto项目创始成员参与执笔。你将学会用简单的Presto语句快速查询多个数据源，把握SQL-on-Anything的精髓。在任何规模、任何存储系统、任何环境中，你都能发挥SQL的威力。

入门：探索Presto的用例，学习安装、配置和使用Presto。
进阶：深入理解Presto的架构，在生产环境中部署Presto，学习连接器实例和SQL高级特性。
实践：了解如何在生产环境中使用Presto，保证安全性，监控负载，进行查询调优，与其他工具集成。

Product information

Title: Presto实战
Author(s): Matt Fuller, Manfred Moser, Martin Traverso
Release date: March 2021
Publisher(s): Posts & Telecom Press
ISBN: 9787115560056

book

SQL经典实例（第2版）

by Anthony Molinaro, Robert de Graaf

你或许熟悉SQL基础知识，但能否充分发挥它的强大威力呢？本书从实战角度展示SQL在查询之外的能力。你将学会用SQL进行统计分析，像使用商业智能工具那样制作报表，进行文本数据匹配，以及执行复杂的日期数据分析。本书的写作方式独树一帜，以160余个真实场景为例，提供了让你耳目一新的解决方案。书中的实例短小精悍，涵盖5种主流的关系数据库：Oracle、MySQL、SQL Server、PostgreSQL和DB2。数据分析师、数据科学家和数据库管理员可以通过本书练习解决SQL问题的能力，并开拓思路。对于其他需要在日常工作中与SQL打交道的读者，本书也是弥足珍贵的参考书，有助于快速查找解决方案。本书第2版做了如下更新。全面修订了原有实例，帮助你巩固基础知识并充分利用各个SQL实现引入的窗口函数新增了一些实例，旨在帮助你采用可读性更强、更容易实现的通用表表达式（CTE）为非数据库专家（如数据科学家）量身定制了一些实例扩展了处理数字和字符串的解决方案包含更多标准解决方案

book

数据库系统内幕

by Alex Petrov

当我们选择、使用并维护一个数据库系统时，理解它的原理至关重要。但是现今有太多的分布式数据库和工具可供使用，要想弄明白每一种工具的作用以及它们之间的区别往往并不容易。在这本实用指南中，作者讲解了现代数据库和存储引擎背后的概念。通过本书，你将领略到从众多书籍、论文、博客和多个开源数据库源代码中精心选取的相关材料，并且了解到众多现代数据库之间最重要的区别在于决定存储结构和数据分布的子系统。你将深入了解如下内容：存储引擎：学习存储的种类、分类依据，理解基于B树和不可变日志存储结构的存储引擎。存储构建块：理解数据库文件如何使用诸如页缓存、缓冲池等辅助数据结构来组织构建高效的存储。分布式系统：逐步学习节点和进程间如何连接并构建复杂的通信模式。数据库集群：深入探究现在数据库中常用的一致性模型，并了解分布式存储系统是如何实现一致性的。

book

Spark快速大数据分析（第2版）

by Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

毋庸置疑，数据已经成为现代化企业的重要资产，大数据分析技术则是企业挖掘数据价值的核心利器。一直以来，Spark就是大数据分析领域的佼佼者，也已经成为一站式大数据分析引擎的事实标准。本书作者均来自Spark的母公司Databricks。他们将带你开始使用Spark，并了解如何利用它适应这个属于大数据和机器学习的新时代。第2版在第1版的基础上做了大量更新，涵盖Spark 3.0的新特性，并着重展示如何利用机器学习算法执行大数据分析。学习使用Python、Java、Scala的结构化数据API 理解Spark SQL引擎的原理掌握Spark应用的优化技巧了解如何读写数据源：JSON、Parquet、CSV、Avro、ORC等使用Structured Streaming分析批式数据和流式数据使用Spark和Delta Lake构建湖仓一体的系统使用MLlib开发机器学习流水线

book

大数据项目管理：从规划到实现

by Ted Malaska, Jonathan Seidman

许多公司会在大数据项目的实施细节上下很多功夫，例如研究分布式处理引擎和数据分析算法。这并没有错，但不要因为一棵树而错过整片森林。本书将为你打开更广阔的视野，展示如何从大数据项目的规划阶段开始，一步步走向成功。无论是首席信息官、首席技术官、项目经理，还是架构师和开发人员，都能通过本书得到启迪。开始规划：思考大数据项目的主要类型评估和选择数据管理解决方案降低与技术、团队、需求相关的风险探索良好的接口设计模式为项目选择合适的分布式存储系统规划和实施元数据收集使用数据管道确保数据完整性根据并行处理引擎的特征评估处理框架

Presto实战

Book description

Table of contents

Product information

You might also like

SQL经典实例（第2版）

数据库系统内幕

Spark快速大数据分析（第2版）

大数据项目管理：从规划到实现

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly