4章スケーラブルなデータレイク

ものの見方を変えれば、何を見るかが変わる。

—— ウェイン・ダイアー

最初の3つの章を読んできたみなさんは、会社にとってリーズナブルなコストでクラウド上にデータレイクアーキテクチャを立ち上げるために必要なことをすでに身につけています。本番実行できる最初のユースケースや分析も用意できているでしょう。あなたのデータレイクは大成功を収め、実現を求められる分析は増え、新しい利用者のニーズに応えるためにあなたは忙しい日々を送っているはずです。会社のビジネスは好調で、データ資産は急速に成長しています。ビジネスの世界でよく言われるように、0から1に進むのは、1から100、100から1,000に進むのとチャレンジの質が違います。データとユースケースが増えても仕事をこなし続けられるようなスケーラブルな設計を実現するためには、データレイクのスケーラビリティとパフォーマンスに影響を及ぼすさまざまな要素を理解することが大切です。広く信じられていることとは裏腹に、スケーラビリティとパフォーマンスは必ずしもコストと両立しないわけではありません。むしろ、互いに支え合う関係にあります。この章では、このことについて詳しく説明するとともに、データレイクのコストの最適化に取り組みつつスケーラビリティを最適化するための戦略を紹介します。この章でも、架空の企業、クロダースコーポレーションを使って、戦略の具体的な展開方法を示します。5章では、この章を基礎としてパフォーマンスの最適化に取り組みます。

4.1 まずはスケーラビリティから

スケーラビリティとパフォーマンスは、製品のピッチや販促宣材などでよく見かける用語です。これらの実際の意味はどのようなもので、なぜ重要なのでしょうか。それを知るために、まずスケーラビリティの定義を説明しましょう。パフォーマンスについては、 ...

Get クラウドデータレイク ―無限の可能性があるデータを無駄なく活かすアーキテクチャ設計ガイド now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.