3章データの取り込み

本章では、パイプラインにデータセットを取り込む方法を紹介します。取り込んだデータセットは、図3-1に示した、さまざまなコンポーネントで利用できます。なお、本章の内容は、基本的なTFXの設定とML MetadataStoreの準備が完了していることを前提としています。

機械学習パイプラインにおけるデータの取り込み

図3-1 機械学習パイプラインにおけるデータの取り込み

TFXには、ファイルやサービスからデータを取り込むためのコンポーネントがあります。最初に、データ取り込みの基本的な概念やデータセットを学習用と評価用に分割する方法を説明します。次に、複数のデータエクスポートを1つのデータセットに結合する方法を示します。最後に、構造化データ、テキストデータ、画像データを取り込むための戦略について説明します。ここで紹介する戦略は、過去の事例でその有用性が証明されたものです。

3.1 データ取り込みの概念

データの取り込みでは、データファイルを読み込むか、Google Cloud BigQueryなどの外部サービスにパイプラインを実行するためのデータをリクエストします。取り込んだデータセットは次のコンポーネントへ渡す前に、学習用と検証用のように複数に分割します。そして、分割したデータセットをTFRecordファイルに変換します。このファイルには、tf.train.Example型で表現されたデータを格納します。

TFRecord

TFRecordは大規模なデータセットのストリーミングに最適化された軽量フォーマットです。実際には、ほとんどのTensorFlowユーザーはシリアル化されたプロトコルバッファのデータをTFRecordファイルに保存しています。しかし、TFRecordファイル形式は、次に示すように、あらゆるバイナリデータをサポートしています。 ...

Get 入門 機械学習パイプライン ―TensorFlowで学ぶワークフローの自動化 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.