データの読み込み、変換、エクスポートの概要

このドキュメントでは、抽出、変換、読み込み(ELT)プロセスまたは抽出、変換、読み込み(ETL)プロセスを使用して BigQuery にデータを読み込み、変換するデータ統合アプローチについて説明します。また、BigQuery からデータをエクスポートして他のシステムで分析情報を適用する方法(リバース ETL)についても説明します。

ソースからのデータの読み込み、データの変換、結果のエクスポート

データの読み込みと変換

データを BigQuery に読み込む前または読み込み後に変換することは一般的です。以降のセクションで、データ統合の一般的な 2 つのアプローチである ETL と ELT について説明します。

ELT によるデータ統合アプローチ

抽出、読み込み、変換のアプローチでは、2 つの個別のステップでデータ統合を行います。

  • データの抽出と読み込み
  • データの変換

たとえば、JSON ファイルソースからデータを抽出して BigQuery テーブルに読み込むことができます。次に、パイプラインを使用してフィールドを抽出し、ターゲット テーブルに変換できます。

ELT アプローチでは、次の方法でデータ統合ワークフローを簡素化できます。

  • 他のデータ処理ツールを使用する必要を排除する
  • 複雑になりがちなデータ統合プロセスを 2 つの管理可能な部分に分割する
  • BigQuery の機能を最大限に活用して、大規模なデータの準備、変換、最適化を行う

データの抽出と読み込み

ELT データ統合アプローチでは、データソースからデータを抽出し、サポートされている外部データの読み込みまたはアクセス方法のいずれかを使用して BigQuery に読み込みます。

BigQuery でのデータ変換

データを BigQuery に読み込んだら、次のツールを使用してデータを準備して変換できます。

  • 高度な SQL データ変換パイプラインを共同で構築、テスト、文書化、スケジュール設定するには、Dataform を使用します。
  • スケジュールに従って SQL コードまたは Python ノートブックを実行する小規模なデータ変換ワークフローの場合は、ワークフロー(プレビュー版)を使用します。
  • 分析用にデータをクリーンアップするには、AI を活用したデータ準備(プレビュー版)を使用します。

詳細については、変換の概要をご覧ください。

ETL によるデータ統合アプローチ

抽出、変換、読み込みのアプローチでは、BigQuery に到達する前にデータを抽出して変換します。このアプローチは、データ変換に既存のプロセスがある場合や、BigQuery のリソース使用量を削減する場合に便利です。

Cloud Data Fusion は、ETL プロセスを容易にします。BigQuery は、データを変換して BigQuery に読み込むサードパーティ パートナーとも連携しています。

データのエクスポート

BigQuery でデータを処理して分析した後、結果をエクスポートして他のシステムに適用できます。BigQuery は、次のエクスポートをサポートしています。

  • クエリ結果をローカル ファイル、Google ドライブ、Google スプレッドシートにエクスポートする
  • テーブルまたはクエリ結果を Cloud Storage、Bigtable、Spanner、Pub/Sub にエクスポートする

このプロセスはリバース ETL と呼ばれます。

詳細については、BigQuery のデータ エクスポートの概要をご覧ください。

次のステップ