データの読み込み、変換、エクスポートの概要
このドキュメントでは、抽出、変換、読み込み(ELT)プロセスまたは抽出、変換、読み込み(ETL)プロセスを使用して BigQuery にデータを読み込み、変換するデータ統合アプローチについて説明します。また、BigQuery からデータをエクスポートして他のシステムで分析情報を適用する方法(リバース ETL)についても説明します。
データの読み込みと変換
データを BigQuery に読み込む前または読み込み後に変換することは一般的です。以降のセクションで、データ統合の一般的な 2 つのアプローチである ETL と ELT について説明します。
ELT によるデータ統合アプローチ
抽出、読み込み、変換のアプローチでは、2 つの個別のステップでデータ統合を行います。
- データの抽出と読み込み
- データの変換
たとえば、JSON ファイルソースからデータを抽出して BigQuery テーブルに読み込むことができます。次に、パイプラインを使用してフィールドを抽出し、ターゲット テーブルに変換できます。
ELT アプローチでは、次の方法でデータ統合ワークフローを簡素化できます。
- 他のデータ処理ツールを使用する必要を排除する
- 複雑になりがちなデータ統合プロセスを 2 つの管理可能な部分に分割する
- BigQuery の機能を最大限に活用して、大規模なデータの準備、変換、最適化を行う
データの抽出と読み込み
ELT データ統合アプローチでは、データソースからデータを抽出し、サポートされている外部データの読み込みまたはアクセス方法のいずれかを使用して BigQuery に読み込みます。
BigQuery でのデータ変換
データを BigQuery に読み込んだら、次のツールを使用してデータを準備して変換できます。
- 高度な SQL データ変換パイプラインを共同で構築、テスト、文書化、スケジュール設定するには、Dataform を使用します。
- スケジュールに従って SQL コードまたは Python ノートブックを実行する小規模なデータ変換ワークフローの場合は、ワークフロー(プレビュー版)を使用します。
- 分析用にデータをクリーンアップするには、AI を活用したデータ準備(プレビュー版)を使用します。
詳細については、変換の概要をご覧ください。
ETL によるデータ統合アプローチ
抽出、変換、読み込みのアプローチでは、BigQuery に到達する前にデータを抽出して変換します。このアプローチは、データ変換に既存のプロセスがある場合や、BigQuery のリソース使用量を削減する場合に便利です。
Cloud Data Fusion は、ETL プロセスを容易にします。BigQuery は、データを変換して BigQuery に読み込むサードパーティ パートナーとも連携しています。
データのエクスポート
BigQuery でデータを処理して分析した後、結果をエクスポートして他のシステムに適用できます。BigQuery は、次のエクスポートをサポートしています。
- クエリ結果をローカル ファイル、Google ドライブ、Google スプレッドシートにエクスポートする
- テーブルまたはクエリ結果を Cloud Storage、Bigtable、Spanner、Pub/Sub にエクスポートする
このプロセスはリバース ETL と呼ばれます。
詳細については、BigQuery のデータ エクスポートの概要をご覧ください。
次のステップ
- BigQuery へのデータの読み込みについて詳細を確認する。
- BigQuery でのデータ変換について詳細を確認する。
- BigQuery でのデータのエクスポートについて詳細を確認する。