BigQuery の Colab Enterprise ノートブックを使用して、BigQuery のクエリ結果を調べることができます。
このチュートリアルでは、BigQuery 一般公開データセットのデータをクエリし、その結果をノートブックで確認します。
目標
- BigQuery でクエリを作成して実行する。
- ノートブックでクエリ結果を調べる。
費用
このチュートリアルでは、Google Cloud 一般公開データセット プログラムを通じて提供されているデータセットを使用します。Google では、これらのデータセットの保存費用を負担しており、データへの公開アクセスを提供しています。データに対して実行するクエリに対して料金が発生します。詳細については、BigQuery の料金をご覧ください。
始める前に
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
新しいプロジェクトでは、BigQuery が自動的に有効になります。
BigQuery Studio を有効にする
アセット管理に関する BigQuery Studio を有効にするの手順に沿って、コードアセット(ノートブックなど)のバージョンを保存、共有、管理します。
必要な権限
ノートブックを作成して実行するには、次の Identity and Access Management(IAM)ロールが必要です。
- BigQuery ユーザー(
roles/bigquery.user
) - ノートブック ランタイム ユーザー(
roles/aiplatform.notebookRuntimeUser
) - コード作成者(
roles/dataform.codeCreator
)
ノートブックでクエリ結果を開く
SQL クエリを実行した後、ノートブックを使用してデータを調べることができます。この方法は、データを操作する前に BigQuery でデータを変更する場合や、テーブル内のフィールドのサブセットのみが必要な場合は便利です。
Google Cloud コンソールで [BigQuery] ページに移動します。
[検索語句を入力] フィールドに「
bigquery-public-data
」と入力します。プロジェクトが表示されない場合は、検索フィールドに「
bigquery
」と入力し、[検索範囲をすべてのプロジェクトに広げます] をクリックして、既存のプロジェクトと一致する検索文字列を入力します。[bigquery-public-data] > [ml_datasets] > [penguins] の順に選択します。
penguins テーブルで、
[アクションを表示] をクリックし、[クエリ] をクリックします。生成されたクエリにフィールド選択用のアスタリスク(
*
)を追加して、次の例のようになります。SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
[
実行] をクリックします。[クエリ結果] セクションで、[データを探索] をクリックして、[Python ノートブックで探索] をクリックします。
ノートブックを使用できるように準備する
ランタイムに接続し、アプリケーションのデフォルト値を設定して、ノートブックを使用できるように準備します。
- ノートブックのヘッダーで [接続] をクリックして、デフォルトのランタイムに接続します。
- [設定] コードブロックで、 [セルを実行] をクリックします。
データを表示
- 次のようにして、penguins データを BigQuery の DataFrame に読み込み、結果を表示するには、[BigQuery ジョブから DataFrame として読み込まれた結果セット] セクションのコードブロックで [セルを実行] をクリックします。
- データの説明的な指標を取得するには、[describe() を使用して記述統計を表示] セクションのコードブロックで [セルを実行] をクリックします。
- 省略可: 他の Python 関数またはパッケージを使用して、データの探索と分析を行います。
次のコードサンプルは、bigframes.pandas
を使用してデータを分析し、bigframes.ml
を使用して BigQuery の DataFrame で penguins データから線形回帰モデルを作成します。
クリーンアップ
このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。
課金を停止する最も簡単な方法は、チュートリアル用に作成した Google Cloud プロジェクトを削除することです。
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
次のステップ
- 詳細については、BigQuery でのノートブックの作成をご覧ください。
- 詳細については、BigQuery DataFrames を使用したデータの探索をご覧ください。