Vertex AI では、シンプルなプロセスとインターフェースを使用して、表形式データの ML を実行できます。表形式データの問題に対し、次のモデルタイプを作成できます。
- バイナリ分類モデルは、バイナリの結果(2 つのクラスのうちのいずれか)を予測します。「はい」か「いいえ」で答える質問には、このモデルタイプを使用します。たとえば、バイナリ分類モデルを構築して利用者がサブスクリプションを購入するかどうかを予測できます。通常、バイナリ分類問題に必要となるデータは、他のモデルタイプよりも少なくなります。
- マルチクラス分類モデルは、1 つのクラスを 3 つ以上の個別クラスから予測します。このモデルタイプは分類に使用します。たとえば、小売業者がマルチクラス分類モデルを構築して、買物客をさまざまなペルソナにセグメント分けすることが考えられます。
- 回帰モデルは、連続値を予測します。たとえば、小売業者が回帰モデルを構築して、買物客が来月使用する金額を予測することが考えられます。
- 予測モデルは、一連の値を予測します。たとえば、小売店では、商品の在庫を前もって適切に確保できるように、今後 3 か月にわたる商品の日々の需要を予測することが考えられます。
表形式データを使用した ML の概要については、表形式データの概要をご覧ください。Vertex AI ソリューションの詳細については、分類と回帰の Vertex AI ソリューションおよび予測の Vertex AI ソリューションをご覧ください。
公平性に関する注記
Google は、責任ある AI への取り組みの進歩に取り組んでいます。そのため、AutoML を含む ML プロダクトは、公平性や人間中心の機械学習などの主要な原則を中心に設計されています。独自の ML システムを構築する際のバイアスを軽減するためのベスト プラクティスについては、インクルーシブ ML ガイド - AutoML をご覧ください。
分類と回帰の Vertex AI ソリューション
Vertex AI には、分類と回帰に関して次のソリューションが用意されています。
エンドツーエンドの AutoML の表形式ワークフロー
エンドツーエンド AutoML 用の表形式ワークフローは、分類タスクと回帰タスクの完全な AutoML パイプラインです。AutoML API に似ていますが、制御する対象と自動化する対象を選択できます。パイプライン全体を管理するのではなく、パイプライン内のすべてのステップをコントロールします。パイプラインについて、次のようなコントロールを行えます。
- データの分割
- 特徴量エンジニアリング
- アーキテクチャの検索
- モデルのトレーニング
- モデルのアンサンブル
- モデルの抽出
利点
- 数 TB のサイズ、最大 1,000 列の大規模なデータセットをサポートします。
- アーキテクチャ タイプの検索スペースを制限するか、アーキテクチャ検索をスキップすることで、安定性を向上させ、トレーニング時間を短縮できます。
- トレーニングとアーキテクチャ検索に使用するハードウェアを手動で選択して、トレーニングの速度を向上できます。
- 抽出またはアンサンブル サイズの変更により、モデルサイズを縮小し、レイテンシを改善できます。
- 各 AutoML コンポーネントは、強力なパイプライン グラフ インターフェースで検査でき、変換されたデータテーブル、評価済みのモデル アーキテクチャなど多くの詳細を確認できます。
- 各 AutoML コンポーネントは、パラメータやハードウェアのカスタマイズ、プロセス ステータスやログの表示など、柔軟性と透明性が強化されています。
表形式ワークフローの詳細については、Vertex AI の表形式ワークフローをご覧ください。エンドツーエンド AutoML の表形式ワークフローの詳細については、エンドツーエンド AutoML の表形式ワークフローをご覧ください。
TabNet 用の表形式ワークフロー
TabNet 用の表形式ワークフローは、分類モデルや回帰モデルのトレーニングに使用できるパイプラインです。TabNet は、シーケンシャル アテンションを使用して、各決定ステップで推論の対象とする特徴を選択します。これにより、学習能力が最も顕著な特徴に使用されるため、解釈可能性と学習効率が向上します。
利点
- データセットのサイズ、予測タイプ、トレーニングの予算に基づいて、適切なハイパーパラメータ検索空間を自動的に選択。
- Vertex AI との統合。トレーニング済みモデルは Vertex AI モデルです。バッチ予測を実行することや、オンライン予測のモデルをすぐにデプロイすることが可能です。
- モデル固有の解釈可能性を提供。TabNet が判断に使用した特徴の分析情報が得られます。
- GPU トレーニングをサポート。
表形式ワークフローの詳細については、Vertex AI の表形式ワークフローをご覧ください。TabNet 用の表形式ワークフローの詳細については、TabNet 用の表形式ワークフローをご覧ください。
ワイド&ディープ用の表形式ワークフロー
ワイド&ディープ用の表形式ワークフローは、分類モデルや回帰モデルのトレーニングに使用できるパイプラインです。ワイド&ディープでは、ワイド線形モデルとディープ ニューラル ネットワークを一緒にトレーニングします。記憶化と一般化の利点を兼ね備えています。いくつかのオンライン テストでは、ワイド&ディープは、ワイドのみのモデルやディープのみのモデルに比べ、Google ストア アプリケーションの獲得数を大幅に増加させるという結果が得られています。
利点
- Vertex AI との統合。トレーニング済みモデルは Vertex AI モデルです。バッチ予測を実行することや、オンライン予測のモデルをすぐにデプロイすることが可能です。
表形式ワークフローの詳細については、Vertex AI の表形式ワークフローをご覧ください。ワイド&ディープ用の表形式ワークフローの詳細については、ワイド&ディープ用の表形式ワークフローをご覧ください。
AutoML による分類と回帰
Vertex AI には、エンドツーエンドの分類タスクや回帰タスク用に、統合されたフルマネージド パイプラインが用意されています。Vertex AI は、最適なハイパーパラメータ セットを検索し、複数のハイパーパラメータ セットで複数のモデルをトレーニングして、複数の上位モデルから最終モデルを 1 つ作成します。Vertex AI は、モデルタイプにニューラル ネットワークとブーストされたツリーを検討します。
利点
- 使いやすさ: モデルタイプ、モデル パラメータ、ハードウェアは自動的に選択されます。
追加の情報については、分類と回帰の概要をご覧ください。
予測用の Vertex AI ソリューション
Vertex AI には、予測用に次のソリューションが用意されています。
予測用の表形式ワークフロー
予測用の表形式ワークフローは、予測タスクの完全なパイプラインです。AutoML API に似ていますが、制御する対象と自動化する対象を選択できます。パイプライン全体を管理するのではなく、パイプライン内のすべてのステップをコントロールします。パイプラインについて、次のようなコントロールを行えます。
- データの分割
- 特徴量エンジニアリング
- アーキテクチャの検索
- モデルのトレーニング
- モデルのアンサンブル
利点
- 最大 1 TB のサイズで、最大 200 列までの大規模なデータセットをサポートします。
- アーキテクチャ タイプの検索スペースを制限するか、アーキテクチャ検索をスキップすることで、安定性を向上させ、トレーニング時間を短縮できます。
- トレーニングとアーキテクチャ検索に使用するハードウェアを手動で選択して、トレーニングの速度を向上できます。
- 一部のモデルのトレーニング方法では、アンサンブル サイズを変更することでモデルサイズを縮小し、レイテンシを改善できます。
- 強力なパイプライン グラフ インターフェースで各コンポーネントを検査でき、変換されたデータテーブル、評価されたモデル アーキテクチャなど多くの詳細を確認できます。
- パラメータやハードウェアのカスタマイズ、プロセス ステータスやログの表示など、各コンポーネントの柔軟性と透明性が拡大されています。
表形式ワークフローの詳細については、Vertex AI の表形式ワークフローをご覧ください。予測用の表形式ワークフローの詳細については、予測用の表形式ワークフローをご覧ください。
AutoML による予測
Vertex AI は、エンドツーエンドの予測タスク用の統合フルマネージド パイプラインを提供します。Vertex AI は、最適なハイパーパラメータ セットを検索し、複数のハイパーパラメータ セットで複数のモデルをトレーニングして、複数の上位モデルから最終モデルを 1 つ作成します。モデルのトレーニング方法は、Time series Dense Encoder(TiDE)、Temporal Fusion Transformer(TFT)、AutoML(L2L)、Seq2Seq+ から選択できます。Vertex AI は、モデルタイプにニューラル ネットワークのみを検討します。
利点
- 使いやすさ: モデル パラメータとハードウェアが自動的に選択されます。
追加の情報については、予測の概要をご覧ください。
BigQuery ML ARIMA_PLUS による予測
BigQuery ML ARIMA_PLUS は一変量予測モデルです。統計モデルであるため、ニューラル ネットワークに基づくモデルよりも高速にトレーニングできます。モデル トレーニングを何度も高速に反復する必要がある場合や、他のモデルを測定するために低コストのベースラインが必要な場合は、BigQuery ML ARIMA_PLUS モデルをトレーニングすることをおすすめします。
Prophet と同様に、BigQuery ML ARIMA_PLUS は各時系列をトレンド、季節、休日に分解し、こうしたモデルの予測を集約して最終的な予測を作成します。ただし相違点も多く、その 1 つとして BQML ARIMA+ では ARIMA を使用してトレンド コンポーネントをモデル化することに対し、Prophet では区分ロジスティック モデルまたは線形モデルを使用して曲線の一致を試みます。
Google Cloud には、BigQuery ML ARIMA_PLUS モデルをトレーニングするためのパイプラインと、BigQuery ML ARIMA_PLUS モデルからバッチ予測を取得するためのパイプラインが用意されています。どちらのパイプラインも、Google Cloud パイプライン コンポーネント(GCPC)の Vertex AI Pipelines のインスタンスです。
利点
- 使いやすさ: モデル パラメータとハードウェアが自動的に選択されます。
- 高速: モデルのトレーニングにより、他のモデルと比較するための低コストのベースラインが提供されます。
詳細については、ARIMA+ による予測をご覧ください。
Prophet による予測
Prophet は Meta が管理する予測モデルです。アルゴリズムの詳細については、Prophet の論文をご覧ください。ライブラリの詳細については、ドキュメントをご覧ください。
BigQuery ML ARIMA_PLUS と同様に、Prophet は各時系列をトレンド、シーズン、祝日に分解し、モデルの予測の集計を使用して予測を生成します。ただし、重要な違いもあります。BQML ARIMA+ は ARIMA を使用してトレンド コンポーネントをモデル化するのに対し、Prophet は区分的ロジスティックまたは線形モデルを使用してカーブ フィッティングを行う点です。
Google Cloud には、Prophet モデルをトレーニングするためのパイプラインと、Prophet モデルからバッチ予測を取得するためのパイプラインが用意されています。どちらのパイプラインも、Google Cloud パイプライン コンポーネント(GCPC)の Vertex AI Pipelines のインスタンスです。
Prophet と Vertex AI の統合により、次のことが可能になります。
- Vertex AI のデータ分割とウィンドウ処理戦略を使用する。
- BigQuery テーブルまたは Cloud Storage に保存されている CSV からデータを読み取る。Vertex AI では、各行の形式が Vertex AI Forecasting と同じ形式であることを前提としています。
Prophet は多変量モデルですが、Vertex AI がサポートするのは単変量モデルのみです。
利点
- 柔軟性: トレーニングに使用するハードウェアを選択することでトレーニング速度を改善できます。
詳細については、Prophet による予測をご覧ください。
次のステップ
- 表形式データによる MLについて確認する。
- AutoML による分類と回帰について確認する。
- AutoML による予測について確認する。
- Prophet による予測について確認する。
- BigQuery ML ARIMA_PLUS による予測について確認する。
- 表形式ワークフローについて確認する。