Google 検索によるグラウンディングが利用できるようになりました。詳細

このページは Cloud Translation API によって翻訳されました。

安全性設定

Gemini API には安全性設定が用意されています。この設定は、プロトタイピングステージで調整して、アプリケーションに制限の緩い安全性構成が必要かどうかを判断できます。これらの設定は 4 つのフィルタカテゴリで調整でき、特定の種類のコンテンツを制限または許可できます。

このガイドでは、Gemini API が安全性設定とフィルタリングを処理する方法と、アプリケーションの安全性設定を変更する方法について説明します。

安全フィルタ

Gemini API の調整可能な安全フィルタは、次のカテゴリに対応しています。

カテゴリ	説明
嫌がらせ	ID や保護されている属性をターゲットとする否定的なコメントや有害なコメント。
ヘイトスピーチ	粗暴、無礼、または冒とく的なコンテンツ。
露骨な性表現	性行為やわいせつな内容に関する情報が含まれるコンテンツ。
危険	有害な行為を助長、促進、または助長している。
市民の誠実性	選挙関連のクエリ。

これらのカテゴリは HarmCategory で定義されています。Gemini モデルは、HARM_CATEGORY_HARASSMENT、HARM_CATEGORY_HATE_SPEECH、HARM_CATEGORY_SEXUALLY_EXPLICIT、HARM_CATEGORY_DANGEROUS_CONTENT、HARM_CATEGORY_CIVIC_INTEGRITY のみをサポートします。他のすべてのカテゴリは、PaLM 2（レガシー）モデルでのみ使用されます。

これらのフィルタを使用して、ユースケースに適したものを調整できます。たとえば、ビデオゲームの台詞を作成する場合は、ゲームの性質上、「危険」として評価されたコンテンツをより多く許容することを問題ないとみなす場合があります。

調整可能な安全フィルタに加えて、Gemini API には、子どもの安全を危険にさらすコンテンツなど、重大な危害からの保護が組み込まれています。このような種類の有害行為は常にブロックされ、調整することはできません。

コンテンツセーフティフィルタリングレベル

Gemini API は、コンテンツが安全でない確率レベルを HIGH、MEDIUM、LOW、NEGLIGIBLE に分類します。

Gemini API は、重大度ではなく、コンテンツが安全でない確率に基づいてコンテンツをブロックします。コンテンツによっては、危害の重大度が高くても、安全でない確率が低くなるものもあるため、この点を考慮することが重要です。たとえば、次の文を比較します。

ロボットが私をパンチした。
ロボットが私を切り付けた。

最初の文は安全でない確率が高いかもしれませんが、2 つ目の文は暴力の観点で重大度が高いとみなすことができます。したがって、エンドユーザーへの悪影響を最小限に抑えながら、主要なユースケースをサポートするために必要となる、適切なレベルでのブロックを慎重にテストし、検討することが重要です。

リクエストごとの安全フィルタリング

安全性設定は、API に送信するリクエストごとに調整できます。リクエストを送信すると、コンテンツが分析され、安全性評価が割り当てられます。安全性評価には、有害分類のカテゴリと確率が含まれます。たとえば、嫌がらせのカテゴリが「高」の確率で安全でなかったためにコンテンツがブロックされた場合、返される安全性評価のカテゴリは HARASSMENT で、有害性の確率は HIGH に設定されます。

デフォルトでは、安全性設定により、どのフィルタでも安全でない確率が中程度または高いコンテンツ（プロンプトを含む）がブロックされます。このベースラインの安全性は、ほとんどのユースケースで機能するように設計されています。そのため、安全性の設定は、アプリケーションで一貫して必要とされる場合にのみ調整してください。

次の表に、カテゴリごとに調整できるブロック設定を示します。たとえば、ヘイトスピーチ カテゴリのブロック設定を [少量をブロック] に設定した場合、ヘイトスピーチコンテンツである確率が高いものはすべてブロックされますが、ただし、確率の低いものは許可されます。

しきい値（Google AI Studio）	しきい値（API）	説明
ブロックなし	`BLOCK_NONE`	安全でないコンテンツの確率に関係なく、常に表示されます
少量をブロック	`BLOCK_ONLY_HIGH`	安全でないコンテンツである確率が高い場合にブロックします。
一部をブロック	`BLOCK_MEDIUM_AND_ABOVE`	安全でないコンテンツの確率が中程度または高い場合にブロック
ほとんどをブロック	`BLOCK_LOW_AND_ABOVE`	コンテンツが安全でない確率が低い場合、中程度の場合、高い場合にブロックします
なし	`HARM_BLOCK_THRESHOLD_UNSPECIFIED`	しきい値が指定されていません。デフォルトのしきい値を使用してブロックします。

しきい値が設定されていない場合、デフォルトのブロックしきい値は、[市民の誠実性] カテゴリを除くすべてのカテゴリで [ほとんどをブロック]（gemini-1.5-pro-002 と gemini-1.5-flash-002 のみ）または [一部をブロック]（他のすべてのモデル）です。

市民の誠実性カテゴリのデフォルトのブロックしきい値は、Google AI Studio を使用してプロンプトを送信する場合は [ほとんどをブロック]、Gemini API を直接使用する場合は [ブロックなし] です。

これらの設定は、生成サービスに対するリクエストごとに設定できます。詳細については、HarmBlockThreshold API リファレンスをご覧ください。

安全性に関するフィードバック

generateContent は、安全性に関するフィードバックを含む GenerateContentResponse を返します。

プロンプトフィードバックは、promptFeedback に含まれています。promptFeedback.blockReason が設定されている場合、プロンプトのコンテンツがブロックされています。

回答候補のフィードバックは Candidate.finishReason と Candidate.safetyRatings に含まれます。レスポンスコンテンツがブロックされ、finishReason が SAFETY の場合、safetyRatings を調べて詳細を確認できます。ブロックされたコンテンツは返されません。