Knowledge Notebook
一覧に戻る

GPT Image 2とNano Bananaで思い通りの画像を生成するコツ

ChatGPTに搭載された「GPT Image 2(ChatGPT Images 2.0)」や、Geminiに搭載された「Nano Banana(Nano Banana Pro / Nano Banana 2)」といった最新世代の画像生成AIは、従来のモデルと比べて描写の正確性や文字の生成能力が向上しています。しかし、意図した通りの構図や品質にするには、それぞれの特性に合わせたプロンプトの工夫が必要です。この記事では、最新の画像生成AIの使い分けやプロンプト作成のコツ、思い通りにいかないときの解決策を解説します。

1. 最新画像生成AIの特徴と使い分け

まずは、ChatGPTとGeminiで採用されている最新モデルの強みを把握しておくと、目的に合わせた使い分けがしやすくなります。

GPT Image 2 (ChatGPT) の強み

GPT Image 2は、画像を生成する前に「推論ステップ(Reasoning Step)」を挟むアプローチをとっています。そのため、空間の広がりや物理的な位置関係の認識に優れています。また、看板やパッケージなどに英単語などのテキストを正確に埋め込む能力が高く、指示通りの文字列を破綻なく描写できます。

Nano Banana / Nano Banana 2 / Nano Banana Pro (Gemini) の強み

GoogleのNano Bananaシリーズは、キャラクターや人物の同一性(一貫性)の保持に優れています。同一人物の異なる表情やポーズを生成したい場合に強みを発揮します。また、チャットを通じた対話によって、元の画像の一部分だけをピンポイントで修正・変更する能力(インペインティング)も優れています。

2. プロンプト構成の基本(5つの要素)

AIへ具体的に指示を伝えるために、以下の5つの要素を意識してプロンプトを組み立ててください。要素を整理して書くことで、AIの誤解を減らすことができます。

  1. 主体(Subject):生成したいメインの被写体(例:茶色の毛並みの柴犬、スマートフォンの画面)
  2. 背景・設定(Environment):被写体が置かれている場所や状況(例:朝の光が差し込むカフェのテラス、夕暮れ時の都会の街並み)
  3. スタイル・画風(Style):画像の表現方法(例:写実的な写真、温かみのある水彩画風、アニメイラスト調)
  4. 構図・カメラ設定(Composition):カメラのアングルや光の当て方(例:マクロ撮影によるクローズアップ、俯瞰アングル、背景をぼかした浅い被写界深度)
  5. クオリティ表現(Quality):ポジティブな詳細化の指示(例:ディテールまで繊細な描写、シャープなフォーカス)

これらの要素を、箇条書きやカンマ区切りの文章で指定すると効果的です。複雑な指示を出す場合は、学習データの多い英語に翻訳して入力すると、意図がより正確に反映される傾向があります。

3. うまくいかないときの改善方法(トラブルシューティング)

画像の一部が崩れたり、意図と異なる結果になったりした場合は、プロンプトの記述を微調整することで解決できる場合があります。

手足や指が不自然になる場合

AI画像生成において、手先や指の描写は依然として難易度が高い処理です。手が崩れてしまうときは、手元をクローズアップさせない構図を指定するか、手元が隠れるポーズを明確に指示します。

改善プロンプトの例:「手をジャケットのポケットに入れている」「両手で温かいコーヒーカップを包むように持っている」などの具体的な動作を追加します。

画像内の文字がスペルミスなどで崩れる場合

GPT Image 2やNano Banana 2は文字生成が得意ですが、長文になると崩れやすくなります。文字を入れる際は、以下の工夫を行います。

  • 入れたい文字をダブルクォーテーションで囲む(例:Write the word "OPEN" on the sign)。
  • 単語数は「1〜3単語程度」の短いものにする。
  • 看板やラベルのデザインなど、文字を表示する場所を明確に指示する。

アスペクト比(画像の縦横比)を変更したい場合

デフォルトでは正方形で生成されることが多いため、縦長や横長の画像が欲しい場合はプロンプトの最後にアスペクト比を明記します。

「アスペクト比 16:9」や「in 16:9 aspect ratio」と言葉で指示してください。DALL-E 3やGPT Image 2、Nano Bananaは自然言語としてアスペクト比の指示を認識します。

ChatGPTで勝手にプロンプトが書き換えられてしまう場合

ChatGPTは、入力された日本語のプロンプトを自動的に英語の詳細なプロンプトに拡張して画像生成モデルに渡します。これが原因で、意図しない要素が追加されることがあります。自分のプロンプト通りに生成させたい場合は、以下の一文をプロンプトの最初に入力してください。

Do not modify or expand my prompt. Just translate it into English directly for generation.

一部分だけを修正したい場合

画像全体の構図は気に入っているものの、一部分だけを変更したい場合は、対話での修正機能を利用します。ChatGPTでは生成された画像を選択し、修正したい箇所をブラシで塗りつぶしてから指示を入力します。GeminiのNano Bananaでも、「画像の〇〇の部分だけを〇〇に変更して」とチャットで追加指示を送ることで部分的な変更が可能です。

4. まとめ

最新のGPT Image 2とNano Bananaを使いこなすことで、より実用的な画像の作成が可能です。テキスト生成が得意なGPT Image 2、同一人物の描き分けや編集に強いNano Bananaというそれぞれの強みを活かして、プロンプトを段階的に調整してみてください。


参考URL