「画像生成AIでプロンプトを記述する際、どのように入力するのが最適解ですか?」と言語生成AIに訊ねてみたら ――
「画像生成AIでプロンプトを記述する際の最適な方法には、以下のようなポイントがあります」と返ってきた。
Man sitting at desktop computer typing prompts, An image is generated on the PC screen by the prompt,
「具体的で詳細な指示を与える」
・一般的な表現よりも、具体的な描写を心がける。例えば「海の絵」ではなく「夕日に照らされた穏やかな海岸の風景」のように詳細を加える
・背景や周囲の環境、光の状態など、細部にわたる情報を含めることで、より意図に近い画像が生成されやすくなる
―― ふむふむ。筆者はいつもカンマで細かく区切って、指示を与えてきたのだが、長い文節で指示した方が良いのかな?
「プロンプトの文節の理想的な長さについて、一般的に3〜5単語程度が適切だと考えられています」
―― 複雑な概念を伝える場合は、もう少し長めの文節となるが、基本的には十分な情報を含みながらも簡潔が理想のようだ。
「明確な構造と要素を指定する」
・画像の全体的な構図や主要な要素を明確に指定。
・「#」などの記号を使って要素を区切ると、指示が分かりやすくなる。
―― そうそう、構図って大事だよね。ただ「#」を使って区切るという手法は知らなかったのだが、調べてみると「Stable Diffusion」での記述スタイルのようで他の画像生成AIでは推奨されていない区切り方でもある模様。ここは一般的なカンマ区切りでいいかな。
「コンテキストを追加する」
・画像の雰囲気や文脈を説明することで、AIがより適切な解釈をしやすくなる
―― コンテキストって何やねん?と思ったら、説明文そのままだった。
「不要な要素を除外する」
・ 生成したくない要素や特徴は明確に除外するよう指示します。これは画像生成AIの「ネガティブプロンプト」に似た効果があります
―― ん、これはChatGPTなどを使った画像生成での話だな?
不要な要素はまさに「ネガティブプロンプト」で指定するから、これはOK。
「スタイルや技法を指定する」
・特定のアートスタイルや撮影技法を指定することで、より意図に沿った画像が生成されやすくなる。
―― そう、これが非常に大事。
筆者が絵画的な画像を生成してもらう際は、好きな画家のタッチや写真家のスタイルを指定してみたりしています。AIのバージョンによっては未学習なのか、全然違うタッチになったりもしますが。
Marie Antoinette by Mucha & Waterhouse, detailed, portrait
「プロンプトの長さを考慮する」
・必要な情報を過不足なく含めるよう心がける。長すぎると重要な要素が無視される可能性がある
―― 一文が長すぎると何を言っているか分からなくなるのはAIもいっしょ。長い文になるのは記述者自身も何が言いたいのか明確には分かっていないケースが多いのだから。
「反復と改善」
・結果が理想と異なる場合、プロンプトを微調整して再試行。繰り返すことで、より精度の高い結果が得られる
―― まあ、何事も経験だよね。
さっきちょろっと述べたけど、各画像生成AIごとにプロンプトに対する処理、解釈にけっこう違いがあったりもします。画像を生成させながら、そのAIごとに適した指定のやり方を探っていくのが良いでしょう。
ちなみに画像生成AIにおいて、特定の語句の要素を強調させたい場合は、以下の手法がある。
・単一の括弧 (word) は、その単語やフレーズの重要性を約1.1倍に増加
・二重括弧 ((word)) は、重要性をさらに高め、約1.21倍に増加
・word:1.5 のようにコロンを使って強度を指定すると、その要素の重要性が1.5倍に増加
―― ひとマネでカッコなどは使っていたけど、強度までは知らなかった。これからはコロンによる強度指定を採用かな。
ところで今更だが「プロンプト」という単語を聞き、「ワイに英語は無理や」と諦めてしまう方も中にはいるのかもしれませんが、そんなものはGoogleの翻訳エンジンを使えば良いだけ。筆者も英語はとんとダメマンなので、日本語で書いた文章を翻訳させ、コピペしているに過ぎません。
最近では、日本語でそのままプロンプトを指定できる画像生成AIなども登場していますので、今後は画像生成AIに対する敷居もほぼ消滅する時代に突入するようですが。
ちなみに冒頭の画像は「デスクトップPCの前に座ってプロンプトを入力する男、プロンプトによってPC画面には生成された画像」といった意味合いの文章を翻訳エンジンにぶち込み、変換されたものをプロンプトとしてコピペでポイしたもの。
同じプロンプトでもSeedを指定しない限りは、ガラガラポンの当たり外れがあり、くじ引き感があって楽しいのが画像生成AIでもあったりもする。