Loading...
画像生成AI
2023/10/2

プロンプトでアイデアを現実に。
画像生成AIの手法〜基礎編〜

こんにちは!VONS picturesです。

第12回目のメルマガは、AIを使った画像生成の手法〜基礎編〜です。今回は、画像生成AIに必要不可欠な「プロンプト」を説明します。

プロンプトとは、AIに対するテキストベースの指示のことです。プロンプトでAIに指示を与えることで、画像を自動生成するなど、目的に沿った出力が実現します。自由自在に画像を作るには、プロンプトを使いこなすことが大切です。

今後、本格的にやってくるであろうAI時代では、AIと人間の協働が欠かせません。効果的にAIを活用するには、プロンプトで的確な指示を出す必要があります。

そこで今回のメルマガでは、プロンプトの意味やコツ、実際にプロンプトから生成した画像を紹介します。AIとプロンプトでどのようなことが実現するかわかるようになるので、ぜひ最後までご覧ください!

プロンプトとは

プロンプトとは、AIに対する指示のことです。画像生成AIにテキストで指示を出すことで、画像が出力される仕組みです。生成AIが魔法のように、イメージに近い画像を自動作成することから、プロンプトは「呪文」と呼ばれることがあります。

通常、プロンプトは英語で作成します。現時点で、Adobeの画像生成AI「Adobe Firefly」を除くほとんどの画像生成AIサービスは、日本語対応していないためです。

「英語ができないから、プロンプトを作成できない!」と思われた方もいるかもしれません。大丈夫です!安心してください。ChatGPTを使えば、画像生成AIで入力できるプロンプトを英語で簡単に作成できます。

例えば、ChatGPTに「画像生成AIを使って、笹を食べているパンダの様子を描くためのプロンプトを英語で教えてください」と質問すれば、英語のプロンプトを自動回答してくれます。

最近では、プロンプトを設計する「プロンプトエンジニア」という職業にも注目が集まっています。また、プロンプトの売買ができるマーケットプレイスも登場しました。プロンプトに関連する仕事や新サービスの出現は、画像生成AIにおけるプロンプトの重要性を物語っているといえるでしょう。

プロンプトを使うコツ

AIでイメージ通りの画像を生成するには、プロンプトに工夫が必要です。代表的な画像生成AIサービスであるStable Diffusionは、プロンプトガイドラインで以下の4つの要素を提示しています。

1. 核となるプロンプト
2. スタイル
3. アーティスト
4. 仕上げ

パンダ、女の子、戦士など、プロンプトの「中心的なテーマ」を決めます。しかし、単一ワードだけでは本当に欲しい画像を作成できません。指示を追加して、具体的なプロンプトを入力することが大切です。そこで、次に「スタイル」の指示を出します。スタイルとして、油絵、鉛筆画、パステル、写真風などが挙げられます。

さらに、アーティスト名をプロンプトとして追加することも可能です。「ピカソのスタイルで」と指示を出すと、ピカソ風のイラストになります。ただし、アーティスト名を最終成果物に使用する際は、注意が必要です。

最後に、イメージ通りの画像になるよう仕上げのプロンプトを指示します。エレガント、アニメ風、シャープ、美しいなどのプロンプトを加えましょう。また、「ネガティブプロンプト」と呼ばれる、画像に含めて欲しくない要素を指示することも可能です。

以上のように、プロンプトは具体的な指示内容にすることが大切です。あいまいな単語は使わず、明確に指示を出しましょう。

プロンプトを使った画像生成の手法

次に、プロンプトを使った2つの画像生成の手法を紹介します。

通常、テキストから画像を生成しますが、他にも画像を生成する方法があります。それは、既存の画像を使い、テキストベースのプロンプトで指示を出し、新しい画像を生成する手法です。前者は「テキスト to イメージ」、後者は「イメージ to イメージ」と呼ばれます。

それぞれの手法について、詳しく見てみましょう。

①テキスト to イメージ

<プロンプトの日本語訳>

笑顔の女の子の写真,((アナログ写真))、 (詳細), スタジオクオリティ, 8k, 4k, uhd, (((photorealistic)), ((detailed)), トランスファー

ネガティブプロンプト: , ((絵画)), ((描画))、 ((スケッチ))、((カメラ))、((レンダリング)),((トリミング)), (((透かし)))、((ロゴ))、((バーコード)),((UI)), ((署名)),((テキスト)),((ラベル)),((エラー)),((タイトル)), ステッカー,マーク,吹き出し,線,トリミング, ローレゾ,低画質,アーチファクト

右側の画像では、日本人風の女性が描かれており、さらに詳しいプロンプトが入力されています。

<プロンプトの日本語訳>

最高の品質, 超高解像度の写真, (フォトリアリスティック:1.4), 1girl, ((アナログ写真)), (詳細), スタジオ品質, 8k, 4k, uhd, (((photorealistic)), ((detailed)), transfer, ((analog photo)), (詳細)、スタジオ品質、8k、4k、uhd、(((写真のようにリアルに))), ((詳細)), トランスファー

ネガティブプロンプト: 絵画、スケッチ (最低画質:2), (低画質:2), (通常画質:2), lowres, 通常画質, ((モノクロ)), ((グレースケール)), 肌のシミ, アクネ, 肌のシミ、老人斑、亀頭、((絵画)),(描画)) ((スケッチ)), (カメラ)), (レンダリング)), ((トリミング)), (ウォーターマーク)), ((ロゴ)), ((バーコード)), ((UI)), ((署名)), (テキスト)), ((ラベル)), ((エラー)), ((タイトル)), ステッカー, マーク, 吹き出し, ライン, トリミング, ローレス, 低画質, アーティファクト, ((絵画)), ((描画)), ((スケッチ))、((カメラ))、((レンダリング))、((トリミング))、((ウォーターマーク)). (ロゴ), (バーコード), (UI), (署名), (テキスト), (ラベル), (エラー)) ((title)), ステッカー, マーク, 吹き出し, ライン, 切り抜き、 ローレゾ, 低画質, アーチファクト

プロンプトでAIが認識するイメージの範囲を狭めていくことで、目的の画像を生成します。ここではカンマや()で区切った単語を羅列していますが、文章で指示を出すことも可能です。

②イメージ to イメージ

次に、既存の画像とテキストベースのプロンプトを用いて、目的の画像を生成する方法です。上記の「テキスト to イメージ」で画像の細かい箇所をコントロールするのが難しいとき、「イメージ to イメージ」がおすすめです。

左の画像がオリジナルで、真ん中の画像では以下のプロンプトが使用されています。

<プロンプトの日本語訳>

美少年の写真,バストアップアングル,クローズアップ、 ((アナログ写真)),(詳細), スタジオクオリティ, 8k, 4k, uhd, (((photorealistic)),((detailed)), 転写,ドリブル,精密主義, 関連報道写真,受賞歴あり

ネガティブプロンプト (絵画)),((描画)),((スケッチ)), ((カメラ)),((レンダリング)),不自然な,悪い解剖学,不自然なポーズ, (((切り抜き))),(((透かし))),((ロゴ)),((バーコード)),((UI)),((署名)), ((テキスト)),((ラベル)),((エラー)),((タイトル)),ステッカー,マーキング,スピーチバブルライン,トリミング,ローレゾ,低画質,アーチファクト

右の画像のプロンプトでは、年齢を指定しました。レイアウトや色合いは同じまま、青年が描かれていますね。

<プロンプトの日本語訳>

25歳の美しい男性の写真 バストアップアングル, クローズアップ, ((アナログ写真)), (詳細), スタジオ画質, 8k, 4k, uhd, (((photorealistic)), ((detailed)), 転写, ドリブル, 精密さ, 関連報道写真, 受賞歴あり

ネガティブプロンプト (絵画)),((描画)),((スケッチ)), ((カメラ)),((レンダリング)),不自然な,悪い解剖学,不自然なポーズ, (((切り抜き))),(((透かし))),((ロゴ)),((バーコード)),((UI)),((署名)), ((テキスト)),((ラベル)),((エラー)),((タイトル)),ステッカー,マーキング,スピーチバブルライン,トリミング,ローレゾ,低画質,アーチファクト

モデル選びが重要!プロンプトが同じでもモデルによって仕上がりが変わる

同じプロンプトで指示を出しても、使用するモデルが違えば出力される画像の傾向が変わります。モデルとは、学習済みデータのことです。AIに学習させた画像がモデルごとで異なるため、同じプロンプトでも違う画像が出てくることになります。

左の画像は、「a girl(女の子)」というプロンプトを使い、Stable Diffusionで生成されたものです。Stable Diffusionでは、イラストから写実的な画像まで、さまざまなタイプの画像が作成されています。

右の画像は、同じプロンプトを用いて、Animelike25Dというモデルで生成されました。アニメ画像に特化したモデルであるため、たとえプロンプトで「写真」と指示しても、写実的な画像は生成されません。

そこで、目的の画像をAIで作るには、プロンプトだけでなくモデル選びも重要です。モデルごとのサンプル画像を見比べて、理想に近いモデルを選択しましょう。

まとめ

今回は、プロンプトの意味や重要性、プロンプトを使った画像生成の手法を解説しました。プロンプトの内容次第で、理想とする画像を瞬時に作り出せるようになります。

しかし、「どのようなプロンプトが自社のブランドに合うかわからない」「モデルの選び方を知りたい」とお困りの方もいることでしょう。そのような場合、専門家によるサポートが必要です。

VONS picturesでは、画像生成AIを使った広告コンテンツの企画から制作まで承っています。コンセプトビジュアル、広告カンプ、背景やパーツの制作、画像処理などを、画像生成AIを使ってサポートしています。

VONS picturesは、画像生成AIのプロンプトを独自研究しながら、クオリティの高い表現を追求しています。画像生成AIを使った広告にご関心がありましたら、ぜひお気軽にお問合せください。

もっと詳しく知りたい方へ

株式会社ヴォンズ・ピクチャーズ 
デジタルコンテンツ研究所

詳細はこちら

記事は参考になりましたでしょうか?