特定の画像を見たとき、どんなプロンプトを使えば画像内の要素が再現できるのか、気になったことはないでしょうか?
Stable Diffusion Web UIには「Interrogate CLIP」「Interrogate DeepBooru」という機能があり、画像からプロンプトを抽出することが可能です。
今回はこの「Interrogate CLIP」「Interrogate DeepBooru」の使い方について解説します。
特定の画像のプロンプトが気になるという方は、ぜひ参考にしてみてください。
・Stable Diffusion Web UIのインストールはこちら
「Interrogate CLIP」と「Interrogate DeepBooru」とは?
どちらも画像からプロンプトを抽出できる機能ですが、それぞれ異なる特徴があります。
Interrogate CLIP
こちらはOpenAIが開発したCLIP(Contrastive Language-Image Pretraining)モデルを使用します。
特徴としては幅広い画像に対応しており、画像から関連性の高い要素をプロンプトとして抽出できます。
プロンプトが単語ではなく文章形式で表示されるため、画像の構図や状況などを把握しやすいです。
Interrogate DeepBooru
DeepBooruは、アニメやイラストに特化したタグ予測モデルです。
二次元系のイラストだと視線や服装、汗や小物などの細かい部分まで解析してくれます。
なお、抽出されるプロンプトは、danbooruなど画像共有サイトのタグで表示されます。
そのため、それぞれのプロンプトがどの要素を指しているのかがわかりやすいです。
「Interrogate CLIP」と「Interrogate DeepBooru」の使い方
それでは実際に「Interrogate CLIP」と「Interrogate DeepBooru」の使い方について解説します。
どちらもimg2imgタブで画像を取り込み、ボタンをクリックするだけです。
まずimg2imgタブを開きます。
画像を取り込み、Generateの隣にある「Interrogate CLIP」か「Interrogate DeepBooru」をクリックします。
解析が終わるとプロンプト入力欄にテキストが表示され、その画像に使われているプロンプトがわかります。
Interrogate CLIPとInterrogate DeepBooruの比較
実写・二次元の画像をそれぞれのモデルで取り込み、抽出されたプロンプトで画像を生成してみます。
抽出する画像はこちらを使用します。どちらも同じプロンプトでモデルを変えただけです。
1girl,smile,masterpiece, high quality, very_high_resolution
Negative prompt: EasyNegative
実写画像のプロンプトを抽出&生成
まずこちらの実写画像からプロンプトを抽出して、それぞれ実写・二次元モデルで画像を生成してみます。
Interrogate CLIPで抽出した結果
a woman with a necklace on her neck posing for a picture in front of a window with a view of a field, Fan Qi, rounded eyes, a stock photo, dau-al-set
翻訳:畑が見える窓の前で、首にネックレスを付けた女性が写真を撮るポーズをしています。
単語: 丸い目
Interrogate DeepBooruで抽出した結果
1girl, bangs, blurry, blurry_background, blurry_foreground, brown_eyes, brown_hair, collarbone, depth_of_field, freckles, heart_necklace, indoors, jewelry, lips, long_hair, looking_at_viewer, mole, mole_on_body, mole_on_breast, mole_on_neck, mole_on_thigh, mole_under_eye, mole_under_mouth, necklace, photo_(medium), realistic, smile, solo, umbrella, upper_body
- 1girl: 1人の女性
- bangs: 前髪
- blurry: ぼやけた
- blurry_background: ぼやけた背景
- blurry_foreground: ぼやけた前景
- brown_eyes: 茶色の目
- brown_hair: 茶色の髪
- collarbone: 鎖骨
- depth_of_field: 被写界深度
- freckles: そばかす
- heart_necklace: ハートのネックレス
- indoors: 屋内
- jewelry: ジュエリー
- lips: 唇
- long_hair: 長い髪
- looking_at_viewer: カメラ目線
- mole: ほくろ
- mole_on_body: 体にあるほくろ
- mole_on_breast: 胸にあるほくろ
- mole_on_neck: 首にあるほくろ
- mole_on_thigh: 太ももにあるほくろ
- mole_under_eye: 目の下にあるほくろ
- mole_under_mouth: 口の下にあるほくろ
- necklace: ネックレス
- photo_(medium): 写真(中サイズ)
- realistic: リアルな
- smile: 笑顔
- solo: 単独
- umbrella: 傘
- upper_body: 上半身
Interrogate CLIPのプロンプトで生成した画像
Interrogate DeepBooruのプロンプトで生成した画像
Interrogate CLIPの方が情報は少ないですが、「畑が見える窓の前」や「ネックレス」など特徴的な部分は捉えられています。
画像生成でもそれらが反映されており、全体の構図はしっかり表現されていました。
Interrogate DeepBooruもネックレスなどは抽出されていますが、「ほくろ」や「傘」など画像にはないプロンプトが抽出されています。
特にほくろの要素が多くそれが画像にも反映されており、元画像とは少し異なる結果になりました。
実写系の画像からプロンプトを抽出する場合は、Interrogate CLIPの方が精度は高いかもしれません。
二次元画像のプロンプトを抽出&生成
次に二次元の画像を使ってプロンプトを抽出し、それぞれのモデルで画像を生成してみます。
Interrogate CLIPで抽出した結果
a girl with long black hair and blue eyes standing in front of a cityscape with buildings and skyscrapers, Ai-Mitsu, anime art style, a character portrait, computer art
翻訳:長い黒髪と青い目の少女がビルや高層ビルのある都市の風景の前に立っています。
単語:アニメ風、キャラクターの肖像、コンピューターアート
Interrogate DeepBooruで抽出した結果
1girl, bangs, black_hair, blue_eyes, blush, building, city, cityscape, jacket, long_hair, looking_at_viewer, open_mouth, outdoors, skyscraper, smile, solo, street, teeth, upper_body, white_shirt
- 1girl: 1人の少女
- bangs: 前髪
- black_hair: 黒髪
- blue_eyes: 青い目
- blush: 赤らむ
- building: 建物
- city: 街
- cityscape: 都市の景観
- jacket: ジャケット
- long_hair: 長い髪
- looking_at_viewer: カメラ目線
- open_mouth: 口を開けている
- outdoors: 屋外
- skyscraper: 高層ビル
- smile: 笑顔
- solo: 単独
- street: 通り
- teeth: 歯
- upper_body: 上半身
- white_shirt: 白いシャツ
Interrogate CLIPのプロンプトで生成した画像
Interrogate DeepBooruのプロンプトで生成した画像
Interrogate CLIPは黒い髪、青い目などの特徴を捉えつつ、ビルの前に立つなど画像の構図もしっかり抽出されています。
Interrogate DeepBooruも同じ特徴・風景などは捉えており、加えて「笑顔」「視線」「服装」などの特徴も抽出されていました。
Interrogate CLIPは実写・二次元どちらの画像からもバランスよく要素の抽出が可能。
Interrogate DeepBooruは実写系は苦手なものの、二次元画像からはより細かい部分まで抽出できるという結果でした。
Interrogate CLIPとInterrogate DeepBooruの使い方まとめ
今回は画像からプロンプトを抽出できる「Interrogate CLIP」と「Interrogate DeepBooru」の使い方について解説しました。
プロンプトを抽出すると、その画像の特徴や構図をどうやってプロンプトで表現しているのかがわかります。
抽出されたプロンプトから、それが画像の何を表現しているのか調べることで、プロンプトの知識やレパートリーを増やせるかもしれません。
気になる画像があればプロンプトを抽出して、画像生成の参考にしてみてください。