結論を先に言うと、FLUX.2のマルチリファレンス機能を使えば、LoRA訓練なしで最大6枚の参照画像からキャラクター・スタイルの一貫性を保てます。 これまでキャラ固定にはLoRA訓練が必須でしたが、FLUX.2では参照画像を渡すだけで同一キャラの別ポーズ・別シーンを生成可能になりました。本記事ではComfyUI上での具体的な設定手順とパラメータを、日本のSD実務者向けに整理します。
FLUX.2マルチリファレンスとは
FLUX.2はBlack Forest Labs(BFL)が公開した次世代画像生成モデルで、最大の特徴が「マルチリファレンス」です。スタイルや被写体を保ったまま、最大6枚の参照画像を指定できます。
従来のワークフローでは、特定キャラを固定するために20〜30枚のデータセットでLoRAを訓練する必要がありました。FLUX.2マルチリファレンスは、この長時間のファインチューニングを不要にし、参照画像を直接コンテキストとして与える方式に置き換えます。
- 参照枚数: 最大6枚まで指定可能
- 一貫性の対象: キャラの見た目/画風スタイルの両方
- 解像度: 最大4メガピクセル(約2048×2048相当)のネイティブ出力
- 付加機能: ポーズの明示的指定、読みやすいテキスト描画(多言語対応)
必要環境とVRAM
FLUX.2はComfyUIでday-0(公開初日)からネイティブ対応しています。NVIDIAとBFL、ComfyUIチームが協業し、公開時点でFP8量子化とRTX最適化が提供されました。
| 項目 | 内容 |
|---|---|
| 推奨フロントエンド | ComfyUI(公式ノード対応) |
| 量子化 | FP8(FP16比でVRAM約40%削減・速度約40%向上) |
| 公開モデル | FLUX.2-dev(Hugging Faceで重み配布) |
| ライセンス | dev版はBFLの非商用研究ライセンスが基本。**商用利用は必ず公式ライセンス条項を確認**すること |
VRAMに余裕がない環境では、FP8版を選ぶだけで大幅に要求スペックが下がります。16GBクラスのGPUでもFP8なら現実的に動作します。
セットアップ3ステップ
ステップ1: モデルとノードの準備
ComfyUIを最新版に更新し、FLUX.2-devのFP8重みをHugging Faceから取得してmodels/diffusion_modelsに配置します。VAEとテキストエンコーダ(Mistral-3系VLM連携版)も忘れず配置してください。
ステップ2: 参照画像のロード
Load Imageノードを参照枚数ぶん(最大6個)並べ、マルチリファレンス用の入力ノードに接続します。参照画像は以下の基準で選ぶと精度が上がります。
- 同一キャラなら顔がはっきり写った正面〜斜めを最低1枚含める
- 画風一貫を狙うなら、ライティングと色調が揃った画像で統一する
- 不要な背景や複数人物が写った画像はノイズになるため避ける
ステップ3: プロンプトとポーズ指定
FLUX.2は自然言語理解が強力なので、プロンプトは文章で具体的に書きます。ポーズ制御を併用する場合は、ポーズを明示的に指定する記述を加えます。
パラメータ設定の目安
| パラメータ | 推奨値 | 補足 |
|---|---|---|
| 参照画像枚数 | 2〜4枚 | 6枚まで可だが、増やすほど画風が平均化しやすい |
| 出力解像度 | 1024〜2048px | 4MPまでネイティブ対応 |
| ステップ数 | 20〜28 | 速度重視なら20、品質重視なら28前後 |
| ガイダンス | 3.0〜4.0 | 高すぎると参照に過剰固着し破綻しやすい |
2026年3月3日のスピードアップデートにより、テキスト生成・画像編集タスクの生成速度が品質劣化なしで約2倍に向上しています。最新版を使うほど待ち時間が短くなります。
ポーズ制御との組み合わせ
FLUX.2はマルチリファレンスに加えて、被写体のポーズを直接指定できる「ポーズ制御」を備えています。これにより「同じキャラ・同じ服装で、ポーズだけ変える」という実務で頻出の要求が、追加のControlNetなしで実現できます。
ただし、複雑な構図やカメラアングルを厳密に固定したい場合は、従来どおりControlNetを併用したほうが安定します。FLUX.2のポーズ制御は「ざっくり指定」、ControlNetは「ピクセル単位の固定」と役割を分けて考えると失敗が減ります。
よくある失敗と対策
- 参照を増やしたのに似なくなった → 枚数を2〜3枚に絞り、画風がブレている画像を外す
- テキストが崩れる → FLUX.2は本来テキスト描画が強い。崩れる場合は解像度を上げ、フォント指定をプロンプトに明記する
- VRAM不足で落ちる → FP8量子化版に切り替え、出力解像度を一段下げる
- 顔だけ別人になる → 顔が明瞭な参照を必ず1枚先頭に置き、ガイダンスを少し上げる
まとめ
FLUX.2マルチリファレンスは、LoRA訓練というこれまでのボトルネックを「参照画像を渡すだけ」に置き換える機能です。実務では2〜4枚の厳選した参照+FP8量子化が現実的な最適解になります。商用案件で使う場合は、dev版ライセンスの商用可否を必ず確認したうえで導入してください。キャラ固定の手間を大幅に削れるため、漫画・LP・広告クリエイティブの量産フローと特に相性が良い機能です。
FAQ
Q. FLUX.2マルチリファレンスはLoRAを完全に置き換えますか?
完全置換ではありません。数枚の参照で済む一貫性確保には非常に有効ですが、独自の細かい画風や特殊な造形を厳密に固定したい場合は、LoRA訓練のほうが再現性が高い場面も残ります。
Q. 参照画像は何枚が最適ですか?
実務では2〜4枚が扱いやすい目安です。最大6枚まで可能ですが、増やすほど特徴が平均化してキャラの個性が薄れる傾向があります。
Q. 商用利用しても大丈夫ですか?
FLUX.2-dev版はBFLのライセンス条項に従う必要があります。商用利用の可否はバージョンとプラン(dev/Pro/max)で異なるため、導入前に必ず公式ライセンスを確認してください。
Q. VRAMはどのくらい必要ですか?
FP8量子化版を使えば16GBクラスでも現実的に動作します。FP16比でVRAM要求が約40%削減されるため、まずFP8版から試すのが安全です。
Q. ポーズ制御とControlNetはどちらを使うべきですか?
ざっくりしたポーズ変更ならFLUX.2標準のポーズ制御で十分です。構図を厳密に固定したい場合はControlNet併用が安定します。