FLUXは従来のStable Diffusionとは別アーキテクチャ(Flow Matching)であり、SDXL用の感覚で学習すると失敗します。 本記事は2026年5月時点で安定して再現できるFLUX LoRA学習の推奨設定を、データセット・キャプション・ハイパラ・量子化の4軸で7つに整理します。
1. ステップ数は 1500〜2500 がスイートスポット
SDXLの感覚(500〜1000ステップ)でFLUXを学習させると、ほぼ確実にアンダーフィットします。FLUXのFlow Matching構造は 多めのステップが必要 で、1500〜2500の範囲が再現安定ラインです。
- 1500未満 → 顔・服装の細部が定着しない
- 2500超 → 過学習・破綻リスク
- バッチサイズ 1〜2 を維持
2. 学習率は 1e-4 + Cosine スケジューラ
FLUXはSDXLより 学習率を下げる 必要があります。1e-4 を基準に、訓練データが少ない場合は 5e-5 まで下げる選択肢もあります。スケジューラはCosineが安定。
| 項目 | 推奨値 |
|---|---|
| Learning rate | 1e-4 |
| Scheduler | cosine |
| Warmup ratio | 0.05〜0.1 |
| Batch size | 1〜2 |
3. データセットは「枚数より質」— 15〜20枚で十分
50枚の凡庸な画像より、15〜20枚の高品質データの方が結果が良いことが2026年の主流コンセンサスです。バリエーションを意図的に確保するのがコツ。
- 角度(正面・斜め・横・後)
- 表情(笑顔・無表情・怒り・驚き)
- ライティング(順光・逆光・夕方)
- 距離(バストアップ・全身・顔アップ)
4. キャプションが品質の8割を決める
FLUX学習で最も軽視されがちで最も重要なのがキャプションです。短いタグ羅列ではなく、自然文の説明 をベースに固有要素を明示します。
A young woman with shoulder-length brunette hair, wearing
a navy blazer, standing in a sunlit kitchen, soft natural light.
- トリガーワード(学習対象の固有名)を必ず先頭に
- 学習させたくない要素(服・背景)も明記して分離
- 不要な詳細はあえて書かない(学習対象がブレる)
5. 解像度は 1024x1024 を基本に
SDXLは768x768で十分でしたが、FLUXは1024x1024が標準 です。データセットも1024準拠でクロップしてください。低解像度データを混ぜると、ディテールの曖昧さが学習されます。
6. GGUF量子化で 8GB VRAMでも訓練可能に
FLUX 2 Pro LoRA は GGUF量子化により VRAM 8GBから訓練可能 になりました(推奨は12GB)。RTX 4060 Ti 8GB やRTX 3060 12GBでも実用的に回ります。
- 8GB: fp8 + GGUF Q5_1相当
- 12GB: fp8 標準
- 24GB+: bf16フルプレシジョン
- mixed precision(bf16)で訓練時間が約半分に
7. ツールチェーンは Kohya-ss / sd-scripts v0.9.1 が安定
学習ツールは多々ありますが、2026年5月時点で Kohya-ss/sd-scripts v0.9.1 が最も安定しています。ComfyUI内蔵の comfyUI-Realtime-Lora も Z-Image・FLUX Klein・SDXLなど複数モデルに対応しており、学習→推論の往復速度を上げたい場合に有効です。
SDXL LoRA学習との設定差まとめ
| 項目 | SDXL | FLUX |
|---|---|---|
| 解像度 | 768x768 | 1024x1024 |
| ステップ数 | 500〜1500 | 1500〜2500 |
| Network dim | 128 | 32〜64 |
| LoRA+ ratio | 16 | 8〜16 |
| Learning rate | 1e-4 | 1e-4(やや低め推奨) |
まとめ
FLUX LoRAは「ステップ多め・LRやや低め・解像度1024・キャプション自然文」 が2026年型の鉄板構成です。データセットの質・キャプション設計が成果の8割を決めるため、ハイパラ調整より先にこの2点に時間をかけるのが結果的に最短ルートになります。
FAQ
Q1. FLUX.1 dev と FLUX.2 でLoRA設定は違う?
A. 基本値は同じですが、FLUX.2系の方がベース能力が高い分、過学習しやすい傾向があるためステップ数は控えめ寄り(1500〜2000)から試すと安全です。
Q2. SDXL用に作ったキャプションは使い回せる?
A. 部分的にはOKですが、FLUXは自然文の方が成果が良いため、タグ羅列形式から自然文への書き換えを推奨します。
Q3. 訓練が10時間以上かかるのは普通?
A. 8GB環境+2000ステップ+GGUFで4〜8時間が目安です。10時間超なら mixed precision(bf16)が有効か確認してください。
Q4. 1ヶ月で何回くらい学習を回せば上達する?
A. データセット差分検証を5〜10サイクル回すと、自分の用途に最適なハイパラが見えてきます。最初の1本で完璧を狙わないのがコツです。