FLUX LoRA学習の最適設定 7つのベストプラクティス — 1024解像度・1e-4・1500-2500step【2026年版】

FLUXは従来のStable Diffusionとは別アーキテクチャ（Flow Matching）であり、SDXL用の感覚で学習すると失敗します。 本記事は2026年5月時点で安定して再現できるFLUX LoRA学習の推奨設定を、データセット・キャプション・ハイパラ・量子化の4軸で7つに整理します。

1. ステップ数は 1500〜2500 がスイートスポット

SDXLの感覚（500〜1000ステップ）でFLUXを学習させると、ほぼ確実にアンダーフィットします。FLUXのFlow Matching構造は 多めのステップが必要 で、1500〜2500の範囲が再現安定ラインです。

1500未満 → 顔・服装の細部が定着しない
2500超 → 過学習・破綻リスク
バッチサイズ 1〜2 を維持

2. 学習率は 1e-4 + Cosine スケジューラ

FLUXはSDXLより 学習率を下げる 必要があります。1e-4 を基準に、訓練データが少ない場合は 5e-5 まで下げる選択肢もあります。スケジューラはCosineが安定。

項目	推奨値
Learning rate	1e-4
Scheduler	cosine
Warmup ratio	0.05〜0.1
Batch size	1〜2

3. データセットは「枚数より質」— 15〜20枚で十分

50枚の凡庸な画像より、15〜20枚の高品質データの方が結果が良いことが2026年の主流コンセンサスです。バリエーションを意図的に確保するのがコツ。

角度（正面・斜め・横・後）
表情（笑顔・無表情・怒り・驚き）
ライティング（順光・逆光・夕方）
距離（バストアップ・全身・顔アップ）

4. キャプションが品質の8割を決める

FLUX学習で最も軽視されがちで最も重要なのがキャプションです。短いタグ羅列ではなく、自然文の説明 をベースに固有要素を明示します。

A young woman with shoulder-length brunette hair, wearing
a navy blazer, standing in a sunlit kitchen, soft natural light.

トリガーワード（学習対象の固有名）を必ず先頭に
学習させたくない要素（服・背景）も明記して分離
不要な詳細はあえて書かない（学習対象がブレる）

5. 解像度は 1024x1024 を基本に

SDXLは768x768で十分でしたが、FLUXは1024x1024が標準 です。データセットも1024準拠でクロップしてください。低解像度データを混ぜると、ディテールの曖昧さが学習されます。

6. GGUF量子化で 8GB VRAMでも訓練可能に

FLUX 2 Pro LoRA は GGUF量子化により VRAM 8GBから訓練可能 になりました（推奨は12GB）。RTX 4060 Ti 8GB やRTX 3060 12GBでも実用的に回ります。

8GB： fp8 + GGUF Q5_1相当
12GB： fp8 標準
24GB+： bf16フルプレシジョン
mixed precision（bf16）で訓練時間が約半分に

7. ツールチェーンは Kohya-ss / sd-scripts v0.9.1 が安定

学習ツールは多々ありますが、2026年5月時点で Kohya-ss/sd-scripts v0.9.1 が最も安定しています。ComfyUI内蔵の comfyUI-Realtime-Lora も Z-Image・FLUX Klein・SDXLなど複数モデルに対応しており、学習→推論の往復速度を上げたい場合に有効です。

SDXL LoRA学習との設定差まとめ

項目	SDXL	FLUX
解像度	768x768	1024x1024
ステップ数	500〜1500	1500〜2500
Network dim	128	32〜64
LoRA+ ratio	16	8〜16
Learning rate	1e-4	1e-4（やや低め推奨）

まとめ

FLUX LoRAは「ステップ多め・LRやや低め・解像度1024・キャプション自然文」 が2026年型の鉄板構成です。データセットの質・キャプション設計が成果の8割を決めるため、ハイパラ調整より先にこの2点に時間をかけるのが結果的に最短ルートになります。

FAQ

Q1. FLUX.1 dev と FLUX.2 でLoRA設定は違う？

A. 基本値は同じですが、FLUX.2系の方がベース能力が高い分、過学習しやすい傾向があるためステップ数は控えめ寄り（1500〜2000）から試すと安全です。

Q2. SDXL用に作ったキャプションは使い回せる？

A. 部分的にはOKですが、FLUXは自然文の方が成果が良いため、タグ羅列形式から自然文への書き換えを推奨します。

Q3. 訓練が10時間以上かかるのは普通？

A. 8GB環境＋2000ステップ＋GGUFで4〜8時間が目安です。10時間超なら mixed precision（bf16）が有効か確認してください。

Q4. 1ヶ月で何回くらい学習を回せば上達する？

A. データセット差分検証を5〜10サイクル回すと、自分の用途に最適なハイパラが見えてきます。最初の1本で完璧を狙わないのがコツです。