結論:RTX 50シリーズを使っているなら、ComfyUIのモデルをNVFP4チェックポイントに差し替えるだけで最大3倍高速・VRAM60%削減が狙えます。 さらにAsync OffloadとPinned Memoryは旧世代GPUでも効く全環境共通の最適化です。本記事ではNVFP4とFP8の違い、対応モデル、具体的な導入手順までをSD実務者向けにまとめます。
NVFP4とは何か
NVFP4はNVIDIAが推進する4ビット浮動小数点形式で、RTX 50シリーズがネイティブにハードウェア対応しています。従来のFP8(8ビット)よりさらにデータ量を圧縮しつつ、専用ハードウェアにより速度低下や品質劣化を最小限に抑えられるのが特徴です。
| 項目 | FP16 | NVFP8 | NVFP4 |
|---|---|---|---|
| ビット幅 | 16bit | 8bit | 4bit |
| VRAM消費 | 基準 | 約半分 | 約40%(60%削減) |
| 速度(RTX 50) | 基準 | 高速 | 最大3倍 |
| 画質 | 最高 | ほぼ同等 | ネイティブFP4で実用十分 |
ポイントは、NVFP4の恩恵を最大限受けられるのはFP4ハードウェアを持つRTX 50シリーズだという点です。旧世代では速度メリットが限定的になります。
対応モデル
NVFP4 / NVFP8チェックポイントは主要モデルでComfyUI向けに配布されています。
- LTX-2(Lightricks/動画)
- FLUX.1・FLUX.2(Black Forest Labs)
- Qwen-Image・Z-Image(Alibaba)
導入手順(HowTo)
手順1:ComfyUIを最新版に更新する
NVFP4対応は比較的新しい機能のため、まずComfyUIを最新版へ更新します。ComfyUI ManagerまたはGit pullで本体を更新し、再起動してください。
手順2:NVFP4 / FP8チェックポイントを入手する
Hugging Faceから対象モデルのNVFP4またはFP8チェックポイントをダウンロードし、ComfyUI/models/checkpoints/ に配置します。VRAMに余裕があるならNVFP4、RTX 40以前ならFP8が無難です。
手順3:テンプレートワークフローを読み込む
ComfyUIのTemplate Browserからデフォルトワークフロー(FLUXやLTX-2など)を読み込みます。
手順4:チェックポイントを差し替える
ワークフロー内のCheckpoint Loaderで、デフォルトモデルをダウンロードしたNVFP4/FP8チェックポイントに変更します。基本はこれだけで高速化が反映されます。
手順5:Async Offload / Pinned Memoryを確認する
Async OffloadとPinned Memoryは2026年12月のアップデートでデフォルト有効化されています。手動で無効化していない限り、追加設定なしでサンプリング速度が10〜50%改善します。
RTX 50を持っていない場合の最適化
NVFP4のフル恩恵はRTX 50限定ですが、それ以外のGPUでも次の最適化が有効です。
- Async Offload / Pinned Memory:全NVIDIA GPUで有効。サンプリング10〜50%高速化
- FP8チェックポイント:VRAMを約半分に抑えられる
- GGUF量子化(Q4/Q8):VRAMが厳しい環境向け。T5 CPUオフロードと併用
トラブルシューティング
- 速度が上がらない:RTX 40以前ではNVFP4のハード加速が効きません。FP8へ切り替えを。
- 品質が落ちた:低ビット量子化の影響。重要案件はFP8またはFP16で再生成を。
- VRAM不足エラー:Async Offloadが無効化されていないか、テキストエンコーダのCPUオフロードを確認。
まとめ
NVFP4はRTX 50シリーズにとって「チェックポイントを差し替えるだけ」で大きな高速化とVRAM削減が得られる強力な選択肢です。旧世代GPUでもAsync Offload/Pinned MemoryとFP8/GGUFで底上げが可能です。最新のニュース全体像はこちらの最新ニュースまとめも参照してください。
よくある質問(FAQ)
Q1. NVFP4とFP8はどちらを選ぶべきですか?
RTX 50シリーズならNVFP4で速度・VRAMの両得。RTX 40以前はFP8の方が安定して恩恵を得られます。
Q2. 画質はFP16と比べて落ちますか?
ネイティブFP4ハードウェア上では実用十分な品質を保ちます。ただし最終納品など品質最優先の場面ではFP8/FP16での再生成を推奨します。
Q3. 動画生成でも効果はありますか?
あります。LTX-2のNVFP4チェックポイントを使うことで4K動画生成が高速化し、RTX Video Super Resolutionと併用すれば数秒で4Kアップスケールも可能です。
Q4. 既存のLoRAはNVFP4モデルでも使えますか?
基本的に同一ベースモデルのLoRAは利用可能ですが、量子化との相性で効きが変わる場合があります。重要な案件では適用結果を必ず確認してください。