Forward vs Backward FLOPs — Belgavi.AI Lab

Advertisement

Model size Seq

Forward ≈ 2·params·seq FLOPs. Backward ~2× more.

One training step ~3× the inference compute. Plus optimizer step.

★ KEY TAKEAWAY

Forward FLOPs ≈ 2·params·seq. Backward is 2× more. Total step ≈ 3× forward. Plus the optimizer step.

▶ WHAT TO TRY