Speculative Decoding Acceptance

Advertisement

Accept rate 65%

Draft proposes K tokens. Big model verifies in parallel. Keep accepted prefix.

Acceptance rate 60-80% typical. K=4 with 70% accept → ~3 tokens per big-model step → ~3× speedup.

★ KEY TAKEAWAY

Speculative decoding: draft proposes K tokens, big model verifies in parallel. 60-80% acceptance → 1.5-3× speedup at zero quality cost.

▶ WHAT TO TRY