SLM Parameter Breakdown — Belgavi.AI Lab

Advertisement

d 2048 L vocab Tied

FFN dominates. Attention 2nd. Embedding negligible for big models.

For d=2048, L=24: ~600M params, FFN ~60%, attention ~25%, embedding ~10% (tied).

★ KEY TAKEAWAY

FFN holds ~60% of transformer params. Attention ~25%. Embedding ~10% (tied) or ~20% (untied). For SLMs, embedding share matters more.

▶ WHAT TO TRY