Guide › Glossary › Disaggregated serving

Disaggregated serving · P/D disaggregation

Running prefill and decode on separate GPU pools so each scales independently for better efficiency.