vLLM ✓
平台介绍
vLLM是开源的高吞吐量LLM推理引擎,采用PagedAttention技术优化显存使用。支持连续批处理和分布式推理,推理吞吐量提升10-20倍。是部署开源LLM的首选推理引擎。
支持模型
价格信息
开源免费
vLLM是开源的高吞吐量LLM推理引擎,采用PagedAttention技术优化显存使用。支持连续批处理和分布式推理,推理吞吐量提升10-20倍。是部署开源LLM的首选推理引擎。