📰 来源: 博客园 随着大语言模型(Large Language Model,LLM)全面步入实际应用阶段,推理部署框架成为模型落地进程中必不可少的重要组成部分。不同框架在性能优化方式、部署复杂度以及适用场景上差异较大,在实际工程选型中往往需要先理解其基本定位与使用方式。关于模型推理部署基础概念的介绍,可参考:大模型学习6-模型量化与推理部署。 本文将对当前常见的LLM推理框架进行简要梳理,并聚焦于本地推理场景中极具代表性的llama.cpp与Ollama,介绍它们的核心原理及基础用法。另一广泛使用的生产级框架vL…