从本地部署、vLLM推理到LoRA微调与量化全流程

从本地部署、vLLM推理到LoRA微调与量化全流程

培训天数/课时:2天/ 16课时


本课程是为开发者和技术决策者量身打造的沉浸式实战训练营,系统讲解大语言模型在企业环境下的落地全流程。课程将带您从零开始。

第一部分:深入掌握Ollama平台实现本地轻量级模型部署(如DeepSeek、Qwen),并对比实践Hugging Face与魔塔社区(ModelScope)的模型下载、推理与免费算力资源利用,为您厘清本地部署与云端服务的成本与选型策略。

第二部分:聚焦生产级部署,学习在租用算力(如AutoDL)上使用vLLM实现高性能模型推理服务部署,并通过OpenWebUI构建聊天应用;同时夯实理论基础,透彻理解Transformer架构、注意力机制、训练流程与RLHF。

第三部分:进阶实战,运用LLaMA-Factory框架完成LoRA微调全生命周期:从数据集构建(含知识库转化)、超参数调优、模型训练测试,到模型量化压缩、合并导出,最终实现微调模型在Ollama/vLLM环境的高效部署。通过本课程,您将具备企业级大模型应用开发、优化与私有化落地的核心能力。


课程大纲:

Ollama、Huggingface和魔塔社区平台使用(第一部分)

大语言模型简介

***大模型发展历程

***国内和国外大模型厂商和产品

***大模型分类和使用

业务本地化部署大模型应用

***部署本地化大模型的意义

***本地化部署还是租用算力服务器

***如何进行成本测算

Ollama简介

***Ollama安装和常用参数配置

***Ollama大模型介绍

***Ollama部署deepseek和Qwen

***管理和部署本地大模型

基于Ollama的Web构建

ChatBox安装和使用

huggingface简介

***注册和安装、模型探索

***下载模型、模型推理和使用

Modelscope简介

***学习使用Modelscope提供的免费算力服务器

***搭建python开发环境

***模型下载和推理使用

Ollama、Modelscope和Huggingface对比和选择

理解模型规模、GPU选型和服务器选型


vLLM部署和大模型理论基础(第二部分)

租用AUTODL算力服务器

***大模型模型选择和服务器/显卡选择

***搭建python环境

***实现大模型推理

Transformers安装和使用:模型推理、Pipeline和文本生成

vLLM 简介和和安装

使用vLLM实现模型推理

使用vllm实现部署模型(deepseek-r1和Qwen3和嵌入模型等)

OpenWebUI搭建大模型聊天应用

***下载和安装

***大模型的常用配置

***实现聊天应用

理解大模型原理基础

***大模型是如何训练的?

***理解注意力机制

***理解Transformer架构

***生成语言基础模型GPT

***理解强化学习RLHF流程与思想

什么是模型微调

微调的概念和流程

理解LoRA工作原理

LoRA微调流程

 

使用LLaMA-Factory实现模型微调和量化(第三部分)

LLaMA-Factory框架简介

安装LLaMA-Factory框架并搭建微调环境

基座模型选择和下载:根据微调任务选择不同的基座模型

微调数据集准备:

***理解identity.json认知数据集

***微调数据集的结构解析

***使用deepseek和知识库生成微调数据集

开始使用LoRA训练模型

使用训练模型进行聊天测试

理解模型训练之超参数调优

合并和导出模型

使用训练后模型进行测试

理解量化理论机制

***什么是模型量化

***模型量化机制探讨

***实现将Lora模型进行量化

将导出模型转成Ollama,实现部署

使用vLLM部署微调模型

搭建和使用LLaMA-Factory WebUI

使用WEBUI实现模型Lora微调、合并和导出

使用代码方式使用Lora模型微调

使用代码方式实现Lora模型合并和导出

课程推荐

最新课表
免费课程预约