ollama修改配置使用多GPU,使用EvalScope进行模型压力测试,查看使用负载均衡前后的性能区别
文章目录
省流结论
机器配置
不同量化模型占用显存
1. 创建虚拟环境
2. 创建测试jsonl文件
3. 新建测试脚本
3. 默认加载方式,单卡运行模型
3.1 7b模型输出213 tok/s
3.1 32b模型输出81 tok/s
3.1 70b模型输出43tok/s
4. 使用负载均衡,多卡运行
4.1 7b模型输出217to