linux大模型cuda安装
我之前一直使用的是5070显卡,显存12g, 只能用9B模型。 想想用个16G的显卡会不会好点。
于是购入了5060TI 16G
工作站参数如下:
cpu 22核44线程
gpu 5060ti 16g
内存 64g
系统 ubuntu 24.04.1-Ubuntu
安装过程
- 首先是插入显卡
- 准备安装驱动,我这里是重新安装了系统。之前是系统是安装好的,安装驱动莫名其妙的问题,千兆网卡也只有百兆,搞不懂。重装系统就好
-
开始安装cuda, 这一路直接参考官网文档安装就行cuda官方地址
按照流程安装就行
这里备注一个坑,之前我安装的13.2的, 没想到不支持低精度的模型(主要是4bit以下的会回复乱码)。所以这里我安装的12.8的
安装完成后
nvcc --version测试是否安装成功,如果找不到命令则- 查看
/usr/local/cuda/bin目录是否存在, 也就是是否安装成功 - 添加
/usr/local/cuda/bin到环境~/.bashrc变量 - 使用
source ~/.bashrc应用
- 查看
-
我这里使用的llama.cpp,安装流程如下 在rease页面下载最新版本的源码就行,下载地址llama.cpp
解压到目录开始编译,编译前确认有cmake
进入目录执行
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_COMPILER=$(which nvcc), 如果本地有多版本的nvcc工具,使用-DCMAKE_CUDA_COMPILER=$(which nvcc)指定编译的版本接着执行
cmake --build build --config Release -- -j8,这里j8是使用8核进行并行编译,不然编译速度太慢了
安装流程就差不多完成了。接着就可以下载模型启动了。
实测结果
5060ti 在使用模型性能如下:
qwen3.6-27b-q3的情况下,上下文能给到32k, 30t/s。 如果64就爆显存了,基本只有10t/s
gemma-4-26B-A4B-it-GGUF.gguf,这里也是给32k上下文,结果只有10t/s
Qwen3-14B-Q6_K.gguf, 这里给32k上下文, 64爆显存, 32k只有15t/s
这玩意感觉有点难受,32k上下文能做啥。唉。
5090d 32g 使用模型测试如下: Qwen3.6-27B q5 上下文128k, 63t/s。这个不错的 Qwen3.6-27B q5 上下文256k, 10t/s。爆显存了。
看样子至少得32g显存才能干事,即使24G显存,估计q4模型上下文也只能开64k左右。
这是qwen3-14b q6回答
下面是27bq3回答展示:
俄罗斯方块, 一次完成,能运行, 但是有瑕疵, 下落速度太快而且下落地方像开挂了,可以预瞄准?
魔方截图,一次完成,能运行
贪吃蛇截图, 一次完成,能运行
下面是27bq5 128k上下文的回答:
俄罗斯方块,一次完成,无瑕疵,正常玩
魔方截图,这个就有点复杂了,第一次生产的代码语法有问题, 提示修改后能运行,但是启动前魔方只有骨架,第三次修改后翻转后翻转面没有颜色,第四次还是没改好,算了不搞了
第三次修改,回答了3分钟
第四次修改,回答了5分钟,还是没盖好,算了,不试了
贪吃蛇,一次完成,无瑕疵,这UI有点东西了
总结
个人电脑部署确实也有点难受。
说实话,27bq6的模型还不错,不过至少得32g显存