Ray

最好的种树时间是十年前,其次是现在

linux大模型cuda安装

Posted May 13, 2026 Updated May 14, 2026

By ray.zhang 5 min read

我之前一直使用的是5070显卡，显存12g, 只能用9B模型。想想用个16G的显卡会不会好点。

于是购入了5060TI 16G

工作站参数如下：

cpu 22核44线程

gpu 5060ti 16g

内存 64g

系统 ubuntu 24.04.1-Ubuntu

安装过程

首先是插入显卡
准备安装驱动，我这里是重新安装了系统。之前是系统是安装好的，安装驱动莫名其妙的问题，千兆网卡也只有百兆，搞不懂。重装系统就好
开始安装cuda, 这一路直接参考官网文档安装就行cuda官方地址按照流程安装就行

这里备注一个坑，之前我安装的13.2的，没想到不支持低精度的模型（主要是4bit以下的会回复乱码）。所以这里我安装的12.8的

安装完成后nvcc --version测试是否安装成功,如果找不到命令则
- 查看/usr/local/cuda/bin目录是否存在, 也就是是否安装成功
- 添加/usr/local/cuda/bin到环境~/.bashrc变量
- 使用source ~/.bashrc应用
我这里使用的llama.cpp，安装流程如下在rease页面下载最新版本的源码就行,下载地址llama.cpp

解压到目录开始编译，编译前确认有cmake

进入目录执行 cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_COMPILER=$(which nvcc), 如果本地有多版本的nvcc工具，使用 -DCMAKE_CUDA_COMPILER=$(which nvcc)指定编译的版本

接着执行 cmake --build build --config Release -- -j8,这里j8是使用8核进行并行编译，不然编译速度太慢了

安装流程就差不多完成了。接着就可以下载模型启动了。

实测结果

5060ti 在使用模型性能如下:

qwen3.6-27b-q3的情况下，上下文能给到32k， 30t/s。如果64就爆显存了，基本只有10t/s

gemma-4-26B-A4B-it-GGUF.gguf，这里也是给32k上下文，结果只有10t/s

Qwen3-14B-Q6_K.gguf, 这里给32k上下文, 64爆显存， 32k只有15t/s

这玩意感觉有点难受，32k上下文能做啥。唉。

5090d 32g 使用模型测试如下: Qwen3.6-27B q5 上下文128k， 63t/s。这个不错的 Qwen3.6-27B q5 上下文256k， 10t/s。爆显存了。

看样子至少得32g显存才能干事，即使24G显存，估计q4模型上下文也只能开64k左右。

这是qwen3-14b q6回答

魔方截图, 未完成, 不能运行，而且这是啥啊，是魔方吗哈哈

下面是27bq3回答展示：

俄罗斯方块, 一次完成，能运行，但是有瑕疵，下落速度太快而且下落地方像开挂了，可以预瞄准？

魔方截图，一次完成，能运行

贪吃蛇截图，一次完成，能运行

下面是27bq5 128k上下文的回答：

俄罗斯方块，一次完成，无瑕疵，正常玩

魔方截图，这个就有点复杂了，第一次生产的代码语法有问题，提示修改后能运行，但是启动前魔方只有骨架，第三次修改后翻转后翻转面没有颜色，第四次还是没改好，算了不搞了

第二次修改的，回答了2分钟

第三次修改，回答了3分钟

第四次修改，回答了5分钟，还是没盖好，算了，不试了

贪吃蛇，一次完成，无瑕疵，这UI有点东西了

总结

个人电脑部署确实也有点难受。

说实话，27bq6的模型还不错，不过至少得32g显存

大模型, cuda

llama.cpp

This post is licensed under CC BY 4.0 by the author.

Trending Tags

winhex angularjs go交叉编译 mybatis mysql常用命令 php sql优化命令脚本爬虫翻译