Post

linux大模型cuda安装

我之前一直使用的是5070显卡,显存12g, 只能用9B模型。 想想用个16G的显卡会不会好点。

于是购入了5060TI 16G

工作站参数如下:

cpu 22核44线程

gpu 5060ti 16g

内存 64g

系统 ubuntu 24.04.1-Ubuntu

安装过程

  1. 首先是插入显卡
  2. 准备安装驱动,我这里是重新安装了系统。之前是系统是安装好的,安装驱动莫名其妙的问题,千兆网卡也只有百兆,搞不懂。重装系统就好
  3. 开始安装cuda, 这一路直接参考官网文档安装就行cuda官方地址 image image 按照流程安装就行

    这里备注一个坑,之前我安装的13.2的, 没想到不支持低精度的模型(主要是4bit以下的会回复乱码)。所以这里我安装的12.8的

    安装完成后nvcc --version测试是否安装成功,如果找不到命令则

    • 查看/usr/local/cuda/bin目录是否存在, 也就是是否安装成功
    • 添加/usr/local/cuda/bin到环境~/.bashrc变量
    • 使用source ~/.bashrc应用
  4. 我这里使用的llama.cpp,安装流程如下 在rease页面下载最新版本的源码就行,下载地址llama.cpp

    解压到目录开始编译,编译前确认有cmake

    进入目录执行 cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_COMPILER=$(which nvcc), 如果本地有多版本的nvcc工具,使用 -DCMAKE_CUDA_COMPILER=$(which nvcc)指定编译的版本

    接着执行 cmake --build build --config Release -- -j8,这里j8是使用8核进行并行编译,不然编译速度太慢了

安装流程就差不多完成了。接着就可以下载模型启动了。

实测结果

5060ti 在使用模型性能如下:

qwen3.6-27b-q3的情况下,上下文能给到32k, 30t/s。 如果64就爆显存了,基本只有10t/s

gemma-4-26B-A4B-it-GGUF.gguf,这里也是给32k上下文,结果只有10t/s

Qwen3-14B-Q6_K.gguf, 这里给32k上下文, 64爆显存, 32k只有15t/s

这玩意感觉有点难受,32k上下文能做啥。唉。

5090d 32g 使用模型测试如下: Qwen3.6-27B q5 上下文128k, 63t/s。这个不错的 Qwen3.6-27B q5 上下文256k, 10t/s。爆显存了。

看样子至少得32g显存才能干事,即使24G显存,估计q4模型上下文也只能开64k左右。

这是qwen3-14b q6回答

魔方截图, 未完成, 不能运行,而且这是啥啊,是魔方吗哈哈 image

下面是27bq3回答展示:

俄罗斯方块, 一次完成,能运行, 但是有瑕疵, 下落速度太快而且下落地方像开挂了,可以预瞄准? image

魔方截图,一次完成,能运行

image

贪吃蛇截图, 一次完成,能运行

image

下面是27bq5 128k上下文的回答:

俄罗斯方块,一次完成,无瑕疵,正常玩

image

魔方截图,这个就有点复杂了,第一次生产的代码语法有问题, 提示修改后能运行,但是启动前魔方只有骨架,第三次修改后翻转后翻转面没有颜色,第四次还是没改好,算了不搞了

第二次修改的,回答了2分钟 image

第三次修改,回答了3分钟

image

第四次修改,回答了5分钟,还是没盖好,算了,不试了

image

贪吃蛇,一次完成,无瑕疵,这UI有点东西了

image

总结

个人电脑部署确实也有点难受。

说实话,27bq6的模型还不错,不过至少得32g显存

This post is licensed under CC BY 4.0 by the author.