环境
系统:CentOS-7
CPU: 14C28T
内存:32G
显卡:Tesla P40 24G
驱动: 515
CUDA: 11.7
cuDNN: 8.9.2.26
Ollama:v0.1.32
标准洋垃圾
执行命令
ollama run xxxx:latest --verbose
--verbose 带指标的运行
问题
1.你好(预热)
2.请写一篇200字的关于山的散文
3.请写一篇200字的关于水的散文
4.请写一篇200字的关于大海的散文
2.3.4 随机一次
模型列表
[root@ai-server ollama]# ollama list
NAME ID SIZE MODIFIED
gemma:2b b50d6c999e59 1.7 GB 2 days ago
internlm2:latest 46cde8aad8ff 4.7 GB 3 days ago
llama-3-8b:latest a33dde62027d 4.9 GB 6 minutes ago
mistral-7b:latest fe7ebabb08f5 4.1 GB 2 days ago
mixtral-7_8b:latest 7b96df9a349a 26 GB 2 days ago
qweb-14b:latest 6137264107d3 9.4 GB 2 days ago
qwen:0.5b-chat-v1.5-q4_K_M e1c9c6192a7e 407 MB 2 days ago
qwen1.5-14b:latest 3cc8bb79440c 9.2 GB 2 days ago
qwen1.5-32b:latest 96743882fd6d 19 GB 6 hours ago
qwen1.5-72b-q2:latest ac5b2e824d5c 28 GB 6 hours ago
qwen1.5-moe:latest b3247e5069ed 10 GB 2 days ago
自己模型列表,本地gguf文件加载,非直接ollama下载
qwen1.5-14B
命令
ollama run qwen1.5-14b:latest --verbose
CPU
100% 很小 28T
内存
忽略
GPU
| N/A 46C P0 162W / 250W | 10518MiB / 23040MiB | 91% Default |
速度指标
total duration: 8.553113606s
load duration: 1.596673ms
prompt eval count: 22 token(s)
prompt eval duration: 220.577ms
prompt eval rate: 99.74 tokens/s
eval count: 146 token(s)
eval duration: 8.037546s
eval rate: 18.16 tokens/s
qwen1.5-32b
命令
ollama run qwen1.5-32b:latest --verbose
CPU
80% 很小 28T
内存
忽略
GPU
| N/A 46C P0 174W / 250W | 19436MiB / 23040MiB | 97% Default |
速度指标
total duration: 20.167482245s
load duration: 2.789556ms
prompt eval count: 20 token(s)
prompt eval duration: 470.535ms
prompt eval rate: 42.50 tokens/s
eval count: 177 token(s)
eval duration: 19.48729s
eval rate: 9.08 tokens/s
总结
Tesla-P40还是挺令我惊讶的,14B模型速度还是非常好的,有机会大家可以用来试试
其他模型下载中。。。。