VMware ESXi 安装 NVIDIA vGPU 固件
前言
23.12.02 到的 NVIDIA Tesla P4
已经上机跑了两个星期
终于要给他打驱动
下载 NVIDIA vGPU 驱动
大佬们都建议先查询硬件兼容性
1 | https://www.nvidia.com/zh-cn/data-center/resources/vgpu-certified-servers/ |
但是我们的洋垃圾有什么兼容性
我是折腾怪就直接跳过了
官方下载
- 以下参考
丁辉大佬博客
1 | https://ui.licensing.nvidia.com/software |
第三方下载
1 | https://github.com/justin-himself/NVIDIA-VGPU-Driver-Archive |
安装 NVIDIA vGPU 驱动
- 本次以
vGPU 15.x及之后版本做为测试环境
安装准备
操作-->服务-->启用 SSH
- 将下载的
vGPU驱动解压获取Host_Drivers下的文件
- 使用
WinSCP上传文件到ESXi的/tmp/目录上
- 上传超过
200MB还是上传到ESXi的存储空间 - 然后记得要好好记住存储空间硬盘的
UUID
- 主机设置为
维护模式
1 | esxcli system maintenanceMode set --enable true |
- 使用
Putty登录我们ESXi的SSH
安装 VIB 驱动
- 注意使用绝对路径
1 | esxcli software vib install -d /tmp/NVD-VGPU*.zip |
安装完成之后建议重启一下
完善 NVIDIA vGPU 驱动
查看驱动情况
1 | nvidia-smi |
我们需要从这个表里面留意两个点
ECC区域显示是0而不是off
这说明你现在的 ECC 是启用的状态,并不是所有 vGPU 都可以使用 ECC ,如果你不能确认你的环境是否需要启用 ECC,那建议先关闭 ECC 。
Process name显示是Xorg
默认情况下 vSphere 会使用共享 (vsga) 模式,而不是直接共享 (vGPU) 模式,所以能出现最下面 Xorg 条目。
关闭 ECC 功能
其实也就是一条指令的问题
1 | nvidia-smi -e 0 |
然后我们继续重启再看一下
切换 vGPU 模式
- 登录
vSphere Client
主机-->配置-->硬件-->图形
- 切换
直接共享
升级 Nvidia vGPU 驱动
升级前准备
升级前需要关闭 nvdGpuMgmtDaemon 服务
1 | /etc/init.d/nvdGpuMgmtDaemon stop |
升级方法
- 该方法仅用于
ESXi 7.0+版本
1 | esxcli software component apply -d /tmp/NVD-VGPU*.zip |
卸载 Nvidia vGPU 驱动
查找显卡驱动
1 | esxcli software vib list | grep <Firmware_Version> |
卸载显卡驱动
- 先卸载
nvdgpumgmtdaemon
1 | esxcli software vib remove --vibname=<Firmware_Name> |
参考 & 引用
https://www.dingqian.net/index.php/archives/9/
https://www.dinghui.org/vmware-esxi-nvidia-gpu.html
http://www.xinuozhineng.com/ziliao/148.html
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 JimLeon595!
