前言

23.12.02 到的 NVIDIA Tesla P4
已经上机跑了两个星期
终于要给他打驱动

下载 NVIDIA vGPU 驱动

大佬们都建议先查询硬件兼容性

1
https://www.nvidia.com/zh-cn/data-center/resources/vgpu-certified-servers/

但是我们的洋垃圾有什么兼容性
我是折腾怪就直接跳过了

官方下载

  • 以下参考 丁辉 大佬博客
1
https://ui.licensing.nvidia.com/software

第三方下载

1
https://github.com/justin-himself/NVIDIA-VGPU-Driver-Archive

安装 NVIDIA vGPU 驱动

  • 本次以 vGPU 15.x 及之后版本做为测试环境

安装准备

  1. 操作 --> 服务 --> 启用 SSH
  1. 将下载的 vGPU 驱动解压获取 Host_Drivers 下的文件
  1. 使用 WinSCP 上传文件到 ESXi/tmp/ 目录上
  • 上传超过 200MB 还是上传到 ESXi 的存储空间
  • 然后记得要好好记住存储空间硬盘的 UUID
  1. 主机设置为 维护模式
1
esxcli system maintenanceMode set --enable true
  1. 使用 Putty 登录我们 ESXiSSH

安装 VIB 驱动

  • 注意使用绝对路径
1
2
esxcli software vib install -d /tmp/NVD-VGPU*.zip
esxcli software vib install -d /tmp/nvd-gpu-mgmt-daemon*.zip

安装完成之后建议重启一下

完善 NVIDIA vGPU 驱动

查看驱动情况

1
nvidia-smi

我们需要从这个表里面留意两个点

  1. ECC 区域显示是 0 而不是 off

这说明你现在的 ECC 是启用的状态,并不是所有 vGPU 都可以使用 ECC ,如果你不能确认你的环境是否需要启用 ECC,那建议先关闭 ECC 。

  1. Process name 显示是 Xorg

默认情况下 vSphere 会使用共享 (vsga) 模式,而不是直接共享 (vGPU) 模式,所以能出现最下面 Xorg 条目。

关闭 ECC 功能

其实也就是一条指令的问题

1
nvidia-smi -e 0

然后我们继续重启再看一下

切换 vGPU 模式

  1. 登录 vSphere Client
  1. 主机 --> 配置 --> 硬件 --> 图形
  1. 切换 直接共享

升级 Nvidia vGPU 驱动

升级前准备

升级前需要关闭 nvdGpuMgmtDaemon 服务

1
/etc/init.d/nvdGpuMgmtDaemon stop

升级方法

  • 该方法仅用于 ESXi 7.0+ 版本
1
2
esxcli software component apply -d /tmp/NVD-VGPU*.zip
esxcli software component apply -d /tmp/nvd-gpu-mgmt-daemon*.zip

卸载 Nvidia vGPU 驱动

查找显卡驱动

1
esxcli software vib list | grep <Firmware_Version>

卸载显卡驱动

  • 先卸载 nvdgpumgmtdaemon
1
esxcli software vib remove --vibname=<Firmware_Name>

参考 & 引用

https://www.dingqian.net/index.php/archives/9/
https://www.dinghui.org/vmware-esxi-nvidia-gpu.html
http://www.xinuozhineng.com/ziliao/148.html