AMD ROCm 系统管理接口 (SMI) 输入插件
此插件收集 AMD ROCm 平台 GPU 的统计信息,包括内存和 GPU 使用率、温度等。
需要安装 rocm-smi 二进制文件。
引入版本: Telegraf v1.20.0 标签: hardware, system 操作系统支持: all
全局配置选项
插件支持其他全局和插件配置设置,用于修改指标、标签和字段,创建别名以及配置插件顺序等任务。更多详情请参阅 CONFIGURATION.md。
启动错误行为选项
除了插件特定的和全局的配置设置外,该插件还支持使用 startup_error_behavior 设置来指定出现启动错误时的行为。可用值如下:
error:如果出现启动错误,Telegraf 将停止并退出。这是默认行为。ignore:Telegraf 将忽略此插件的启动错误,并禁用它,但会继续处理所有其他插件。retry:不可用
配置
# Query statistics from AMD Graphics cards using rocm-smi binary
[[inputs.amd_rocm_smi]]
## Optional: path to rocm-smi binary, defaults to $PATH via exec.LookPath
# bin_path = "/opt/rocm/bin/rocm-smi"
## Optional: timeout for GPU polling
# timeout = "5s"Metrics
- 测量:
amd_rocm_smi标签 (tags)
name(由 rocm-smi 可执行文件分配的条目名称)gpu_id(rocm-smi 标识的 GPU ID)gpu_unique_id(GPU 的唯一 ID)
字段 (fields)
driver_version(整数)fan_speed(整数)memory_total(整数, B)memory_used(整数, B)memory_free(整数, B)temperature_sensor_edge(浮点数, 摄氏度)temperature_sensor_junction(浮点数, 摄氏度)temperature_sensor_memory(浮点数, 摄氏度)utilization_gpu(整数, 百分比)utilization_memory(整数, 百分比)clocks_current_sm(整数, Mhz)clocks_current_memory(整数, Mhz)clocks_current_display(整数, Mhz)clocks_current_fabric(整数, Mhz)clocks_current_system(整数, Mhz)power_draw(浮点数, 瓦特)card_series(字符串)card_model(字符串)card_vendor(字符串)
故障排除
通过手动运行 rocm-smi 可执行文件来查看完整的输出。
Linux
rocm-smi rocm-smi -o -l -m -M -g -c -t -u -i -f -p -P -s -S -v --showreplaycount --showpids --showdriverversion --showmemvendor --showfwinfo --showproductname --showserial --showuniqueid --showbus --showpendingpages --showpagesinfo --showretiredpages --showunreservablepages --showmemuse --showvoltage --showtopo --showtopoweight --showtopohops --showtopotype --showtoponuma --showmeminfo all --json如果您在 GitHub 上提交问题,请附上此命令的输出以及 ROCm 版本。
示例输出
amd_rocm_smi,gpu_id=0x6861,gpu_unique_id=0x2150e7d042a1124,host=ali47xl,name=card0 clocks_current_memory=167i,clocks_current_sm=852i,driver_version=51114i,fan_speed=14i,memory_free=17145282560i,memory_total=17163091968i,memory_used=17809408i,power_draw=7,temperature_sensor_edge=28,temperature_sensor_junction=29,temperature_sensor_memory=92,utilization_gpu=0i 1630572551000000000
amd_rocm_smi,gpu_id=0x6861,gpu_unique_id=0x2150e7d042a1124,host=ali47xl,name=card0 clocks_current_memory=167i,clocks_current_sm=852i,driver_version=51114i,fan_speed=14i,memory_free=17145282560i,memory_total=17163091968i,memory_used=17809408i,power_draw=7,temperature_sensor_edge=29,temperature_sensor_junction=30,temperature_sensor_memory=91,utilization_gpu=0i 1630572701000000000
amd_rocm_smi,gpu_id=0x6861,gpu_unique_id=0x2150e7d042a1124,host=ali47xl,name=card0 clocks_current_memory=167i,clocks_current_sm=852i,driver_version=51114i,fan_speed=14i,memory_free=17145282560i,memory_total=17163091968i,memory_used=17809408i,power_draw=7,temperature_sensor_edge=29,temperature_sensor_junction=29,temperature_sensor_memory=92,utilization_gpu=0i 1630572749000000000限制和注意事项
请注意,此插件已在有限数量的版本和少量 GPU 上开发和测试。目前测试的最新 ROCm 版本是 4.3.0。请注意,根据设备和驱动程序版本,rocm-smi 提供的信息量可能会有所不同,因此某些字段在更新后可能会开始/停止出现在指标中。rocm-smi 的 JSON 输出并不完全一致,并且将来可能会发生变化,因此在更新 ROCm 时,解析和解组可能会开始失败。
灵感来源于 nvidia-smi 插件的当前技术水平。
此页面是否有帮助?
感谢您的反馈!
支持和反馈
感谢您成为我们社区的一员!我们欢迎并鼓励您对 Telegraf 和本文档提出反馈和 bug 报告。要获取支持,请使用以下资源
具有年度合同或支持合同的客户可以 联系 InfluxData 支持。