文档文档

AMD ROCm 系统管理接口 (SMI) 输入插件

此插件收集 AMD ROCm 平台 GPU 的统计信息,包括内存和 GPU 使用率、温度等。

需要安装 rocm-smi 二进制文件

引入版本: Telegraf v1.20.0 标签: hardware, system 操作系统支持: all

全局配置选项

插件支持其他全局和插件配置设置,用于修改指标、标签和字段,创建别名以及配置插件顺序等任务。更多详情请参阅 CONFIGURATION.md

启动错误行为选项

除了插件特定的和全局的配置设置外,该插件还支持使用 startup_error_behavior 设置来指定出现启动错误时的行为。可用值如下:

  • error:如果出现启动错误,Telegraf 将停止并退出。这是默认行为。
  • ignore:Telegraf 将忽略此插件的启动错误,并禁用它,但会继续处理所有其他插件。
  • retry:不可用

配置

# Query statistics from AMD Graphics cards using rocm-smi binary
[[inputs.amd_rocm_smi]]
  ## Optional: path to rocm-smi binary, defaults to $PATH via exec.LookPath
  # bin_path = "/opt/rocm/bin/rocm-smi"

  ## Optional: timeout for GPU polling
  # timeout = "5s"

Metrics

  • 测量:amd_rocm_smi
    • 标签 (tags)

      • name (由 rocm-smi 可执行文件分配的条目名称)
      • gpu_id (rocm-smi 标识的 GPU ID)
      • gpu_unique_id (GPU 的唯一 ID)
    • 字段 (fields)

      • driver_version (整数)
      • fan_speed (整数)
      • memory_total (整数, B)
      • memory_used (整数, B)
      • memory_free (整数, B)
      • temperature_sensor_edge (浮点数, 摄氏度)
      • temperature_sensor_junction (浮点数, 摄氏度)
      • temperature_sensor_memory (浮点数, 摄氏度)
      • utilization_gpu (整数, 百分比)
      • utilization_memory (整数, 百分比)
      • clocks_current_sm (整数, Mhz)
      • clocks_current_memory (整数, Mhz)
      • clocks_current_display (整数, Mhz)
      • clocks_current_fabric (整数, Mhz)
      • clocks_current_system (整数, Mhz)
      • power_draw (浮点数, 瓦特)
      • card_series (字符串)
      • card_model (字符串)
      • card_vendor (字符串)

故障排除

通过手动运行 rocm-smi 可执行文件来查看完整的输出。

Linux

rocm-smi rocm-smi -o -l -m -M  -g -c -t -u -i -f -p -P -s -S -v --showreplaycount --showpids --showdriverversion --showmemvendor --showfwinfo --showproductname --showserial --showuniqueid --showbus --showpendingpages --showpagesinfo --showretiredpages --showunreservablepages --showmemuse --showvoltage --showtopo --showtopoweight --showtopohops --showtopotype --showtoponuma --showmeminfo all --json

如果您在 GitHub 上提交问题,请附上此命令的输出以及 ROCm 版本。

示例输出

amd_rocm_smi,gpu_id=0x6861,gpu_unique_id=0x2150e7d042a1124,host=ali47xl,name=card0 clocks_current_memory=167i,clocks_current_sm=852i,driver_version=51114i,fan_speed=14i,memory_free=17145282560i,memory_total=17163091968i,memory_used=17809408i,power_draw=7,temperature_sensor_edge=28,temperature_sensor_junction=29,temperature_sensor_memory=92,utilization_gpu=0i 1630572551000000000
amd_rocm_smi,gpu_id=0x6861,gpu_unique_id=0x2150e7d042a1124,host=ali47xl,name=card0 clocks_current_memory=167i,clocks_current_sm=852i,driver_version=51114i,fan_speed=14i,memory_free=17145282560i,memory_total=17163091968i,memory_used=17809408i,power_draw=7,temperature_sensor_edge=29,temperature_sensor_junction=30,temperature_sensor_memory=91,utilization_gpu=0i 1630572701000000000
amd_rocm_smi,gpu_id=0x6861,gpu_unique_id=0x2150e7d042a1124,host=ali47xl,name=card0 clocks_current_memory=167i,clocks_current_sm=852i,driver_version=51114i,fan_speed=14i,memory_free=17145282560i,memory_total=17163091968i,memory_used=17809408i,power_draw=7,temperature_sensor_edge=29,temperature_sensor_junction=29,temperature_sensor_memory=92,utilization_gpu=0i 1630572749000000000

限制和注意事项

请注意,此插件已在有限数量的版本和少量 GPU 上开发和测试。目前测试的最新 ROCm 版本是 4.3.0。请注意,根据设备和驱动程序版本,rocm-smi 提供的信息量可能会有所不同,因此某些字段在更新后可能会开始/停止出现在指标中。rocm-smi 的 JSON 输出并不完全一致,并且将来可能会发生变化,因此在更新 ROCm 时,解析和解组可能会开始失败。

灵感来源于 nvidia-smi 插件的当前技术水平。


此页面是否有帮助?

感谢您的反馈!


InfluxDB 3.8 新特性

InfluxDB 3.8 和 InfluxDB 3 Explorer 1.6 的主要增强功能。

查看博客文章

InfluxDB 3.8 现已适用于 Core 和 Enterprise 版本,同时发布了 InfluxDB 3 Explorer UI 的 1.6 版本。本次发布着重于操作成熟度,以及如何更轻松地部署、管理和可靠地运行 InfluxDB。

更多信息,请查看

InfluxDB Docker 的 latest 标签将指向 InfluxDB 3 Core

在 **2026 年 2 月 3 日**,InfluxDB Docker 镜像的 latest 标签将指向 InfluxDB 3 Core。为避免意外升级,请在您的 Docker 部署中使用特定的版本标签。

如果使用 Docker 来安装和运行 InfluxDB,latest 标签将指向 InfluxDB 3 Core。为避免意外升级,请在您的 Docker 部署中使用特定的版本标签。例如,如果使用 Docker 运行 InfluxDB v2,请将 latest 版本标签替换为 Docker pull 命令中的特定版本标签 — 例如

docker pull influxdb:2