监控 1.x TICK 堆栈的注意事项
InfluxData 的 TICK 堆栈的主要用例之一是基础设施监控,包括使用 TICK 堆栈来监控自身或另一个 TICK 堆栈。以下是监控 TICK 堆栈的两种主要方法
- 内部监控 - 一个监控自身的 TICK 堆栈。
- “监控者的监控者”方法 - 一个由另一个 TICK 堆栈监控的 TICK 堆栈。
内部监控
默认情况下,InfluxData 平台配置为监控自身。Telegraf 从其运行的主机收集指标,例如 CPU 使用率、内存使用率、磁盘使用率等,并将它们存储在 InfluxDB 的 telegraf
数据库中。InfluxDB 还报告关于自身的性能指标,例如连续查询统计信息、内部 goroutine 统计信息、写入统计信息、序列基数等,并将它们存储在 _internal
数据库中。有关 _internal
数据库的建议,请参阅下面的 在生产集群中禁用 _internal
数据库。
监控仪表板 可用于可视化每个数据库中提供的默认指标。您还可以 配置 Kapacitor 警报 以监控和警报这些指标。
内部监控的优点
设置简单
内部监控不需要额外的设置或配置更改。TICK 堆栈开箱即用即可监控自身。
内部监控的缺点
没有硬件隔离
当使用内部监控时,如果您的 TICK 堆栈离线,您的监控也会离线。任何配置的警报都不会发送,您也不会收到任何问题的通知。因此,不建议在生产用例中使用内部监控。
“监控者的监控者”方法
建议用于生产环境。
“监控者的监控者” 方法用于监控 InfluxDB OSS 和 InfluxDB 集群节点,可以在确保监控统计信息在数据丢失的情况下远程可用的同时,监控您的 InfluxDB 资源。
这通常采用由 OSS TICK 堆栈监控的企业集群的形式。它由安装在主集群中每个节点上的 Telegraf 代理组成,这些代理将其各自主机的指标报告给安装在单独服务器或集群上的监控 TICK 堆栈。
有关设置外部监控 TICK 堆栈的信息,请参阅 设置外部监控器。
监控仪表板 可用于可视化 Telegraf 代理提供的默认指标。您还可以 配置 Kapacitor 警报 以监控和警报这些指标。
外部监控的优点
硬件隔离
由于监控器与主 TICK 堆栈分开运行,因此主堆栈中发生的问题不会影响监控器。如果您的主 TICK 堆栈宕机或出现问题,您的监控器将能够检测到它们并向您发出警报。
外部监控的缺点
设置稍复杂
外部监控涉及更多设置,但好处远远超过所需的额外时间,特别是对于生产用例。
建议
在生产集群中禁用 _internal
数据库
InfluxData 不 建议在生产集群中使用 _internal
数据库。它会产生不必要的开销,特别是对于繁忙的集群,这可能会使已经负载过重的集群过载。存储在 _internal
数据库中的指标主要衡量工作负载性能,这应该只在非生产环境中进行测试。
要禁用 _internal
数据库,请在 influxdb.conf
的 [monitor]
部分下将 store-enabled
设置为 false
。
influxdb.conf
# ...
[monitor]
# ...
# Whether to record statistics internally.
store-enabled = false
#...
此页面是否对您有帮助?
感谢您的反馈!