1.x TICK Stack 监控注意事项
InfluxData 的 TICK stack 的主要用例之一是基础设施监控,包括使用 TICK stack 监控自身或另一个 TICK stack。以下是监控 TICK stack 的两种主要方法
- 内部监控 - 监控自身的 TICK stack。
- “监视器的监视器”方法 - 由另一个 TICK stack 监控的 TICK stack。
内部监控
默认情况下,InfluxData 平台配置为监控自身。Telegraf 从其运行的主机收集指标,例如 CPU 使用率、内存使用率、磁盘使用率等,并将它们存储在 InfluxDB 的 telegraf
数据库中。InfluxDB 还会报告关于自身的性能指标,例如连续查询统计信息、内部 goroutine 统计信息、写入统计信息、序列基数等,并将它们存储在 _internal
数据库中。有关 _internal
数据库的建议,请参阅下文的在生产集群中禁用 _internal
数据库。
监控仪表盘 可用于可视化每个数据库中提供的默认指标。您还可以配置 Kapacitor 警报 以监控和警报这些指标。
内部监控的优点
设置简单
内部监控无需额外的设置或配置更改。TICK stack 开箱即用即可监控自身。
内部监控的缺点
没有硬件隔离
当使用内部监控时,如果您的 TICK stack 离线,您的监控也会离线。任何配置的警报都不会发送,您也不会收到任何问题通知。因此,不建议在生产用例中使用内部监控。
“监视器的监视器”方法
建议用于生产环境。
用于监控 InfluxDB OSS 和 InfluxDB 集群节点的“监视器的监视器”方法,可以在确保监控统计信息在数据丢失时远程可用的同时,监控您的 InfluxDB 资源。
这通常采用企业集群由 OSS TICK stack 监控的形式。它包括安装在主集群中每个节点上的 Telegraf 代理,这些代理将其各自主机的指标报告给安装在单独服务器或集群上的监控 TICK stack。
有关设置外部监控 TICK stack 的信息,请参阅设置外部监控器。
监控仪表盘 可用于可视化 Telegraf 代理提供的默认指标。您还可以配置 Kapacitor 警报 以监控和警报这些指标。
外部监控的优点
硬件隔离
由于监控器与您的主 TICK stack 分开运行,因此主 stack 中发生的问题不会影响监控器。如果您的主 TICK stack 宕机或出现问题,您的监控器将能够检测到它们并向您发出警报。
外部监控的缺点
设置稍微复杂
外部监控涉及更多设置,但其优势远远超过所需的额外时间,尤其是对于生产用例。
建议
在生产集群中禁用 _internal
数据库
InfluxData 不 建议在生产集群中使用 _internal
数据库。它会产生不必要的开销,特别是对于繁忙的集群,这可能会使已经负载过重的集群过载。存储在 _internal
数据库中的指标主要衡量工作负载性能,这应该只在非生产环境中进行测试。
要禁用 _internal
数据库,请将 store-enabled
设置为 false
,位于您的 influxdb.conf
的 [monitor]
部分下。
influxdb.conf
# ...
[monitor]
# ...
# Whether to record statistics internally.
store-enabled = false
#...
此页是否对您有帮助?
感谢您的反馈!