关于监控 1.x TICK stack 的注意事项
InfluxData 的 TICK stack 的主要用例之一是基础设施监控,包括使用 TICK stack 监控自身或另一个 TICK stack。以下是监控 TICK stack 的两种主要方法:
- 内部监控 - 由 TICK stack 自身监控。
- “观察者之观察者”方法 - 由另一个 TICK stack 监控的 TICK stack。
内部监控
不建议用于生产环境。
默认情况下,InfluxData 平台配置为监控自身。Telegraf 会收集其运行所在主机上的指标,例如 CPU 使用率、内存使用率、磁盘使用率等,并将它们存储在 InfluxDB 的 telegraf 数据库中。InfluxDB 还会报告自身的性能指标,例如连续查询统计信息、内部 goroutine 统计信息、写入统计信息、序列基数等,并将它们存储在 _internal 数据库中。有关 _internal 数据库的建议,请参阅下面的 在生产集群中禁用 _internal 数据库。
提供有 监控仪表板,用于可视化这些数据库中提供的默认指标。您还可以 配置 Kapacitor 警报,以监控和警报这些指标。
内部监控的优点
设置简单
内部监控不需要任何额外的设置或配置更改。TICK stack 开箱即用,可以监控自身。
内部监控的缺点
没有硬件隔离
使用内部监控时,如果您的 TICK stack 离线,您的监控也会离线。任何配置的警报都不会被发送,您也不会收到任何问题的通知。因此,内部监控不建议用于生产用例。
“观察者之观察者”方法
建议用于生产环境。
一种“观察者之观察者”方法,用于监控 InfluxDB OSS 和 InfluxDB 集群节点,可实现对 InfluxDB 资源的监控,同时确保监控统计数据在发生数据丢失时仍可在远程访问。
这通常表现为一个 Enterprise 集群由一个 OSS TICK stack 进行监控。它由安装在主集群每个节点上的 Telegraf 代理组成,这些代理会将其各自主机的指标报告给安装在单独服务器或集群上的监控 TICK stack。
有关设置外部监控 TICK stack 的信息,请参阅 设置外部监控。
提供有 监控仪表板,用于可视化 Telegraf 代理提供的默认指标。您还可以 配置 Kapacitor 警报,以监控和警报这些指标。
外部监控的优点
硬件隔离
通过将监控器与主 TICK stack 分开运行,主 TICK stack 中发生的问题不会影响到监控器。如果您的主 TICK stack 出现故障或问题,您的监控器将能够检测到它们并向您发出警报。
外部监控的缺点
设置稍微复杂
外部监控需要更多的设置,但其好处远远超过所需额外的时间,尤其对于生产用例而言。
建议
在生产集群中禁用 _internal 数据库
InfluxData **不**建议在生产集群中使用 _internal 数据库。它会产生不必要的开销,特别是对于繁忙的集群,这可能会使已经很重的集群过载。存储在 _internal 数据库中的指标主要用于衡量工作负载性能,这仅应在非生产环境中进行测试。
要禁用 _internal 数据库,请在 influxdb.conf 文件的 [monitor] 部分将 store-enabled 设置为 false。
influxdb.conf
# ...
[monitor]
# ...
# Whether to record statistics internally.
store-enabled = false
#...此页面是否有帮助?
感谢您的反馈!