数据摄取生命周期最佳实践
进入InfluxDB的数据必须符合其存储的数据库的保留期。超出保留期的数据点将无法查询,但可能仍保留在对象存储或目录中的引用,从而导致运营成本和开销增加。为了减少这些因素,管理摄取数据的生命周期非常重要。
使用以下最佳实践来管理InfluxDB集群中数据的生命周期
使用适当的保留期
在创建或更新数据库时,使用适合您需求的保留期。存储超出所需的数据会增加InfluxDB集群的不必要运营成本。
调整垃圾回收
一旦数据超出数据库的保留期,垃圾收集服务可以删除与该数据相关的所有目录和对象存储中的条目。调整垃圾收集器的截止时间以确保数据及时删除。
使用以下环境变量来调整垃圾收集器
INFLUXDB_IOX_GC_OBJECTSTORE_CUTOFF
:Parquet文件未被目录引用时的年龄,使其有资格从对象存储中删除。默认为30d
。INFLUXDB_IOX_GC_PARQUETFILE_CUTOFF
:保留标记为删除的Parquet文件引用的目录中的行的时间。默认为30d
。
这些值调整垃圾收集器可以有多激进。较短的持续时间值意味着文件可以更快地被删除。
为了确保在删除文件和引用之前有一个宽限期,垃圾收集器(GC)对象存储和Parquet文件的最小截止时间是三小时(3h
)。
我们建议将这些选项设置为与您的组织备份和恢复策略一致的价值。例如,6h
(6小时)对于仅维护最近数据的精简目录且不需要备份的情况是合适的。
用例示例
以下场景可作为不同使用案例的指南
这个页面有帮助吗?
感谢您的反馈!