数据摄取生命周期最佳实践
摄取到 InfluxDB 中的数据必须符合存储它的数据库的保留期。时间戳超出保留期的数据不再可查询,但可能仍会在 Object storage 或 Catalog 中维护引用,从而导致运营开销和成本增加。为了减少这些因素,管理摄取数据的生命周期非常重要。
使用以下最佳实践来管理 InfluxDB 集群中的数据生命周期
使用适当的保留期
在创建或更新数据库时,使用适合您需求的保留期。存储超出需要的数据会给您的 InfluxDB 集群增加不必要的运营成本。
调整垃圾回收
一旦数据超出数据库的保留期,垃圾回收服务可以从 Catalog 和 Object store 中删除与数据关联的所有工件。调整垃圾收集器截止期,以确保及时删除数据。
使用以下环境变量来调整垃圾收集器
INFLUXDB_IOX_GC_OBJECTSTORE_CUTOFF
:Object storage 中未在 Catalog 中引用的 Parquet 文件符合删除条件的期限。 默认值为30d
。INFLUXDB_IOX_GC_PARQUETFILE_CUTOFF
:在 Catalog 中保留引用标记为删除的 Parquet 文件中的行的时长。 默认值为30d
。
这些值调整了垃圾收集器的激进程度。持续时间值越短意味着可以更快地删除文件。
为了确保在删除文件和引用之前有一个缓冲期,最小垃圾收集器 (GC) 对象存储和 Parquet 文件截止时间为三小时 (3h
)。
我们建议将这些选项设置为与您组织的备份和恢复策略一致的值。例如,对于运行仅维护最近数据的引用且不需要备份的精简 Catalog,6h
(6 小时)的值是合适的。
用例示例
使用以下场景作为不同用例的指南
此页面是否对您有帮助?
感谢您的反馈!
支持和反馈
感谢您成为我们社区的一份子!我们欢迎并鼓励您对 InfluxDB Clustered 和本文档提供反馈和错误报告。要寻求支持,请使用以下资源
拥有年度或支持合同的客户可以联系 InfluxData 支持。