InfluxDB 架构设计和数据布局

此页面记录了早期版本的 InfluxDB OSS。InfluxDB OSS v2 是最新的稳定版本。请参阅 InfluxDB v2 文档。

每个 InfluxDB 用例都是独一无二的，您的 schema 也反映了这种独特性。通常，为查询设计的架构可以简化查询并提高查询性能。我们为大多数用例推荐以下设计指南

数据存储位置（标签或字段）
避免过多的序列
使用推荐的命名约定
分片组持续时间管理

数据存储位置（标签或字段）

您的查询应指导您在标签中存储哪些数据，以及在字段中存储哪些数据

将常用的查询和分组（group() 或 GROUP BY）元数据存储在标签中。
如果每个数据点包含不同的值，则将数据存储在字段中。
将数值存储为字段（标签值仅支持字符串值）。

避免过多的序列

InfluxDB 为以下数据元素建立索引以加速读取

标签值已建立索引，而字段值未建立索引。这意味着按标签查询比按字段查询性能更高。但是，当创建过多的索引时，写入和读取都可能开始减慢。

每个唯一的索引数据元素集形成一个序列键。标签包含高度可变的信息，如唯一 ID、哈希和随机字符串，会导致大量的序列，也称为高序列基数。高序列基数是许多数据库工作负载中高内存使用率的主要驱动因素。因此，为了减少内存消耗，请考虑将高基数值存储在字段值中，而不是标签或字段键中。

如果对 InfluxDB 的读取和写入开始减慢，则您可能具有高序列基数（过多的序列）。请参阅如何查找和减少高序列基数。

使用推荐的命名约定

在命名标签和字段键时，请使用以下约定

避免在标签和字段键中使用保留关键字
避免相同的标签和字段名称
避免在 measurement（测量）和键中编码数据
避免在一个标签中包含多个信息

避免在标签和字段键中使用保留关键字

并非必需，但避免在标签和字段键中使用保留关键字可以简化编写查询的过程，因为您不必将键括在双引号中。请参阅 InfluxQL 和 Flux 关键字以避免使用。

此外，如果标签或字段键包含 [A-z,_] 以外的字符，则必须在 InfluxQL 中将其括在双引号中，或在 Flux 中使用方括号表示法。

避免标签和字段使用相同的名称

避免对标签和字段键使用相同的名称。这通常会导致查询数据时出现意外行为。

如果您不小心为标签和字段添加了相同的名称，请参阅常见问题解答，了解有关如何可预测地查询数据以及如何解决此问题的信息。

避免在 measurement（测量）和键中编码数据

将数据存储在标签值或字段值中，而不是标签键、字段键或 measurement（测量）中。如果您将架构设计为将数据存储在标签和字段值中，则您的查询将更易于编写且效率更高。

此外，通过不在写入数据时创建 measurement（测量）和键，您将保持较低的基数。要了解有关高序列基数对性能的影响的更多信息，请参阅如何查找和减少高序列基数。

比较架构

比较以下以行协议表示的有效架构。

推荐：以下架构将元数据存储在单独的 crop、plot 和 region 标签中。temp 字段包含可变的数值数据。

Good Measurements schema - Data encoded in tags (recommended)
-------------
weather_sensor,crop=blueberries,plot=1,region=north temp=50.1 1472515200000000000
weather_sensor,crop=blueberries,plot=2,region=midwest temp=49.8 1472515200000000000

不推荐：以下架构将多个属性（crop、plot 和 region）连接（blueberries.plot-1.north）在 measurement（测量）中，类似于 Graphite 指标。

Bad Measurements schema - Data encoded in the measurement (not recommended)
-------------
blueberries.plot-1.north temp=50.1 1472515200000000000
blueberries.plot-2.midwest temp=49.8 1472515200000000000

不推荐：以下架构将多个属性（crop、plot 和 region）连接（blueberries.plot-1.north）在字段键中。

Bad Keys schema - Data encoded in field keys (not recommended)
-------------
weather_sensor blueberries.plot-1.north.temp=50.1 1472515200000000000
weather_sensor blueberries.plot-2.midwest.temp=49.8 1472515200000000000

比较查询

比较 良好 Measurement（测量） 和 不良 Measurement（测量） 架构的以下查询。Flux 查询计算 north 区域中蓝莓的平均 temp

易于查询：良好 Measurement（测量） 数据很容易按 region 标签值进行过滤，如以下示例所示。

// Query *Good Measurements*, data stored in separate tag values (recommended)
from(bucket: "<database>/<retention_policy>")
  |> range(start:2016-08-30T00:00:00Z)
  |> filter(fn: (r) =>  r._measurement == "weather_sensor" and r.region == "north" and r._field == "temp")
  |> mean()

难以查询：不良 Measurement（测量） 需要使用正则表达式从 measurement（测量）中提取 plot 和 region，如以下示例所示。

// Query *Bad Measurements*, data encoded in the measurement (not recommended)
from(bucket: "<database>/<retention_policy>")
  |> range(start:2016-08-30T00:00:00Z)
  |> filter(fn: (r) =>  r._measurement =~ /\.north$/ and r._field == "temp")
  |> mean()

复杂的 measurement（测量）使某些查询变得不可能。例如，使用 不良 Measurement（测量） 架构无法计算两个地块的平均温度。

InfluxQL 示例查询架构

# Query *Bad Measurements*, data encoded in the measurement (not recommended)
> SELECT mean("temp") FROM /\.north$/

# Query *Good Measurements*, data stored in separate tag values (recommended)
> SELECT mean("temp") FROM "weather_sensor" WHERE "region" = 'north'

避免在一个标签中放入多个信息

将包含多个信息的单个标签拆分为单独的标签，可以简化您的查询，并通过减少对正则表达式的需求来提高性能。

考虑以下以行协议表示的架构。

示例行协议架构

Schema 1 - Multiple data encoded in a single tag
-------------
weather_sensor,crop=blueberries,location=plot-1.north temp=50.1 1472515200000000000
weather_sensor,crop=blueberries,location=plot-2.midwest temp=49.8 1472515200000000000

架构 1 数据将多个单独的参数（plot 和 region）编码为一个长标签值 (plot-1.north)。将其与以下以行协议表示的架构进行比较。

Schema 2 - Data encoded in multiple tags
-------------
weather_sensor,crop=blueberries,plot=1,region=north temp=50.1 1472515200000000000
weather_sensor,crop=blueberries,plot=2,region=midwest temp=49.8 1472515200000000000

使用 Flux 或 InfluxQL 计算 north 区域中蓝莓的平均 temp。架构 2 更可取，因为使用多个标签，您不需要正则表达式。

Flux 示例查询架构

// Schema 1 -  Query for multiple data encoded in a single tag
from(bucket:"<database>/<retention_policy>")
  |> range(start:2016-08-30T00:00:00Z)
  |> filter(fn: (r) =>  r._measurement == "weather_sensor" and r.location =~ /\.north$/ and r._field == "temp")
  |> mean()

// Schema 2 - Query for data encoded in multiple tags
from(bucket:"<database>/<retention_policy>")
  |> range(start:2016-08-30T00:00:00Z)
  |> filter(fn: (r) =>  r._measurement == "weather_sensor" and r.region == "north" and r._field == "temp")
  |> mean()

InfluxQL 示例查询架构

# Schema 1 - Query for multiple data encoded in a single tag
> SELECT mean("temp") FROM "weather_sensor" WHERE location =~ /\.north$/

# Schema 2 - Query for data encoded in multiple tags
> SELECT mean("temp") FROM "weather_sensor" WHERE region = 'north'

分片组持续时间管理

分片组持续时间概述

InfluxDB 将数据存储在分片组中。分片组按保留策略 (RP) 组织，并存储时间戳落在称为分片持续时间的特定时间间隔内的数据。

如果未提供分片组持续时间，则分片组持续时间由创建 RP 时的 RP 持续时间确定。默认值为

RP 持续时间	分片组持续时间
< 2 天	1 小时
>= 2 天且 <= 6 个月	1 天
> 6 个月	7 天

分片组持续时间也可以为每个 RP 配置。要配置分片组持续时间，请参阅保留策略管理。

分片组持续时间权衡

确定最佳分片组持续时间需要在以下两者之间找到平衡

较长分片带来的更好的整体性能
较短分片提供的灵活性

长分片组持续时间

较长的分片组持续时间使 InfluxDB 可以在同一逻辑位置存储更多数据。这减少了数据重复，提高了压缩效率，并在某些情况下提高了查询速度。

短分片组持续时间

较短的分片组持续时间允许系统更有效地删除数据和记录增量备份。当 InfluxDB 执行 RP 时，它会删除整个分片组，而不是单个数据点，即使这些点比 RP 持续时间更旧。只有当分片组的持续时间结束时间早于 RP 持续时间时，才会删除分片组。

例如，如果您的 RP 持续时间为一天，则 InfluxDB 将每小时删除一小时的数据，并且始终有 25 个分片组。一天中的每小时一个，以及一个部分过期的额外分片组，但在整个分片组早于 24 小时之前不会删除。

注意： 要考虑的特殊用例：按时间过滤架构数据（例如标签、序列、measurement（测量））。例如，如果您想在一个小时的时间间隔内过滤架构数据，则必须将分片组持续时间设置为 1 小时。有关更多信息，请参阅按时间过滤架构数据。

分片组持续时间建议

默认分片组持续时间适用于大多数情况。但是，高吞吐量或长时间运行的实例将受益于使用较长的分片组持续时间。以下是一些较长分片组持续时间的建议

RP 持续时间	分片组持续时间
<= 1 天	6 小时
> 1 天且 <= 7 天	1 天
> 7 天且 <= 3 个月	7 天
> 3 个月	30 天
无限	52 周或更长

注意： 请注意，INF（无限）不是有效的分片组持续时间。在数据覆盖数十年且永远不会删除的极端情况下，像 1040w（20 年）这样的长分片组持续时间是完全有效的。

设置分片组持续时间之前要考虑的其他因素

分片组应为最频繁查询的最长时间范围的两倍
每个分片组应包含超过 100,000 个点
每个分片组应包含每个序列超过 1,000 个点

用于回填的分片组持续时间

批量插入过去大时间范围内的历史数据将立即触发创建大量分片。并发访问和写入数百或数千个分片的开销可能会迅速导致性能下降和内存耗尽。

在写入历史数据时，我们强烈建议临时设置较长的分片组持续时间，以便创建较少的分片。通常，52 周的分片组持续时间非常适合回填。

此页内容是否对您有帮助？

感谢您的反馈！

支持和反馈

感谢您成为我们社区的一份子！我们欢迎并鼓励您提供关于 InfluxDB 和此文档的反馈和错误报告。要获得支持，请使用以下资源

拥有年度或支持合同的客户可以联系 InfluxData 支持。

编辑此页提交文档问题提交 InfluxDB 问题

InfluxDB 架构设计和数据布局

数据存储位置（标签或字段）

避免过多的序列

使用推荐的命名约定

避免在标签和字段键中使用保留关键字

避免标签和字段使用相同的名称

避免在 measurement（测量）和键中编码数据

比较架构

比较查询

InfluxQL 示例查询架构

避免在一个标签中放入多个信息

示例行协议架构

Flux 示例查询架构

InfluxQL 示例查询架构

分片组持续时间管理

分片组持续时间概述

分片组持续时间权衡

长分片组持续时间

短分片组持续时间

分片组持续时间建议

用于回填的分片组持续时间

支持和反馈

Flux 的未来

InfluxDB 3 Core 和 Enterprise

InfluxDB 架构设计和数据布局

数据存储位置（标签或字段）

避免过多的序列

使用推荐的命名约定

避免在标签和字段键中使用保留关键字

避免标签和字段使用相同的名称

避免在 measurement（测量）和键中编码数据

比较架构

比较查询

InfluxQL 示例查询架构

避免在一个标签中放入多个信息

示例行协议架构

Flux 示例查询架构

InfluxQL 示例查询架构

分片组持续时间管理

分片组持续时间概述

分片组持续时间权衡

长分片组持续时间

短分片组持续时间

分片组持续时间建议

用于回填的分片组持续时间

支持和反馈

您的 InfluxDB OSS URL 是什么？

默认

自定义

感谢您的反馈！

Flux 的未来

InfluxDB 3 Core 和 Enterprise