histogram() 函数
histogram()
通过对一系列区间中的数据频率进行计数来近似数据集的累积分布。
一个区间由一个上界定义,其中所有小于或等于该界的所有数据点都被计入该区间。区间计数是累积的。
每个输入表被转换为一个表示单个直方图的单个输出表。每个输出表具有与相应输入表相同的分组键。不属于分组键的列将被删除。输出表包括用于上界和区间计数的附加列。
函数类型签名
(
<-tables: stream[A],
bins: [float],
?column: string,
?countColumn: string,
?normalize: bool,
?upperBoundColumn: string,
) => stream[B] where A: Record, B: Record
参数
列
包含输入值的列。列必须是浮点类型。默认为 _value
。
upperBoundColumn
用于存储区间上界的列。默认为 le
。
countColumn
用于存储区间计数的列。默认为 _value
。
bins
(必需) 当计算直方图频率时使用的上界列表。
区间应包含一个区间,其界限是数据集的最大值。如果不知道最大值,此值可以设置为正无穷大。
区间辅助函数
以下辅助函数可用于生成区间。
- linearBins()
- logarithmicBins()
normalize
将计数转换为介于 0 和 1 之间的频率值。默认为 false
。
注意:归一化直方图无法通过求和其计数进行聚合。
tables
输入数据。默认为管道前传数据 (<-
)。
示例
创建累积直方图
import "sampledata"
sampledata.float()
|> histogram(bins: [0.0, 5.0, 10.0, 20.0])
创建具有动态生成区间的累积直方图
import "sampledata"
sampledata.float()
|> histogram(bins: linearBins(start: 0.0, width: 4.0, count: 3))
这个页面有帮助吗?
感谢您的反馈!