histogram() 函数
histogram()
通过计算数据频率列表中的数据频率来近似数据集的累积分布。
bin 由上限定义,其中所有小于或等于该上限的数据点都将计入该 bin 中。 Bin 计数是累积的。
每个输入表都将转换为表示单个直方图的单个输出表。 每个输出表都具有与相应输入表相同的组键。 不属于组键的列将被删除。 输出表包括用于 bin 上限和计数的其他列。
函数类型签名
(
<-tables: stream[A],
bins: [float],
?column: string,
?countColumn: string,
?normalize: bool,
?upperBoundColumn: string,
) => stream[B] where A: Record, B: Record
有关更多信息,请参见函数类型签名。
参数
column
包含输入值的列。 列的类型必须为 float。 默认为_value
。
upperBoundColumn
用于存储 bin 上限的列。 默认为le
。
countColumn
用于存储 bin 计数的列。 默认为_value
。
bins
(必需) 用于计算直方图频率的上限列表。
Bins 应包含一个 bin,其边界是数据集的最大值。 如果不知道最大值,则可以将此值设置为正无穷大。
Bin 辅助函数
以下辅助函数可用于生成 bins。
- linearBins()
- logarithmicBins()
normalize
将计数转换为 0 到 1 之间的频率值。 默认为false
。
注意:规范化的直方图无法通过对计数求和进行聚合。
tables
输入数据。 默认为管道转发的数据 (<-
)。
示例
创建累积直方图
import "sampledata"
sampledata.float()
|> histogram(bins: [0.0, 5.0, 10.0, 20.0])
使用动态生成的 bins 创建累积直方图
import "sampledata"
sampledata.float()
|> histogram(bins: linearBins(start: 0.0, width: 4.0, count: 3))
此页面是否对您有帮助?
感谢您的反馈!