raw_feature

功能介绍

raw_feature表示连续值特征, 支持数值int、float、double等数值类型. 支持单值连续特征和多值连续特征.

配置方法

{
 "feature_type" : "raw_feature",
 "feature_name" : "ctr",
 "expression" : "item:ctr",
 "normalizer" : "method=log10"
}
字段名 含义
feature_name 必选项, 特征名
expression 必选项,expression描述该feature所依赖的字段来源, 来源必须是user、item、context中的一种
value_dimension 可选项,默认值为1,表示输出的字段的维度
normalizer 可选项,归一化方法,详见后文

示例

^]表示多值分隔符,注意这是一个符号,其ASCII编码是”\x1D”,而不是两个符号

类型 item:ctr的取值 输出的feature
int64_t 100 (ctr, 100)
double 100.1 (ctr, 100.1)
多值int 123^]456 (ctr, (123,456)) (注意,输入字段必须与配置的dimension维度一致)

Normalizer

raw_feature 和 match_feature 支持 normalizer,共三种,minmax,zscore,log10. 配置和计算方法如下:

log10

配置例子: method=log10,threshold=1e-10,default=-10
计算公式: x = x > threshold ? log10(x) : default;

zscore

配置例子: method=zscore,mean=0.0,standard_deviation=10.0
计算公式: x = (x - mean) / standard_deviation

minmax

配置例子: method=minmax,min=2.1,max=2.2
计算公式: x = (x - min) / (max - min)