overlap_feature

功能介绍

用来输出一些字符串字词匹配信息的feature

离线推荐使用1.3.56-SNAPSHOT这个版本。 ps: 写fg的时候注意维度,title的维度要大于或等于query的问题(简单来说就是如果title是user特征,那query也只能是user特征,user特征的batch size为1,商品特征的batch size为商品数)

方式 描述 备注
common_word 计算query与title间重复term,并输出为fg_common1_common2 重复数不超过query term数
diff_word 计算query与title间不重复term,并输出为fg_diff1_diff2 不重复数不超过query term数
query_common_ratio 计算query与title间重复term数占query中term比例,乘以10取下整 取值为[0,10]
title_common_ratio 计算query与title间重复term数占title中term比例,乘以100取下整 取值为[0,100]
is_contain 计算query是否全部包含在title中,保持顺序 0表示未包含,1表示包含
is_equal 计算query是否与title完全相同 0表示不完全相同,1表示完全相同
common_word_divided 计算query与title间重复term,并输出为fg_common1, fg_common2 重复数不超过query term数
diff_word_divided 计算query与title间不重复term,并输出为fg_diff1, fg_diff2 重复数不超过query term数

配置方法

  {
			"feature_type" : "overlap_feature",
			"feature_name" : "is_contain",
			"query" : "user:attr1",
			"title" : "item:attr2",
			"method" : "is_contain",
			"separator" : " "
  }
字段名 含义
feature_type 必选项,描述改feature的类型
feature_name 必选项,feature_name会被当做最终输出的feature的前缀
query 必选项,query依赖的表, attr1是一个多值string, 多值string的分隔符使用chr(29)
title 必选项,title依赖的表, attr2是一个多值string
method 可填common_word, diff_word, query_common_ratio, title_common_ratio, is_contain, 对应上图五种方式
separator 输出结果中的分割字符,不填写我们默认为_ ,但也可以用户自己定制,具体看例子

例子

query为high,high2,fiberglass,abc title为high,quality,fiberglass,tube,for,golf,bag

method separator feature
common_word name_high_fiberglass
diff_word " " name high2 abc
query_common_ratio name_5
title_common_ratio name_28
is_contain name_0
is_equal name_0
common_word_divided name_high, name_fiberglass
diff_word_divided name_high2, name_abc