|
| 1 | +# overlap_feature |
| 2 | + |
| 3 | +## 功能介绍 |
| 4 | + |
| 5 | +用来输出一些字符串字词匹配信息的feature |
| 6 | + |
| 7 | +离线推荐使用1.3.56-SNAPSHOT这个版本。 ps: 写fg的时候注意维度,title的维度要大于或等于query的问题(简单来说就是如果title是user特征,那query也只能是user特征,user特征的batch size为1,商品特征的batch size为商品数) |
| 8 | + |
| 9 | +| 方式 | 描述 | 备注 | |
| 10 | +| ------------------- | ----------------------------------------------- | ------------------ | |
| 11 | +| common_word | 计算query与title间重复term,并输出为fg_common1_common2 | 重复数不超过query term数 | |
| 12 | +| diff_word | 计算query与title间不重复term,并输出为fg_diff1_diff2 | 不重复数不超过query term数 | |
| 13 | +| query_common_ratio | 计算query与title间重复term数占query中term比例,乘以10取下整 | 取值为\[0,10\] | |
| 14 | +| title_common_ratio | 计算query与title间重复term数占title中term比例,乘以100取下整 | 取值为\[0,100\] | |
| 15 | +| is_contain | 计算query是否全部包含在title中,保持顺序 | 0表示未包含,1表示包含 | |
| 16 | +| is_equal | 计算query是否与title完全相同 | 0表示不完全相同,1表示完全相同 | |
| 17 | +| common_word_divided | 计算query与title间重复term,并输出为fg_common1, fg_common2 | 重复数不超过query term数 | |
| 18 | +| diff_word_divided | 计算query与title间不重复term,并输出为fg_diff1, fg_diff2 | 重复数不超过query term数 | |
| 19 | + |
| 20 | +## 配置方法 |
| 21 | + |
| 22 | +```json |
| 23 | + { |
| 24 | + "feature_type" : "overlap_feature", |
| 25 | + "feature_name" : "is_contain", |
| 26 | + "query" : "user:attr1", |
| 27 | + "title" : "item:attr2", |
| 28 | + "method" : "is_contain", |
| 29 | + "separator" : " " |
| 30 | + } |
| 31 | +``` |
| 32 | + |
| 33 | +| 字段名 | 含义 | |
| 34 | +| ------------ | -------------------------------------------------------------------------------------- | |
| 35 | +| feature_type | 必选项,描述改feature的类型 | |
| 36 | +| feature_name | 必选项,feature_name会被当做最终输出的feature的前缀 | |
| 37 | +| query | 必选项,query依赖的表, attr1是一个多值string, 多值string的分隔符使用chr(29) | |
| 38 | +| title | 必选项,title依赖的表, attr2是一个多值string | |
| 39 | +| method | 可填common_word, diff_word, query_common_ratio, title_common_ratio, is_contain, 对应上图五种方式 | |
| 40 | +| separator | 输出结果中的分割字符,不填写我们默认为\_ ,但也可以用户自己定制,具体看例子 | |
| 41 | + |
| 42 | +## 例子 |
| 43 | + |
| 44 | +query为high,high2,fiberglass,abc |
| 45 | +title为high,quality,fiberglass,tube,for,golf,bag |
| 46 | + |
| 47 | +| method | separator | feature | |
| 48 | +| ------------------- | --------- | -------------------------- | |
| 49 | +| common_word | | name_high_fiberglass | |
| 50 | +| diff_word | " " | name high2 abc | |
| 51 | +| query_common_ratio | | name_5 | |
| 52 | +| title_common_ratio | | name_28 | |
| 53 | +| is_contain | | name_0 | |
| 54 | +| is_equal | | name_0 | |
| 55 | +| common_word_divided | | name_high, name_fiberglass | |
| 56 | +| diff_word_divided | | name_high2, name_abc | |
0 commit comments