一些思考
(1)senet来加权doc/user塔中不同类型的特征,其中senet映射到k个维度,为啥不做softmax,而是使用sigmoid或relu?
(2)为啥要用senet来加权不同类型的特征呢,直接将这些特征concat后过dnn不行吗
(3)senet中每个case对应的不同特征权重差别大吗,是否可以指定一个权重,而不用senet去学习?
(4)为啥有些MLP中先将维度扩展再压缩,比如原先是(batch_size,64),先变为(batch_size,256),再变为(batch_size,32)?
我的理解是扩维的目的是让模型有能力生产更多交叉特征,降维度是从大量特征中聚合出更重要的特征来