目前所采用的方案是,将盗图、表情包、网络图等重复图片作为负样本,将过审UGC图片作为正样本,通过ResNet提取图片特征,将类目通过embedding作为类目特征,将用户行为(发表重复图的数量和比例)作为用户特征,判断该UGC的图片是否是无关图。就这样,大家终于又能愉快地欣赏美美的买家秀了~~划重点在此分享一些心得体会,希望能对大家有帮助:数据强于特征,特征强于模型;贴近真实场景的数据对提升任务表现贡献巨大;如果确实缺乏数据,不妨尝试快速标注数千条数据,可能取得超出预期的效果;对ImageNet等数据集预训练的模型进行fine-tuning可以在小数据集往往能取得更好的问题;通过图像翻转、旋转、随机裁剪等方法进行数据增强,可以提升模型泛化能力。