1.introduction
数据集包括,时尚模特数据集,超过18.8w张模特图,从中选出35311张图片,DIM数据集,仅包含人类的图像,202个前景图像,背景来自coco数据集和互联网,背景图不含人类,一个前景和100个背景。
2.our method
第一个网络TNet,负责前景、背景和未知区域之间进行像素级分类,第二个网络MNet,接受TNet的输出作为语义提示,生成原始alpha描述,最终进过Fusion module融合,生成最终的alpha。
2.1 Trimap generation:TNet
扮演着语义分割的角色,输出3通道图,PSPNet50.
2.2 Matting network:MNet
将3通道图像与来自TNet的3通道图串联作为6通道输入,DIM使用3通道图和1通道trimap(1,0.5,0表示前景,未知区域和背景)作为4通道输入,6通道输入和4通道输入几乎有相同的性能,MNet有13个卷积层和4个最大池化层,编码器网络和VGG16相同,VGG16的conv1是3个输入通道,MNet有6个输入通道,每个卷积层后面添加了批归一化,移除了conv6和deconv6.
2.3 Fusion module
F/B/U表示前景背景和未知区域,
2.4 Loss
2.5 Implementation details
TNet预训练,膨胀alpha生成trimap,400x400;MNet,使用不同的膨胀和腐蚀核大小增强trimao对抠图性能有影响。训练时使用整个DIM数据集;端到端训练,800x800.