拯救单身狗:这个对象生成器帮你看看未来对象长啥样


拯救单身狗:这个对象生成器帮你看看未来对象长啥样                                                                                                                    机器之心报道

机器之心编辑部

不知道自己未来的老婆 or 老公长什么样?来,我们先用 AI 预测出一个。


单身多年的你,是否曾幻想另一半的模样?最近,有这样一个开源项目在深度学习社区火了起来——通过神经网络生成你另一半的相貌。想知道自己会和什么样的人在一起吗?已有网友尝试了生成效果。
项目地址:https://github.com/irfanICMLL/CoupleGenerator
作者自己介绍,这是一个自 2017 年便开源了的项目,当时使用的是 TensorFlow,不过最近项目代码改成了 PyTorch。
得到对象只需 8800 步训练
项目使用了一百多位新婚夫妇的结婚照片,图像是通过爬虫从百度上爬取下来的。
这些结婚照都有着统一的模板:喜庆而单一的红色背景,清晰的人脸和五官,对模型训练比较友好和方便。
训练样本之一。爬取方法:https://blog.csdn.net/qq_27879381/article/details/65015280#comments
在模型构建和训练上,项目采用了 VGG 作为骨架网络学习图像特征。VGG 是一种常见的神经网络架构,发布于 2014 年,作者是 Karen Simonyan 和 Andrew Zisserman,该网络表明堆叠多个层是提升计算机视觉性能的关键因素。VGGNet 包含 16 或 19 层,主要由小型的 3×3 卷积操作和 2×2 池化操作组成。
VGG 的优点在于,堆叠多个小的卷积核而不使用池化操作可以增加网络的表征深度,同时限制参数的数量。例如,通过堆叠 3 个 3×3 卷积层而不是使用单个的 7×7 层,可以克服一些限制。
首先,这样做组合了三个非线性函数,而不只是一个,使得决策函数更有判别力和表征能力。第二,参数量减少了 81%,而感受野保持不变。另外,小卷积核的使用也扮演了正则化器的角色,并提高了不同卷积核的有效性。
在生成结果的过程中,模型使用 pix2pix 的方式。Pix2pix 是一种基于 GAN 架构的风格转换模型,来自论文《Image-to-Image Translation with Conditional Adversarial NetWorks》,作者包括朱俊彦等,论文在 CVPR 2017 发表后,已有多种框架的实现。
Pix2pix 使用成对的图片数据,学习从一个图像到另一个图像的转换方式,并生成能够以假乱真的图像。
使用 pix2pix 实现不同风格和用途图像的互相转换。
在 Pix2pix 中,生成器采用 encoder-decoder 或 U-Net 的架构。
两种 Pix2pix 的生成器架构。
那么,应该怎么使用这个项目呢?
使用方法
在项目中,作者提供了一些内容,包括: 
  • CKPT 模型文件:

    https://cloudstor.aarnet.edu.au/plus/s/YHDWgez1g3RFc6o

  • VGG 权重文件:

    https://github.com/machrisaa/tensorflow-vgg

  • 训练数据:

    https://cloudstor.aarnet.edu.au/plus/s/VWZJaWfbla3kFch


  • 在使用的过程中,你需要下载 VGG 权重文件和训练数据,下载代码到运行环境中并运行 autotest.sh 文件。
    效果
    在训练 8800 步后,模型对给定的图片提供了生成结果,如下所示:

    考虑到训练数据并不算多,生成图像的质量还有提高的空间。此外我们可以注意到,模型也学习了一些有趣的特征,比如右上角原始图像中有结婚证,则生成的图像中也保留了结婚证这一要素。
    项目作者介绍
    这个项目的作者是一位非常漂亮的小姐姐,目前在澳大利亚阿德莱德大学攻读计算机科学博士学位,师从沈春华教授。
    Yifan Liu。
    Liu 同学本科和硕士就读于北京航空航天大学自动化科学与电气工程学院,曾获得 2016 年北京市优秀毕业生。在 2018 年 11 月进入阿德莱德大学攻读博士学位之前,她曾是微软亚研高级研究员、2018 年 ACM 杰出会员王井东教授的访问学生。
    Liu 的主要研究方向是神经计算、模式识别等领域,包括图像语义分割等。在学术研究方面,2017 至 2019 年,她作为一作或其他作者的多篇论文被 CVPR、ICCV、PAKDD、IEA/AIE、PACLING 等国际学术会议接收,有一些为 Oral 论文。
    这是她的个人主页:https://irfanicmll.github.io/
    实测效果怎么样
    为了试一试项目的效果,我们也下载了项目的预训练权重(迭代 8800 次)以及 VGG16 的预训练权重。因为数据集非常小,我们先用项目中的数据试一试效果。如下所示我们用项目 datasets 目录下的图像做测试,其中左侧为两组输入图像,右侧为输出图像。从生成结果来看,不论性别,另一半的相貌总是能够被生成出来的,还进行了一点磨皮。

    如果我们只给一张人像呢?现在看起来,模型的生成规则是输出输入图像中左侧的人像,如果只输入一张人像的效果可能会变差。为了验证这个想法,我们将上述两张图都截成一个单一人像并输入模型。正如所料,现在生成效果不太好。如下所示左侧为两组输入样本,右侧为输出效果。

    如果数据不从测试数据集中获得呢?在默认输入规则为夫妻合照的情况下,我们再次进行了新的尝试。通过输入不在数据集中的夫妻人像样本,并检查模型的生成效果。如下图所示,左侧为输入图像,右侧为输出结果,生成的图像较难识别。夫妻图像来自网络搜索结果。诚然,利用现有数据预测未来对象的相貌这种想法是很不错的,但是由于数据量太小,模型的泛化能力还没有达到应有的要求。总的来说,单身狗还不能光靠这个生成一张自己对象的照片。
    项目作者也表示,数据量比较少,效果也不太好,但是依然欢迎大家使用代码和数据进行进一步的训练,我们也会进一步关注项目的进展。

    机器之心 AAAI 2020 论文分享进行到了第三期,本期我们邀请到了加州大学伯克利分校 Zhewei Yao 博士,他的论文《Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT》被 AAAI 2020 所接收。在这期分享中,他将介绍把二阶方法用于训练深度神经网络的最新结果。

    源链接   来源:user   日期:2020-01-08 17:31:18  

    推荐文章

    告别摩尔时代,英特尔能否打开AI市场?

    尽管英特尔重启了奔腾G3420,但x86  CPU市场逐渐被AMD攻占,已成不争的事实。


    百度尹世明:5G加持 ABC+X 绽放新势能

    观点精选在云的时代由于边界开始消融,人工智能、大数据和算力应该整合在一起,这有别于传统Client-Server架构的理念,也是2016年底百度提出的ABC概念的核心。我一直强调的一个节点是1992年,1992年我认为是企业服务的1.0时代开启,当时有Client-Server这个架构出现,它使原来的MIS成为可以ERP,可以使部门级的系统和数据变成企业级的,业务逻辑可以从一个部门跨到另外的部门进行行协同。


    切入细分种植种类,「耘管家」要用物联网提高农业标准化

    公司前期已经针对细分领域积累了大量实际种植的经验和模型,并且与专家指导向结合,使产品输出的解决方案能够符合农场的真实需求,落地性强。公司正在利用互联网、线下讲座、自媒体推广等方式接触终端用户,但国内小农场的服务市场还没有激活,所以依然需要依托大企业、农业科研体系塑造品牌形象,公司在这方面需要做更多的工作,当前阶段目标是通过对草莓农场及其农产品的品质进行筛选、认证的方式塑造专业形象打造公司的品牌效应。。


    孵化于网易人工智能,易现先进科技推动“AR+”产业数字化迈向新台阶

    2011年,赶上移动互联网发展的大潮,从浙大博士毕业的李晓燕,加入网易,创立了网易人工智能前身多媒体技术部,初衷是希望用技术创新提升互联网产品服务和用户体验,经历了7年的创新应用之路,团队已全面探索AR+AI技术的商业化之路,产品和技术应用覆盖网易游戏、邮箱、音乐、电商、新闻、教育、云服务等网易系产品,触达近10亿用户,峰值期间覆盖8000万人/天。据介绍,网易洞见是国内互联网巨头企业中规划最早、架架构最完整的人工智能加持增强现实平台,通过网易洞见客户端、互联网应用引擎和AR游戏引擎3种不同产品形态,有效连接优质AR内容开发者和使用场景,为开发者和企业提供优质完善的AR工具,为用户带来高质量的AR体验。


    东方弘泰资本管理合伙人&CEO 马云涛:要把先进体育赛事传播、制作技术带到中国

    另外从B端来说,我们也会看一些机会,因为5G时代的来临,在体育赛事、体育事件传播上,会出现一些新的技术,我们也观察这些新技术对整个体育赛事、体育产业改变的机会是什么。