CFAN:Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment

CFAN:Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment作者:嫩芽33出处:http://www.cnblogs.com/nenya33/p/6801045.html版权:本文版权归作者和博客园共有 转载:欢迎转载,但未经作者同意,必须保留此段声明;必须在文章中给出原文连接;否则必究法律责任原始论文链接:http://citeseerx.i

大家好,欢迎来到IT知识分享网。

作者:嫩芽33

出处:CFAN:Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment
版权:本文版权归作者和博客园共有 

转载:欢迎转载,但未经作者同意,必须保留此段声明;必须在文章中给出原文连接;否则必究法律责任

CFAN:Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment

原始论文链接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.702.1120&rep=rep1&type=pdf

 框架:

CFAN是将深度网络(自编码网络)作为回归器,利用级联回归coarse-to-fine的框架,实现人脸特征点定位的方法。

它是一种用深度网络做人脸特征点定位的方法,采用的结构是级联栈式自编码(Stacked Auto-encoder Networks,SANs),级联过程由四个栈式自编码网络(SAN)完成。每个SAN根据前一个SAN的形状估计,在不同尺度图像下,学习人脸图像到人脸形状的映射。

第一个SAN(global SAN)的目标是尽力找到关键点的大致位置,所以检测好人脸的低分辨率图像作为输入,定位结果不够准确,但实现快速。输入的是全局图像特征,不是给定初始形状(一般是平均形状)的局部形状索引特征,优点是,避免了不准确的平均形状对后续refine过程的影响。无需给定初始形状,也是用自编码网络做定位的优点是,它会快速地从图像中自学习,得到一个更接近真实形状的初始形状S0

后续级联三个SANs(local SANs)的目标是逐步精调(refine)前一个网络得到的形状估计,每个SAN的输入是前一个网络得到的形状(称为当前形状)在更高分辨率图像上的局部特征(形状索引特征),学习特征和形状差异delta_S(当前形状和真实形状的差)之间的关系,用来更新形状。将所有点的形状索引特征连接起来,一起更新所有特征点,有种增加形状约束的意思。

 CFAN:Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment

Global SAN

输入:人脸图像 x

标签:p个特征点的真实位置(真实形状) Sg

目标:学习图像x到人脸形状的映射F: x->S

网络结构:通常情况下,F是复杂的非线性的,为了达到目标,将k-1个单独的隐藏层自编码堆叠起来,作为深度神经网络,将图像映射到对应的形状上。那么人脸对齐任务就可以公式化为最小化下面的目标:

CFAN:Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment

CFAN:Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment

F={f1,f2,…fk},f是深度网络中第i层的映射函数。激活函数(sigma):sigmoid,激活函数的输出范围【0,1】对应于位置的范围。最后加一层线性回归(第k层)

输出:形状估计S0

【F有很多参数,容易陷入局部极小】

1.以堆栈方式,采用无监督的预训练来初始化前k-1层,随机初始化最后一层第k层

2.以有监督的方法finetuning整个网络

Local SANs

输入:当前形状下每个点的局部特征连接起来 

标签:当前形状Sj-1和真实形状Sg的差delta_Sj

目标:前面得到的S0很接近真实形状,后面几个SANs的目标就是根据连接的局部形状索引特征(例如SIFT),迭代地预测delta_Sj

CFAN:Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment

网络结构:与Global的相似,也是栈式深度自编码网络,只是输入是前一个网络预测形状在更高分辨率图像下的局部形状索引特征。

CFAN:Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment

实验细节(68点,特征用的是sift特征)

global:50*50–1600–900–400–136(68*2)

local:sift特征–1296–784–400–136

由于68点的sift特征维数太大,为68*136=8704,需要用PCA降维再输入到网络中,所以三个local网络的结构为

local_1:降至1695维后的sift特征–1296–784–400–136

local_2:降至2418维后的sift特征–1296–784–400–136

local_3:降至2440维后的sift特征–1296–784–400–136

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/33864.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信