Google Pixel相机如何帮你自动捕捉最佳自拍照?

Google AI研究团队近日在最新的Pixel相机中,于无快门模式Photobooth添加亲吻侦测功能,当用户亲吻自己的爱人时,相机会自动捕捉这一瞬间。Google过去是借由Photobooth模式,让用户更简单地成功自拍,不管是一个人、情侣或是团体照,都能够自动捕捉到最好的画面。

Google表示,要拍出一张好的团体自拍照其实不太容易,为了能够降低自拍的困难,Google研究团队将自动摄影技术带到Pixel手机上,一旦用户进入Photobooth模式并按下快门键,系统将会自动在相机稳定,且同时确保拍摄对象有好表情的时候拍摄。

在一系列的Pixel相机功能中,Google于Photobooth加入了Top Shot和肖像(Portrait)模式,来让用户尽可能拍出最好的照片,有别于针对后置镜头专用硬件优化的肖像模式,Photobooth则是针对前置镜头进行优化,为了构建Photobooth,Google必须克服3项挑战:如何在团体中正确识别好内容、如何计算按下快门捕捉最佳时刻的时间,以及如何制作视觉动画帮助用户了解Photobooth看见的画面。

首先,Google研究团队创建了用来理解好内容的模型,Photobooth依赖两个不同的模型来捕捉好的画面,一个是脸部表情模型,另一个则是检测用户何时亲吻的模型,Google与摄影师合​​作,整理了5个应该触发自动拍摄的关键表情:微笑、伸舌头、亲吻(或是都嘴)、鼓起脸颊和警喜的表情,接着,Google训练神经网络针对这些表情进行分类。

相机系统自动识别表情的下一步,就是要控制快门,用户使用Photobooth模式按下快门后,系统会根据上述的模型识别结果,针对画面内容给给基本的品质评估分数,第一阶段会将不好的画面过滤掉,像是闭眼睛、讲话、动作模糊、侦测脸部表情失败等,Photobooth会暂时分析表情的信心值,来侦测拍照对象在照片中的表现,第一阶段若成功通过,每一帧会受到更细化的分析,来产生整体的评分结果。

整体的画面评分考量因素包含脸部表情品质和亲吻分数,由于亲吻侦测模型是针对整个画面来执行,侦测输出的结果可直接用于全画面的分数值,而脸部表情模型是针对个别被摄者表情输出结果,Photobooth利用attention模型将侦测到的表情,通过迭代的方式计算出表情品质的代表值,以及每个脸的权重,Google指出,权重相当重要,举例来说,权重能够强调画面的前方区域,模型接着会为画面的表现品质,计算出一个通用的分数。

最后,模型计算出的图片品质分数,被用来触发快门,为了找出拍摄出最佳品质的瞬间,快门控制算法保留了观察画面的短缓冲区,若一个画面的品质分数比缓冲区之后的分数高,系统才会保存该张照片,而缓冲区的时间也足够短暂,让用户认为Photobooth是即时的反馈。

由于自拍时用户使用的是前置镜头,能够与屏幕上呈现的画面交互,Google也在Photobooth模式中加入了视觉的指引,当用户要拍照时,屏幕上方会出现一个长条图案,当照片品质增加时,该长条图案的尺寸也会变大,借由这样可视化的方式,协助用户理解机器学习算法看见和捕捉的画面,该长条图案的长度被分为4段,一是无法识别清楚的脸部,二是可识别脸部但是用户并没有看向镜头,三则是有看镜头但是没有出现上述5种关键表情,最后则是有看向镜头且出现关键表情,长条指示图案会随着照片品质变动,当到达高品质分数时,Photobooth就会拍下并保存照片。