第2章 图像美学
图像美学质量是对视觉感知美的度量。虽然判断图像的美学质量这一任务主观性非常强,往往涉及情感和个人品位,然而人们往往会达成共识:某些图像在视觉上确实比其他图像更有吸引力。这也是新兴研究领域——计算机美学的研究方向之一。
本章重点探讨如何用可计算方法来自动评估图像的美学质量,这项研究的最大挑战在于低层次图像特性与高层次人类美学感知之间的差距。
图像美学基础
传统美学质量评估方法
深度学习美学质量评估方法
建筑图像美学质量评估实战
2.1 图像美学基础
图像美学研究如何用可计算技术来预测人类对视觉刺激产生的情绪反应,并探案令人类产生更愉印象的方法,这一领域被称为计算机美学( Computer Aesthetics)。
2.1.1 什么是图像美学
《牛津高阶英语词典》将美学定义为:“concerned with beauty and art and the understanding ofbeautiful things, and made in an artistic way and beautiful to look at.”。
视觉美学是人类对外界视觉刺激产生的感知美的一种度量,不同的图像引发的情感反应不同,一些图像会给观赏者留下比其他图像更愉悦的印象。
图像美学质量是对视觉感知美的度量,它与图像的颜色、光影、构图、虚实等因素密不可分,并与图像的语义内容相关。鉴于美学的抽象性和主观性,即使专业摄影师也难以说明哪些特征对图像美学质量影响更大。虽然美学难以描述,但摄影师们仍然总结出了一些通用的摄影规则和技术来调整图像的颜色、光影、构图、景深等因素来获得更具有视觉吸引力的图像,也就是美学质量更高的图像。
那么,什么是图像美学质量评估呢? 传统的图像质量评估目的在于利用计算机模拟人类视觉系统自动评估图像的失真程度,即评估图像质量下降的程度,包括图像在采集、传输、压缩和存储过程中产生的图像质量下降。与传统的图像质量评估不同,图像美学质量评估更注重图像的主观美感。
图像美学,又可称为计算机美学,对应的英文描述包括 Computer Aesthetics、Photo Aesthetics 等。
2.1.2 图像美学的应用
随着数码相机和智能手机等摄影设备的普及,互联网上和存储在个人相册中的照片数量正在爆炸式增长。图像美学质量评估在许多应用中显示出了越来越重要的作用,如图像检索、自动照片增强、照片筛选和相册管理等。在这些应用中,图像美学质量评估可以帮助人们更好地浏览、管理甚至创作更具视觉吸引力的图像。
图像搜索
图像美学质量评估算法可以有效改进图像检索应用。当前图像检索应用根据用户的查询检索到大量相关结果,然而位于顶部的搜索结果有时候不具有视觉吸引力。在这种情况下,用户需要浏览更多结果以找到与检索内容相关又具有视觉吸引力的结果。此时,图像美学质量评估可以减少用户工作量。作为后处理步骤,图像美学质量评估算法根据检索到的图像美学质量重新排列检索到的图像。这样使得位于顶部的检索图像都是高质量的图像。
印度理工学院的研究者们就利用图像美学技术增强Twitter上的广告推广效果。未来,基于美学质量的排序还可以与其他排序标准相结合,以便在图像搜索中提供更好的用户体验。
自动照片增强
用户可以按照自己的喜好通过照片编辑工具修改照片的某些特征,像Adobe Photoshop这样的商业软件就提供了这样的工具。但想要得到更具视觉吸引力的图像,通常需要用户有一定的摄影和美学知识。对普通用户来说,他们往往不清楚哪些元素需要修改并且如何修改它们才能使图像更具视觉吸引力。在这种情况下,自动提高图像美学质量的自动照片编辑工具是非常有用的。开发这样的工具需要解决两个问题:如何编辑照片并且如何评估不同编辑后的美学效果。后者的答案是采用图像美学质量评估技术,而前者的答案就是第3章的内容,即基于美学的自动构图。一个常见的实现方法是在两个图像编辑操作之间进行迭代并评估候选方案的美学质量,直到选择最好的构图。
照片筛选和相册管理
个人照片数量激增产生了一个问题:手动管理大量照片会很耗时。因此开发自动有效的照片筛选和相册管理工具是很有必要的。一般人们会依据美学标准选择照片,因此美学质量评估在其中有着重要的作用。
康奈尔大学的研究者们开发了一个照片选择应用程序,来从大型个人照片集中选择美观的照片。这个应用的输入是一个个人相册,可以是与朋友旅行时拍的照片,也可以是家庭聚会时拍的照片等。照片中可以包括很多人,也可以是由不同设备在不同场景下拍摄的。此应用的核心算法就是通过图像美学质量评估算法选出美学分数高的、更有视觉吸引力的照片。
由此可见,图像美学质量评估算法已经渗透到了人们生活的各个方面,在未来的生活中图像美学质量评估也将发挥更重要的作用。
2.1.3 图像美学数据集
预测图像美学质量这一任务的主观性引出了一个关键问题:该用什么样的数据来学习图像美学质量?为了对可计算方法进行训练和评估,需要有一个带有人类主观美学标签的图像美学数据集。由于美学主观性较强,创建一个带有人类主观美学标签的数据集难度是很大的,但图像美学质量评估基准数据集的构建是该研究的关键前提条件。
理想情况下,数据集需要收集大量来自不同摄影师(包括业余爱好者和专业人士)的照片,并需要包括不同的内容和风格,从肖像到风景、从抽象到现实等。此外,还需要进行大规模的人类研究,以便评估者在赋予图像美学分数/标签时能够达成共识。另外,还应根据美学任务的定义选择研究的参与者。如果美学任务的目的是了解专业摄影师眼中的美学,那么应该在专业摄影师中进行研究。如果美学任务的目的是了解并非专业摄影师的业余人士眼中的美学,那么应该在业余人士范围内进行研究。人类研究还需要在参与者构成、观看条件、观看时间、显示器屏幕分辨率和其他因素方面有很好的控制。
现实研究中,获取图像美学质量评估主观得分的方法主要有实验室内的人工打分(如香港中文大学的CUHK-PQ数据集)、在线图像分享打分网站下载(如美国宾夕法尼亚州立大学的Photo.Net数据集)、众包评估方法等。
在实验室内进行的人工主观评估打分实验参与人数有限,难以代表不同人群对美的认知。从在线图像分享打分网站下载收集的方法虽然参与者众多,但难以控制图像来源,并且难以控制实验的各项参数,容易引入多种实验误差。因此现在很多研究人员采用众包评估方法来构建数据集,这样既可以控制图像来源,又可以尽量使参与者多样性增强。
2.1.4 图像美学的研究思路
分类问题
很多研究将图像美学质量评估定义为分类问题,将此任务定义为分类问题不仅为这一研究领域提供了一个简单的出发点,而且可以降低由于主观评分不一致带来的影响。不同的人有不同的评分标准,这使得人类标注主观性较强。把平均分数在一定范围内的图像作为一组,可以帮助消除评分不一致带来的影响。在这种情况下,将图像美学质量平均分数分为个区间可以得到类美学质量。
最简单的情况下,图像美学质量评估被看作二分类问题,即,两个类别分别为“高美学质量”和“低美学质量”,然后使用分类器进行学习。
为了评估美学质量分类算法的性能,可以使用分类算法中的度量标准。对于美学二分类,通常使用分类准确率、ROC(Receiver Operating Characteristic)曲线和PR(Precision Recall)曲线。
回归问题
虽然分类问题比较简单,但我们更理想的目标是让计算机像人类一样预测美学质量分数。在一些应用中,需要按照美学质量分数将图像排序,这时候我们需要得到更精细的美学质量分数而不是美学质量的粗粒度分类。
假设一组带有美学质量标签的图像集合为,其中表示从各个图像中提取到的美学特征,表示各个图像的美学质量分数。在训练阶段,学习回归模型来得到图像特征与期望分数之间的映射。在测试阶段,用提取测试图像的特征,学习的回归模型会预测出测试图像的美学质量分数。
图像美学质量分数回归模型有线性回归、支持向量机(Support Vector Machine,SVM)回归、CNN回归等,通常使用残差平方和RSS(Residual Sum of Squares)来评估系统性能。RSS定义如下。
其中,为测试图像的数量,为第i张图像的真实美学质量分数,为预测分数。
排序问题
判断单张图像的美学类别或者美学质量分数是比较困难的,训练出来的模型也容易过拟合。然而比较两张图像的相对美学,即一张图像是否比另一张图像更加好看,这更加简单,也更加符合人类的常识。
2.2 传统美学质量评估方法
提取计算特征来表示图像吸引力是图像美学质量评估任务的关键步骤,提取特征的好坏会直接影响后续决策算法的性能。传统方法的研究主要通过人类直觉、心理学等获得灵感来设计美学特征。
Peters等研究者分析了人类视觉系统,并推导出视觉美学的6个基本维度:颜色、形式、空间组织、运动、深度、人体。Ke Yan等人提出影响图像吸引力的3个重要因素:简洁、逼真和基本的摄影技术。Li Congcong等人提出颜色、构图、意义、纹理和形状是影响图像美学质量的重要因素。Luo Yiwen等人强调了图像的主题对图像美学质量的重要性。此外,Sagnik Dhar等人提出用高级语义属性来描述图像吸引力。
基于这些对图像美学质量评估标准的分析,研究者们提出了多种算法来提取与这些标准相关的图像特征。接下来将会详细分析这些能表征图像吸引力的特征和属性,这些特征主要分为3组:底层美学特征、摄影美学特征、通用与专用图像特征。
2.2.1底层美学特征
所谓底层美学特征,主要是指图像的颜色、亮度等统计特征。
颜色与色调
颜色是从图像中获得的最直接的信息,创造更具吸引力的色彩构成是专业摄影师的重要能力,通常会在HSL或者HSV颜色空间中进行评估。
粗略提取图像颜色特征的一个方法是计算图像中像素颜色的平均值,从艺术角度来说,平均值或多或少可以反映图像的色调。此外,还可以基于图像中的所有像素生成直方图以表示图像的全局颜色组成,或者基于预分割区域内的像素生成直方图来表示局部颜色组成。
出色的摄影作品通常色调都非常简洁、和谐,这样可以突出主体,而业余人士拍摄的照片可能看起来混乱。对此,研究人员提出了颜色和谐性等特征
摄影中色调常遵循单一色调、互补色调、相邻色调等原理。基于此,我们可以提取前景和背景HSV色相直方图中的平均色相值和方差来判断色调,并使用KL散度等指标来判断前景和背景的直方图分布相似度。
互补色调原理,即具有视觉美感的主色调搭配方案,常常是色相区间相隔。
亮度与对比度
摄影器材的自动曝光程序会依据18度灰进行曝光,当物体颜色接近黑色,相机会增加曝光,反之会减少曝光,但是该原则并非对所有场景都适合。例如,雪景中自动曝光会导致人物欠曝光,逆光场景下自动曝光则容易产生过曝现象。选择适当的光线条件和控制曝光是专业摄影师的基本技术,专业摄影师也会充分利用光线对比度来强调主体。
最简单的情况下,我们可以使用平均亮度和亮度对比度来作为特征。Ke Yan等人则提出了全局边缘分布、对比度和亮度指标来表示图像,然后基于这些特征训练贝叶斯分类器。Tong等人通过将全局低级特征(模糊性、对比度、显著性)结合起来对摄影作品和普通照片进行分类。
18度灰又称中阶灰,来自科学家对自然界的平均反射率的统计结果。
2.2.2摄影美学特征
摄影美学特征主要是专属于摄影领域的特征,包括空间构图特征、前景与背景特征等。
构图
除了颜色和光线会影响图像吸引力,主体的位置及其空间相互关系在图像美学质量中也起着重要作用。专业摄影师有着丰富的构图知识和技术。若保持主体的完整形状,只是改变其空间位置,图像美学质量也会有很大变化。很多构图特征都是受摄影规则启发的,如黄金分割法则、视觉平衡等,其中最广泛使用的是三分法构图。
不过,并非所有的照片都是遵循于一个固定的构图模式,摄影就是需要创造,有时候突破常规才能获得更好的作品。
主体
专业摄影师会通过各种技术,如大光圈制造浅景深来突出图像中的主体,因为图像中的各个部分对整个图像美学的贡献也不相同。图像的主体区域更能吸引观赏者的注意力,因此其对图像吸引力的影响比背景区域更大。
基于此,我们可以计算与前景、背景相关的特征。
第1个是主体区域的色彩丰富度,可以基于色调图计数特征来计算主体区域的色彩丰富程度。
第2个是背景简洁度,简单的背景可以使观赏者的注意力集中于主体区域,背景是否简单可以用背景区域的颜色分布、边缘特征来衡量。
第3个是主体区域的空间位置,主体区域的空间位置对图像的构图有很大影响,因为它会影响图像的视觉平衡和三分法构图。
除此之外,专业摄影师也经常使用光影效果、线性透视技术来增强立体感,这有助于将人类的想象空间扩展到有限的图像空间之外,表现图像的三维立体感,增强图像的艺术性,然而相关的度量指标很难定义。
2.2.3通用与专用图像特征
最后要说的就是通用与专用图像特征,通用图像特征不直接与摄影美学有关,而专用图像特征只适用于特定图像。
有研究者曾使用了多个通用图像特征,包括尺度不变特征变换(Scale-in ariant Fenture Transform,SIFT)、视觉词装模型(Bag-of-Visual-Words,BOV)等,计算一系列特征后组成特征向量,然后使用SVM等分类器进行分类。研究表明对于某些风景照,局部二值模式(Local Binary Pattern,LBP)特征和方向梯度直方图(Histogram of Oriented Gradient,HOG)特征比较有效。另外,其他通用的图像质量评估指标如清晰度、噪声等也可以被用来评估美学质量。
而对于某些特定类型的照片,如商业人脸照片,就可以使用人脸专有的人脸表情、姿态等特征。
总的来说,影响一张图像美学体验的因素非常多,此处我们只介绍了其中最通用的一些,不同类型的图像有最适合它的特征,需要针对性分析才能获得比较好的结果。
由于传统的特征提取方法受限于专家知识和特征的表达能力,甚至有一些摄影知识难以用数学来描述,当前更好的做法是基于深度学习技术从数据集中自动学习美学相关特征,请看2.3节的介绍。
2.3 深度学习美学质量评估方法
从大量数据中学习特征已经在识别、定位、跟踪等任务上表现出越来越好的性能,超越了传统的人工设计特征。越来越多的研究者开始通过深度学习方法学习图像特征,在图像美学质量评估领域研究者们也开始采用深度学习方法学习图像美学特征,本节介绍相关进展。
我们给大家介绍过,图像美学质量评估问题可以作为分类问题、回归问题、排序问题来进行研究,下面我们分别对这3类模型的发展进行介绍。
2.3.1 分类模型
利用深度学习方法,研究者即使没有丰富的图像美学和摄影知识也可以完成图像美学质量评估任务模型的训练,且其性能要好于人工设计特征。
单输入模型
上述模型架构是一个常见的图像分类或者回归模型架构,由于美学数据集较小,可以采用从其他任务,如lmageNet分类任务中学习到的通用深度特征进行初始化,然后为美学质量评估任务训练新的分类器或回归模型。
另外,还可以使用模型本身的多尺度信息,即融合不同层、不同感受来获取全局和局部的特征,这在图像分割模型UNet和目标检测模型SSD中被证明可以有效改进模型的学习能力。
多输入模型
为了获得更好的结果,Lu等人提出了RAPID模型,它们将全局和局部CNN堆叠在一起形成双列CNN(DCNN),分别输入全局图和局部图。全局图有利于捕捉主体信息,而局部图有利于捕捉局部细节。RAPID模型使用类似AlexNet的架构,两个子网络的输出层(即全连接层)进行拼接得到最终特征,然后进行分类,优化目标采用Softmax损失。
另外,在RAPID模型中还可以通过增加风格输入来进一步提高网络的能力。由于AVA数据集中带语义标签的图像较少,笔者使用了预先训练好的风格网络来提取风格向量,然后和美学网络提取的特征向量拼接以作为最后的特征向量,在这个过程中风格向量相当于一个正则项。
Wang等人提出了一种被称为BDN的多列CNN模型。与RAPID模型不同的是,BDN模型预先训练了多个不同风格的分类CNN模型而不是单个风格的分类CNN模型,这些模型与图像的亮度、色度底层信息一起并行级联作为CNN的输入来预测图像的美学质量分数和分布。
在DMA模型中,来自多个随机采样的图像块被送入包括4个卷积层和3个全连接层的单路卷积神经网络。为了组合来自采样图像块的特征输出,设计了一个统计聚集结构(Odderless Multi-Patch Aggregation),在这个结构中使用了最小、最大、中值和平均池化方法对CNN的特征进行聚合,最后输出Softmax概率到分类层。
实际上随机选择图像块并非是最优的方案,因为我们不对整个图像的内容感兴趣,所以对于DMA模型的最简单的改进,就是使用显著目标检测等方法预先确定图像主体目标,然后根据一系列构图方法来选择附近有意义的图像子块。显著目标检测方法将会在第3章中介绍。
以上的模型或缩放了图像分辨率,或裁剪了子图,这改变了原图的美学特性。因此Mai等人借鉴SPPNet中的自适应空间池化技术,在最后的卷积层之后,使用了多路不同感受野大小的固定长度的输出,不仅有效地编码了多尺度图像信息,还可以在训练和测试时适应任意大小的输入。不过多尺度特征可能包括冗余或重叠的信息,并且可能导致网络过拟合。
2.3.2 回归模型
虽然使用分类模型可以较好地分类出高美学质量图和低美学质量图,但有时候我们要得到的是美学质量分数的定量结果,而不仅仅是一个分类结果,此时需要使用回归模型。
基本的回归模型与上述的分类模型结构一致,只是标签和预测结果值由美学分类类别换成了具体的分数值,优化目标由交叉熵损失换成了欧氏距离等损失。
然而,预测具体的美学质量分数很容易过拟合,因为不同人的标注结果有很大差异。在AVA数据集中,一张图像的标注结果由多个人完成,因此标注结果是一个分布,而不是单一的值。基于此,Google的研究团队提出了NIMA模型,它预测美学质量的分数分布概率,分数值为1~10。
该研究团队使用的NIMA模型架构,分类网络的最后一层被全连接层取代,输出10个分数的分布。
对于NIMA模型,可以使用欧氏距离作为优化目标,但是使用KL散度、卡方距离(Chi-square Distance)、推土机距离(Earth Mover's Distance)等是更好的选择,因为它们更适合用于评估两个分布的相似性。
2.3.3 排序模型
前面说过判断单张图像的美学类别或者美学质量分数是比较困难的,然而比较两张图像的相对美学较容易,因此排序模型也是一种研究美学的方案。
Kong等人提出了以图像对为输入的Siamese模型。
训练的时候分多步进行。
在第1阶段,基础网络在美学数据集上预训练并进行微调,这一阶段使用欧氏距离作为优化目标。之后,Siamese模型对每个采样图像对的损失进行排序。收敛后,微调的基础网络被用作初步特征提取器。
在第2阶段,将属性预测分支添加到基础网络以预测图像属性信息,然后通过结合评分的欧氏距离损失、属性分类损失和排序损失,使用多任务方式继续对基础网络进行微调。
在第3阶段,另一个内容分类分支被添加到基础网络以预测预定义的一组类别标签。收敛时,内容分类预测的Softmax输出作为加权向量,用于加权每个特征分支(美学分支、属性分支和内容分支)产生的分数。
在第4阶段,将带有额外分支的基础网络与固定的内容分类分支一起进行微调。
实验结果表明,通过考虑属性和类别内容信息来学习美学特征是非常有效的。
对于排序模型,我们不仅可以使用Siamese模型,也可以使用Triplet模型,感兴趣的读者可以阅读更多参考资料。
Triplet模型支持一次输入3张图像,其中一张作为基准样本,另外两张作为正样本和负样本,通过约束正样本和基准样本的距离小于负样本和基准样本的距离,它可以让模型学习到在类内更加紧凑、类间更加分离的特征。
2.3.4 多任务学习模型
无论是使用分类模型,还是使用回归模型、排序模型,直接对通用的图像进行美学质量评估是非常困难的,因为不同风格的图像、不同语义特征的图像无法共用同样的评估标准。
所以一个好的图像美学质量评估模型,一定会根据不同的类别和语义信息来自适应学习美学特征,这是一个多任务学习过程。
多任务学习,即同时完成不同任务的学习,如在目标检测过程中的目标分类和定位,其中需要平衡不同任务的损失和学习速度。
监督信息
对于美学质量评估任务,可以使用额外任务,包括不同摄影风格的识别、不同语义内容的识别。对于风格来说,它表征了一幅作品的主题和摄影手法,不同的摄影手法需要不同的评估标准。
对于语义来说,不同的内容所遵循的摄影准则有巨大的差异。例如,风景图常使用丰富的色调和三分法构图,而它们可能不适用于人像;人像和静物图则往往需要浅景深、干净的背景等。
模型
根据对输入、输出的使用方式不同,多任务学习有多种模型。在前面介绍的RAPID模型中,风格网络提取的特征与美学网络提取的特征一起作为网络的输入,BDN模型同样训练了多个风格子网络来预测图像的风格属性,这样的模型并没有多任务的损失,而是作为一种额外的监督信息用于优化学习过程。
更多的多任务学习模型则将全连接层的输出分为多个任务,分别预测美学、风格、语义内容等,通过多任务损失的约束来进行学习。
2017年Google的研究者创造了Creatim系统,它能够通过学习模仿专业摄影师的作品从Google拍摄的街景图中创作出更好的图像。
当前图像美学质量评估还面临着一些难题。
(1) 美学的主观性决定了图像美学质量评估是一个非常具有挑战性的任务。到目前为止,在图像美学质量评估方面涌现了很多具有竞争力的模型,但是这个领域的研究状况还远未达到饱和。人工设计的美学特征很难被量化,也不够全面。虽然深度学习方法具有强大的自动特征学习能力,是现阶段图像美学质量评估的主流方法,但是如何学习适应各种风格的模型仍然是一个挑战。
(2) 深度卷积神经网络输入图像往往经过了裁剪、缩放或填充等操作,这会破坏图像原有的构图,从而损害图像的原始美感,如何同时保留图像的全局信息和局部信息是一个重要课题。
(3) 将深度学习方法应用于图像美学质量评估面临的挑战还包括图像美学真值标签的模糊性和如何从有限的辅助信息中学习特定类别的图像美学特征。图像美学质量评估需要具有更丰富注释的、规模更大的数据集,其中每张图像最好由具有不同背景的、数量较多的用户标记。这样一个庞大而又多样化的数据集将大大推动未来图像美学质量评估模型的发展。
(4) 人的审美终究是有差异的,如何学习个性化的审美也是一个必须解决的问题。
2.4 建筑图像美学质量评估实战
前文详细介绍了图像美学质量评估的发展现状,这是一个比较主观的问题,不同的摄影作品类型也需要使用不同的评估标准。本节我们将用深度学习方法实现一个比较简单的建筑类图像的美学质量评估模型,让大家感受深度学习模型对美学特征的学习能力。
2.4.1 数据集准备
由于AVA数据集等现有的数据集中建筑类图像数量较少,无法满足训练要求,因此我们需要自己准备图像并对其进行美学标注。
数据爬取
下面我们以从图虫网获取图像为例,详细介绍数据获取过程。
图虫网是一个国内非常流行的摄影网站,我们可以利用关键词“建筑”获取非常多建筑类图像,并使用Python对图虫网的数据进行爬取。
数据标注
清洗完数据后我们需要对图像进行美学标注。通常来说,评估一张建筑图的美学质量,我们会从前景与背景对比度、构图、色调等因素来进行,因此我们根据这个标准来进行标注。如果含有某属性,则标注为1,否则标注为0。
最终标注完获得了12000张图,训练时按照9:1的比例划分。
2.4.2 模型设计与训练
对于上述建筑图像的3个属性,我们首先训练3个结构相同的分类网络,然后将结果进行融合得到最终的分数。
分类模型
我们使用MobileNet作为基本模型架构,截取从conv1到conv 4_2的部分,最后的全连接层输出调整为二维,使用Cafe深度学习框架,训练时所有的图像大小缩放为160px×160px。
模型训练
优化方法选择了Adam,训练batch_size=64。
对比度模型精度最高,色调模型次之,构图模型最低,这很好理解。
对于对比度模型,它需要学习的是图中是否存在明显主体、背景是否纹理简单,这是一个比较简单的任务。对于色调模型,它需要分别学习主体和背景的颜色分布,相比对比度模型,任务更加复杂,但是相对比较明确。
对于构图模型,它不仅需要学习主体和背景,还需要学习它们的位置分布,并且构图的种类相对复杂,所以是最难完成的任务。
2.4.3 模型测试
得到了对比度评估模型、色调评估模型、构图评估模型之后,我们接下来用自己拍摄的、未包括在训练集中的图来对各个模型进行测试,总共有500张图。
之后我们将3个模型的结果进行融合,在数据集中进行排序,选择其中得分最高的10张图和得分最低的10张图。
2.5 小结
本章介绍了图像美学的基础,传统图像美学评估的方法以及基于深度学习的美学评估方法,然后在2.4节中进行了实践。
在2.1节图像美学基础部分,重点讲解了美学在图像搜索、自动照片增强、照片筛选方向的应用,介绍了目前用于研究美学 问题的主流数据集,以及从分类、检索、排序等3个角度来研究美学的思路。
在2.2节传统图像美学评估的方法中,介绍了底层美学特征中的颜色与色调特征、亮度与对比特征、摄影美学特征中的构图 特征、主体特征,以及通用和专用的图像特征。由于摄影美学问题是一个主观性和复杂性都较高的问题,这一些基于专家经验设计的特征很难完成图像美学评估任务。
在2.3节基于深度学习的美学评估方法中,从分类模型、回归模型、排序模型以及多任务学习模型4个方向介绍了相关核心技术,目前基于深度学习的方法已经可以较好地理解图像美学,不过人群的审美差异和不用风格图像的统一评估仍然面临较大的挑战。
在2.4节中针对建筑图片进行了美学评估模型实践训练,从前背景对比度、构图、色调3个方面,完成了对建筑摄影作品的美学分类,并融合几个模型的结果对美学进行了排序,验证了美学模型的有效性。不过其中还有许多可以改进的地方,包括:
(1) 增加更多的美学维度。本次只聚焦在了对比度、构图、色调3个方向,实际上一个好的建筑摄影作品,还需要足够好的 创意或其他因素,添加更多的美学维度一定可以获得更好的模型;
(2) 改进各个维度的评分方法。本实验中3个方向的标注相对简单,需要进行更多的细分改进,尤其是构图的标注相对于各 种各样的构图方法过于简略,在实验结果中就无法学习到俯仰构图、消失点构图、对角线构图等好的构图方法。
关于更多图像美学质量评估模型的解读,读者可以阅读Deng Yubin等人在2017年撰写的图像美学质量评估综述Image Aesthetic Assessment: An Experimental Survey,并了解其在学术界和工业界近年来的发展。
图像美学质量评估仍然是一个比较开放且可能永远没有标准答案的问题,但仍然有不少研究者对其保持热情,因为让计算机能够像人一样理解美是一件非常有趣的事情。
Last updated