智能时尚:人工智能在时尚&服装行业的应用综述 | 580+参考文献

2021-11-09 10:17:40 浏览数 (1)

论文:https://arxiv.org/abs/2111.00905

标题:Smart Fashion: A Review of AI Applications in the Fashion & Apparel Industry

摘要

时装业正处在一场前所未有的变革的边缘。机器学习、计算机视觉和人工智能(AI)在时尚应用中的应用为这个行业带来了许多新的机遇。本文对这一问题进行了全面的调查,将580多篇相关文章分为22项定义明确的时尚相关任务。这种结构化的基于任务的多标签时尚研究文章分类为研究人员提供了明确的研究方向,方便了他们访问相关研究,同时提高了研究的可视性。对于每项任务,都会提供一个时间图表,以分析历年的进度。此外,我们还提供了86个公共fashion数据集的列表,以及建议的应用程序列表和每个应用程序的附加信息。

关键词:Smart Fashion, Fashion Applications, Neural Networks, Recommender Systems, Fashion Try-on

1、简介

人工智能为时装业的零售商和顾客带来了许多好处[1]。这就是为什么每年都有越来越多的研究致力于人工智能在时尚行业中的应用,人工智能很快就会将这个行业重塑为智能时尚。随着这一领域研究的不断深入,这棵巨树的枝叶越来越多。这是一个庞大的等级制度,有时很难发现一些新颖的想法,并剥夺他们应得的关注。这就是为什么,与以前的评论文章不同,我们尝试包括尽可能多的例子,而不仅仅是最先进的方法。希望这将增加每个领域研究的可见性,从而在未来做出更好、更准确的贡献。

多篇调研和综述文章涵盖了智能时尚的最新发展。我们可以将这些研究分为两组。其中大多数属于第一组,这是基于应用程序的调查,侧重于单一应用程序,涵盖该特定应用程序的最新技术和新方法。我们将分别介绍这些研究,每项研究都属于相应的类别。第二组中的调查文章重点更广,涵盖不同的应用。2014年,[2]对造型任务的三个组成部分进行了简短研究。2018年,[3]讨论了计算时尚以及时尚与多媒体技术的碰撞,提供了时尚行业的公司名单以及他们目前正在开发的应用程序。2019年,[4]还回顾了以前的研究,重点是三组时装应用,以及数据集和行业应用。2020年,有[5],一项文献计量调查,以及[6],对每种应用中最先进的方法进行了精彩的回顾。最后,最新的工作是2021年的综合调查,包括4个主要主题和12个子类别的232项重要研究

我们的重点不仅是该领域的重要工作,而且还包括任何相关贡献。通过这种方式,我们可以关注潜在的看不见的潜力,也可以更广泛地分析智能时尚多年来的发展。我们选择了2010-2020年发表的文章(一些早期/后期的例外),这导致了总共586项相关研究的数量。我们使用多标签方案将所有这些文章分类为多个应用程序类和子类,这意味着一篇文章可能有助于各种应用程序。这些类别如图1所示。只有当文章明确报告了应用程序的相关结果时,我们才将每个文章分配给应用程序类别。

本文的主要贡献:

  • 我们对人工智能在时尚和服装行业中的应用进行了调查,我们的工作范围是迄今为止最全面研究的两倍多。
  • 我们介绍了超过22种应用,并使用多标签方案分别列出了每种应用的所有相关研究。
  • 我们列出了86个公共时尚数据集,以及每个数据集的结构信息和建议应用列表。据我们所知,这是最全面的公共时尚数据集列表,我们相信它可以帮助未来的许多研究人员作为快速参考。
  • 每个应用类别都有2010-2020年文章的时间图表。因此,它有助于分别分析每个类别的研究进展速度。
  • 我们还提供了类别的共现表,总结了这些应用程序之间的关系。

2、应用

在这里,我们遵循一个基于应用程序的文章分组。按照[3]的分类法,[6]将这些应用程序分为三类:1)Low-Level fashion识别、2)Mid-Level fashion理解和3)High-Level fashion应用。我们在这里提供的分类是基于每项研究的主要重点。因此,请记住,这些类别之间存在重叠。Higher-level 应用程序可能包括 mid-level 或多个low-level 应用程序,例如,试用(try-on)应用程序可能还包括解析、标记、分类、检测等。每个应用程序都有一个文章摘要表。由于篇幅限制,我们以单行格式介绍文章,使用第一作者的姓名、出版日期、技术关键词、结果(如有可能)。这些技术关键词试图总结使用的方法,与文章的关键词不同。它们提供了关于每一篇文章的丰富、紧凑和简化的信息。此外,我们使用“应用程序注释”在每篇文章中添加简短而直接的应用程序细节。

表格的性质要求我们使用缩写形式的单词,包括准确度(Acc)、精密度(Prec)、召回度(Rec)、平均值(m)、真阳性(TP)、人类研究/评分(HS)和其他常用技术词汇。研究人员在查阅这些表格时应注意,不同的研究在不同的情况下对不同的数据集进行实验。我们还使用特定的术语来谈论多种时尚形象类型;图2介绍了这些术语的一些示例。“商品”和“标题”是指一件带有白色或中性背景的时尚商品的专业目录图像,“模特”是指在标准条件下穿着一件或多件时尚商品的模特的全身/半身图像。“商店”图片是具有中性背景的专业图片,可能是“商品”、“模型”或两者的组合。“街头”图片是工作室外的高质量图片,通常集中在一个专业模特身上。他们有更复杂的背景,不同的照明条件,以及由于各种标准姿势而造成的轻微遮挡。另一方面,“野生”照片则完全没有限制。它们是用户创建的业余版本的街道照片,有时遮挡严重,光线不好,裁剪不当,整体质量差。

2.1 特征提取

特征提取目的是学习时装项目的数学表征。这是一项 low-level 但基本的任务。由于它在许多应用程序中使用,特别是在项目相似性方面,我们在本节中仅报告一些示例。特征提取可以通过经典方法、手工特征或深度学习方法来完成。

2.1.1 Classic Methods

在人工神经网络兴起之前,经典的特征提取方法和图像处理技术得到了广泛的应用。这些方法的示例包括颜色直方图、局部二值模式(LBP)、方向梯度直方图(HOG)、尺度不变特征变换(SIFT)等。

我们可以使用这些方法中的任何一种或它们的组合。例如,2009年[10]使用LBP、HOG和颜色直方图作为其智能镜子时尚推荐工具。Yang等人[11]将HOG、SIFT、DCT和颜色直方图结合起来用于监控视频中的服装识别。在使用神经网络之前,我们还可以使用这些图像处理技术对图像进行预处理,例如[12]在2019年,对基于深度CNN的初始图像输入应用了Haar级联和高斯差分(DoG),以构建推荐。

2.1.2 Deep Learning Methods

随着人工神经网络和深度卷积神经网络的出现,研究人员将注意力转移到这些网络上,用于表征学习任务。这些网络很快取代了特征工程的高强度任务。深度学习方法还允许我们学习细粒度特征。例如:Fashion DNA[13]、128单精度浮点中的Fashion Style[14]、Style2Vec[15]和[16]利用弱注释的Fashion图像。

2.2 Classification

分类是系统地将项目分组的任务。我们进一步将此任务分为1)分类和2)属性识别。术语可能看起来有点混乱,但我们需要将这两者分开。虽然它们可能有一些重叠,但它们是两个具有不同复杂程度的不同问题。

2.2.1 Categorization

本文使用术语分类来暗示一种基于共享的质量和规则集的分类形式。分类是对时装项目的主观分组。这项任务的重点是仅预测时装项目的主要类别(衬衫、连衣裙、裤子等)。由于每个项目只能存在于一组类别中的一个类中,因此此任务在大多数情况下都是单标签预测。

2.2.2 Attribute Recognition

属性是每个项目的特征和客观质量。每个项目可以有多个属性;这就是为什么它通常是一个多标签任务。例如,衣服(类别)可以具有颜色、图案、材质、价格、纹理、样式等属性。属性识别是比分类更广泛的任务;因此,它也可以预测类别。

相关的论文整理表格已省略

2.3 Detection

检测任务旨在精确定位目标在图像中的位置,并用于许多更高级别的应用。例如,它可能是时装项目的位置,也可能只是图片中信息丰富的区域。因此,我们将此任务分为三个子类别:1)物品检测,2)解析或分割,以及3)关键点检测。

2.3.1 Item Detection

物品检测任务侧重于在图像/视频中查找时尚物品,通常输出一个或多个包含该物品的边界框

2.3.2 Parsing (Segmentation)

时装解析是服装项目的语义分割,每个分割都有一个类别标签。物品检测和解析之间的主要区别在于前者仅在对象周围生成一个边界框。相比之下,在解析过程中,我们在像素级别为时尚物品添加标签,这是一项复杂得多的任务,尤其是由于人体姿势、遮挡、变形等因素而导致的时尚项目。

2.3.3 Landmark Detection

landmark detection于2016年首次推出[9],旨在发现时尚对象的关键点。例如,上身对象的关键点可以是左/右领端、左/右袖端等。这些关键点还隐式包含边界框,并且证明了关键点池可以在某些应用中提高性能

2.4 Virtual Try-on

虚拟试穿是一个非常活跃的领域,主要是因为它在在线时尚零售业中的潜在应用,以及在服装店中使用的离线智能软件包。我们将虚拟试穿分为五个子类别:1)基于图像的试穿,2)2D建模,3)3D建模,4)尺寸和配合,以及5)魔镜。请记住,基于图像的试穿任务也是二维的,但它不会更改输入图像,只是更改衣服项目。

2.4.1 Image-Based Try-On

基于图像的试穿系统通常将一张图像作为输入,并根据用户需要更改照片中的时尚项目。更改仅对输入图像的特定区域生效,其余区域保持不变。还有一些化妆品转移和发型建议的应用,我们只报告了几个例子,在本文中没有完全介绍。基于图像的试穿系统通常接受两个输入,一个参考图像,一个目标装备,并将装备传输到参考图像。在表6中,我们尝试在“应用说明”部分使用双关键字(目标参考)报告此传输的确切类型。这些系统将“目标”的质量传递给“参考”图像;例如,模型设计将服装从一个人体模型图像传输到另一个存在人体模型的图像,而标题模型系统需要所需服装的店内目录图像作为目标。研究使用不同的评估指标,如初始评分(IS)、人类评分(HS)、结构相似性(SSIM)和各种其他指标

2.4.2 2D Modeling

二维建模也是基于图像的,有一个主要区别。这里,输入图像完全改变,输出是原始图像的新二维模型。2D建模可以是从不同角度合成相同图像、具有不同姿势的人的姿势引导图像合成(称为姿势变换),或者甚至是输入图像的图形/卡通模型或化身。我们标记为2D建模的大多数系统都是姿势引导的试用系统。还有一些姿势转换系统可能不关注时尚;然而,他们提出的方法可以在2D建模试验系统中实现。

2.4.3 3D Modeling

3D建模应用包括试穿和3D服装建模。一些研究侧重于三维人体扫描和服装的几何或纹理建模,而另一些研究侧重于从二维输入图像进行三维建模和物理模拟。服装人体的3D建模是一个非常活跃的领域,不仅出于时尚目的,部分原因还在于其在大型电影和动画行业以及游戏图形中的应用。我们尽可能在表8的“应用程序注释”列中使用双关键字(输入-输出)对系统进行分类。例如,“Image-3D Body”显示了从2D图像生成3D Body模型的系统。

2.4.4 Size & Fit

选择合适的衣服尺寸和最佳合身度是现实世界中试衣间存在的主要原因之一。技术需要为在线服装店的这一问题提供解决方案。研究将女性对服装合身的感知与她们心目中的身体形象联系起来,结果表明,选择合适的服装有助于提高自信,弥补感知的缺陷[314]。因此,我们需要系统根据用户的体型和尺寸预测不同个人的服装尺寸和时尚物品的合身度。主要方法之一是三维人体扫描。数字化技术可以测量特定的身体部位,甚至可以在几秒钟内生成全身测量。因此,我们也可以考虑SEC 2.4.3中的各种3D建模方法。

2.4.5 Magic Mirror

它们于2009年以智能镜像[10]的名义引入,作为检索系统和推荐者。2016年,又以魔镜[330]的名义,这一次是作为一名虚拟时尚顾问。事实上,魔镜可以远不止这些。它们可以是所有时尚应用的最终实现,包括分析、推荐、试穿、合成等,并与交互式系统和增强现实相结合。我们在这里的重点是解释系统架构的研究,并为实现魔镜所需的硬件和方案提供一些帮助。

2.5 Fashion Synthesis

Fashion synthesis强调从零开始合成新的时尚项目图像和设计。请记住,试用应用程序也会合成图像,但用途不同。在试穿应用中,重点是照片中的人的存在,而在时装合成中,主要重点是创造新颖和看不见的时装项目。关于消费者对GAN生成的时尚图像的反应的综合研究见[333]。存在各种方法,使用不同的输入来引导系统生成最终输出。我们尝试在表11的“应用程序注释”列中报告每个系统的输出,或者尽可能使用双关键字(输入-输出)。例如,“模型项”显示系统使用人体模型获取一个时装图像,并生成时装文章的目录图像。请记住,图像合成并不是所有合成系统的最终目标,有些系统试图生成设计和想法,从而实现时装产品的物理生产

2.6 Fashion Retrieval

此应用程序致力于在图像数据库中搜索和检索时装项目。关键词搜索不能总是描述时尚的复杂性和针对用户的需求;因此,我们使用基于内容的检索来捕获每个项目的视觉特征。在本节中,检索是指“精确匹配”检索。请注意,“相似项”检索也存在,但它与推荐系统有很大的重叠,我们将在下一节介绍它。检索的最终目标是在项目数据库中为时尚项目查询输入找到精确匹配。这些系统分为三个子类:1)特定领域、2)跨领域和3)属性操作。

2.6.1 Domain-Specific Retrieval

这些系统被训练来检索特定图像域上的确切项目,这意味着输入和输出属于同一个域。例如,在网上商店中检索具有不同角度或模型姿势的服装项目图像(查看不变服装检索/店内检索),或从不同的CCTV摄像机图像检索具有相同服装的人。

2.6.2 Cross-Domain Retrieval

与特定领域检索不同,这些系统弥补了不同领域之间的差距。一个例子是草图到图像检索。另一个重要的例子是街到店检索,它使用用户照片在网上商店中查找确切的商品,并直接将街道照片连接到商店商品。此任务通常比其特定领域的对应任务更复杂,并且需要特定的训练数据或方法。多模式检索系统也做同样的事情,混合各种输入类型在第二个领域进行搜索,例如文本到图像检索系统和搜索引擎。

2.6.3 Retrieval with Attribute Manipulation

有时我们需要为我们的项目匹配,但需要做一些更改,这就是属性编辑的时候。这些系统根据用户的规范更改查询项的某些属性,然后检索项匹配项。例如,他们可以检索短袖衬衫的长袖版本或蓝色连衣裙的红色版本。也就是说,项目的所有属性都保持不变,直到我们专门更改其中任何一个。另一个例子是使用相对属性的交互式搜索,要求系统提供“更舒适”的鞋子或“不太正式”的衣服。

2.7 Recommender Systems

推荐系统根据相似性、风格、颜色、用户偏好和更多不同的方案来推荐时尚商品。推荐人系统研究是一个非常活跃的研究领域,推荐人已经在许多网上商店使用,包括亚马逊、谷歌购物和Shop It To Me。这些系统不仅有利于在线时尚零售店,而且也有利于实体店[418]。我们将这些系统分为四个子类:1)单品推荐、2)款式或服装推荐、3)个性化推荐和4)时尚兼容性。我们还可以在Sec中使用特定于属性的检索系统。2.6 提到属性引导推荐系统。

存在各种类型的推荐系统,包括协同过滤(CF)、基于内容(CB)、基于知识(KB)和混合系统。不同的系统使用购买历史、图像、评论、用户评级、点击、时态信息和各种其他输入数据来生成推荐列表。表15提供了基于深度学习的推荐系统的调查研究列表

必须提到的是,纯基于内容的推荐系统与检索系统有很大的重叠。研究人员应该意识到,尽管这是两个不同的应用,目的不同,但这两个系统的基本原理可能非常相似。在推荐系统中,我们不需要精确匹配,然而,获取精确匹配是检索系统的目标。解决这两个问题的方法有时是相同的,只是如何使用它们的角度问题。这两个应用程序都利用了项目之间的相似性;因此,推荐系统可能会发现两个项目100%相似,并实际检索该项目。另一方面,我们可以使用检索系统列出项目,发出精确匹配,并使用其余的作为建议。因此,2.6 也是一个好主意,了解更多不同的检索方法。

2.7.1 Single-Item Recommenders

这些系统只推荐一种时尚产品,可能是衬衫、连衣裙、鞋子等。它们可以是基于内容的推荐系统,根据图像的视觉特征或语义属性检索类似的文章。系统输入可以是查询图像或文本,输出是推荐时装项目的排序列表。需要记住的一点是,这些推荐人只适用于服装类别。如果输入是衬衫的图像,则输出列表将是相同的,而不是来自其他类别。表16列出了这些推荐系统。有些系统在每张全身照片中只针对一篇时尚文章;另一方面,其他系统检测每个图像中的多个片段,并为每个项目提供单独的建议列表。在最后一列中,我们为这些系统分配了“Multiple”关键字。我们还使用单个关键字(商品、型号、商店等)或双关键字(输入域搜索域)报告每个工作域,以满足跨域系统的需要

2.7.2 Outfit Style Recommenders

风格推荐者不会关注某一个项目,而是关注图像中的所有服装项目,作为一种风格和时尚。此任务不应与单品风格推荐程序混淆,因为与单品版本不同,这些系统输出整个装备的单个图像。其他版本可能会输出多个组成一整套装备的物品图像;这些系统将在第节中讨论。2.7.3.

2.7.3 Fashion Compatibility

这些系统可以预测不同的时装是否搭配在一起。这个应用程序也被称为时装搭配,服装匹配,混合和匹配,并填补了空白问题。它还可以被看作是一个跨类别的项目推荐器,例如,它推荐一个与牛仔裤的查询图像兼容的鞋子列表。这些推荐系统连接了不同的时尚商品类别;他们建议补充项目,而不是推荐替代品。这一类中存在着各种制度;有些人只需要一个输入项就可以推荐多个缺少的物品并形成一套兼容的服装;另一方面,其他人把几个项目作为输入,并推荐一个缺少的项目,使整套服装被称为“填写空白(FITB)”任务。在不同的结构中,推荐输出文章的数量也不同;如果需要,我们会在表18的“应用说明”列中使用关键字来报告这一点。例如,“顶部/底部”表示双项目系统,“装备”表示三个或更多预定义输出,“多个”表示具有不同输入/输出长度的其他系统。

2.7.4 Personalized Recommenders

这些系统主要关注用户的偏好,以建立他们的推荐列表。值得注意的是,所有推荐系统都会隐式地使用一些数据来个性化其推荐,但本节将专门介绍针对用户偏好或用户历史的策略,以便为每个用户定制独特的结果。

2.8 Fashion Analysis & Trends

一些研究侧重于时尚分析,深入探讨了时尚性、美学、流行性、对时尚和美的感知的地理分析、时装秀对现实街头时尚的影响以及其他相关主题。人工智能系统还可以极大地帮助进行时尚趋势预测(如颜色趋势、季节趋势、流行度和区域趋势)、销售/需求预测和各种时尚数据分析

2.9 Production, Quality & Inspection

计算机、机器学习和人工智能系统可以塑造服装和纺织品生产,引入新的、复杂的、更优化的和环境友好的时尚产品。这些系统也用于工厂的服装生产线,以检查质量和检查材料。虽然这些应用不在我们的关注范围之内,并且由于人工智能的工业应用领域非常广泛,本文没有完全涵盖它们,但本节在表21中给出了一些示例。更多信息,请参考[555],这是2011年发布的一项专门针对这一问题的综述研究。这项研究提到了之前的95篇研究文章,重点关注AI在服装行业各个领域的应用,包括设计、制造、零售和供应链管理。

2.10 Miscellaneous

这里,我们列出了ML和AI的一些与时尚相关的鼓舞人心的应用,包括时尚字幕(自然语言描述、评论或对时尚图像的反馈生成)、服装分类(使用人形或机器人自动分类、折叠/展开和处理服装物品),以及其他超出我们其他类别领域的其他杂项应用程序。表22列出了这些物品。

3、数据集

由于大多数时尚数据集都是多任务的,并且可以根据其结构用于各种时尚应用程序,因此我们认为在每个部分单独报告这些数据会产生误导。因此,我们将本节专门介绍可用的时尚数据集。我们报告每个数据集的“建议应用”,这意味着应用不限于表23中提到的应用;每个数据集的主要应用程序首先出现,然后是其他应用程序。尽管所有研究都使用一些数据集,但其中许多研究不会公布数据。即使是那些承诺这样做的人,由于版权或其他问题,许多数据集从未进入互联网。因此,与以前的调查研究不同,我们只报告易于访问和公开发布的数据集,因为它们对该领域做出了重大贡献并帮助了研究人员。

4、讨论以及未来

计算机视觉和人工智能在时装行业的应用速度不可避免地很快,但还不够快。尽管在过去十年中,这一领域的研究有了显著的增长(见图77),但该领域的巨大规模,包括各种应用,以及由于新冠病毒-19大流行的情况,全世界对在线时尚零售店的需求增加,表明仍有许多工作需要做。

在这一过程中仍然存在着多重挑战。一个主要的挑战是缺乏来自不同来源的干净、大规模的时装数据集。幸运的是,随着手边的海量数据和各种不断增长的社交媒体网络,数据的缺乏不再是一个问题。我们需要一个足够好的注释方案来利用这些数据。这一领域的许多工作都使用为自己的需要量身定制的小型数据集,甚至其中许多数据集从未发布过。虽然我们在本次调查中介绍了86个不同的公共数据集,但应该注意的是,几乎没有一个是统一的、通用的时尚数据集。它们要么规模小、任务敏感,要么来源单一或很少。较大的数据集通常用于一般任务,而更具体的数据集通常非常小;因此,将所有数据都放在一个数据集中是非常棒的。实际上,为某些特定任务找到合适的、统一标记的数据集是很困难的

另一个问题是缺乏针对某些特定时尚任务(例如,推荐、合成和兼容性)的评估技术。很难定义客观指标来反映许多时尚概念,如美、新奇、兼容性、时尚性等等。因此,许多任务仍然使用主观评估,这可能是不准确和有偏见的。尽管可能会引入一个在同一方向上起作用的指标(例如,使用共同购买作为兼容性的标志),但为许多任务定义一个结构良好的客观指标仍然是一个尚未解决的问题。

“智能时尚准备好了吗?”这是我们需要回答的最后一个问题。这些系统的性能仍然是时装公司关注的问题,因为许多这些任务仍然无法与训练有素的人工评估员竞争。然而,这不应阻止他们使用这些技术。基于我们在如此短的时间内所目睹的显著进步,智能时尚将在不久的将来达到顶峰。世界各地的许多研究人员正在为该领域做出贡献,不仅要提高此类系统的性能,还要提高其计算效率和成本效益,因为这些功能在此类系统的可用性以及在移动电话和其他智能设备上的实现方面起着至关重要的作用。

5、结论

多年来的所有研究导致了这些神奇的智能时尚技术的诞生,而它们要实现真正的潜力还有很长的路要走。领先的时尚行业公司开始看到智能时尚的许多优势,并将注意力集中在这一研究领域;因此,这个领域现在是如此之大,仅仅进行习惯性的关键字搜索可能不足以访问相关的研究文章。这一事实突出了这一统一的与时尚相关的任务型调查的重要性,以吸引新研究人员对这一主题的关注,并为他们指出正确的研究方向和来源。这个领域变得越来越庞大,我们将580多篇文章分为多个基于任务的组,还有更多。观察到的趋势和增长速度保证,我们很快将看到许多重大改进,缩小人机差距。

0 人点赞