隐藏的学霸之魂：Zero-Shot Learning如何打破“零起点”的封印？

发布时间：2020-08-09 22:38:43 作者：naojiti
来源：ITPUB博客阅读：160

2018年还剩不到10天，回顾一下今年CV（Computer Vision，计算机视觉）领域的进展，在技术上并没有迎来什么革命性的新突破。

几个头部企业的业务重点，除了强化现有算法的精度，更多还是将精力投掷在商业布局上。

似乎每家公司都在为这个看得见的“赛点”争分夺秒地发掘新应用场景。

不过，还是有很多新技术的进步值得我们专门用一篇文章来说一说，比如今天要讲的Zero-Shot Learning。

毕竟，当场景被开发到极限，大家就又回到了技术的起跑线。

什么是ZSL？

零样本学习zero-shot learning，是最具挑战的机器识别方法之一。2009年，Lampert 等人提出了Animals with Attributes数据集和经典的基于属性学习的算法，开始让这一算法引起广泛关注。

之所以如此重要，因为其迥异于传统图像识别任务的思考方式。

从原理上来说，ZSL就是让计算机具备人类的推理能力，来识别出一个从未见过的新事物。

举个例子，我们告诉一个从没见过斑马的小朋友：“斑马是一种长得像马，身上有黑白色条纹的动物”，他就可以很轻松地在动物园里找出来哪个是斑马。

可是，在传统的图像识别算法中，要想让机器认出“斑马”，往往需要给机器投喂足够规模的“斑马”样本才有可能。而且，利用“斑马”训练出来的分类器，就无法识别其他物种。

但是ZSL就可以做到，一次学习都没有，只凭特征描述就识别出新事物，这无疑离人类智力又近了一步。

那么，这种“天秀”到底是怎么工作的？

简单说的话，就是利用高维语义特征代替样本的低维特征，使得训练出来的模型具有迁移性。

比如斑马的高维语义就是“马的外形，熊猫的颜色，老虎的斑纹”，尽管缺乏更多细节，但这些高位予以已经足够对“斑马”进行分类，从而让机器成功预测出来。

这就解决了图像识别长久以来的问题：如果一个事物从来没有在现有数据集中出现过，机器应该如何学习和识别它。

听起来是不是很爽很智能的样子，实际上也确实如此！

ZSL的“优越感”来自哪里？

在CV领域的顶会CVPR 2018 会议中，一个关于使用鉴别性特征学习零样本识别的论文，被认为代表了该领域当前的最佳水平。

之所以受到如此重视，主要源于近年来零样本学习（ZSL）在目标识别任务中的大显身手。

由于ZSL所挑战的现实情境前所未有地苛刻，使其具备了影响其他图像识别效果的关键能力。

现有识别技术大多集中于监督学习，所以需要不断推出更大的数据集，谷歌曾介绍说他们在用300Million的3D图片进行训练。而且，每个领域还需要各自的数据集。

这种情况下，全部进行数据标注的工作量也变得很大，很多新生事物更是想标注都无从谈起。这样在部署端的效率和成本就成了产业的“不可承受之重”。

那怎么办呢？科研人员只好努力让机器学会“花更少的钱，办更多的事”。

以腾讯AI Lab的研究为例，其“Diverse Image Annotation”，就是充分利用标签之间的语义关系，用少量多样性标签来表达尽可能多的图像信息，实现自动标注。

ZSL则更为极端，要在一个样本都没有的前提下“空手套白狼”，这种极限挑战，就给技术界带来了新的活力。

首先，ZSL降低现有算法对数据集的依赖和标注的压力，有利于提升机器视觉技术的亲和力及部署效率；

另外，现在产业端对缩减算力需求的呼声日渐高涨，ZSL清晰有效地指向了可行的解决方案；

更重要的是，ZSL解决的不仅仅是视觉问题，更与NLP的发展相辅相成。根据模糊高维的语义描述去进行识别，对机器的要求不仅仅是简单分类，还要理解特征一些人类的高级知识，比如一种艺术作品的风格、一种特殊的情绪等。找到这种语义上的联系，将机器视觉与NLP技术联合在一起解决问题，ZSL激发的技术想象很是有趣。

都说“数据是AI的燃料”，那没有燃料是不是就注定GG？ ZSL表示可以续命，就是这么得瑟！

从0到1：ZSL和OSL有何不同？

这时，想必很多关注技术趋势的同学可能已经发现了，零样本学习与少样本学习（OSL，One-Shot Learning）在最终的应用成果上，似乎作用很相近啊。

比如说，都指向了高层次的认知问题。只要给OSL一张“斑马”的图片，它就能很高效地将它从其他动物中鉴别出来。背后靠的也是从很少的标签中学习、分类和推理的能力。

在应用端，因为都不依赖庞大的数据集，两种模型都能帮助产业的AI识别实现降本增效。

按理说，既然零样本是少样本的子集，那么是不是可以直接套用ZSL的模型来解决OSL的问题呢？

其实是可以的。毕竟“从没见过”与“见过一次”相比，“从0到1”的技术难度要求更高。

不过，二者并不能轻易地被替代或划等号，各自的研究都很有意义。

最大的区别在于， ZSL挑战的是在相似语义中完成知识迁移，而OSL需要解决的是语义补全的能力，即如何利用唯一的样本学习到更多的特征。

在实际应用中，关键能力的不同，赋予了它们不同的“必杀技”。

比草原广阔：ZSL的应用场景

那么，ZSL到底能干些什么呢？

前面我们说过，目前产业界应用深度学习最大的痛点，无非是爱上一匹野马 (泛化能力)，可是家里没有草原 (高质量数据集) 。也并没有企业会为了几匹野马，就不计成本地承包所有草原。

而ZSL能够提供的想象空间，就比“草原”大得多了：

1.图像自动标注、处理。人工标注代价高、速度慢，一旦ZSL被应用，其语义理解和迁移能力，借助知识图谱的辅助（如属性、文本描述等），把不同的视觉联合在一起进行系统观察，可以自动完成数据的识别和标注工作，而且结果的准确性不低于人工。

2.未知或生僻语种翻译。在电影《降临》中，美国的语言学家通过艰难地特征推断，完成了与外星人的沟通。未来，这件事可以由机器来代劳。比如说一些样本很少甚至早已不可考的语言（比如乌伯克语），通过ZSL系统就可以自动完成翻译过程，实现宇宙的love&peace。

3.新类别的图像合成。ZSL的学习目标是识别新事物，一些新类别的图像合成，完全可以通过ZSL被创造出来。比如还原已经灭绝的物种。也许未来你在《侏罗纪》系列中看到的恐龙，就是机器“画”出来的。

4.视频识别。目前，越来越多的数据是视觉与文本信号共同出现，比如综合性视频网站，视频、音频、字幕、弹幕、评论等多模态信息都有，想要挖掘它们之间的相关性，就依赖于ZSL的宏观预测能力。

总而言之，让机器能够像人一样凭借“只言片语”做出推理和判断，是一个很有用的功能。

从入门到放弃：ZSL的问题依然顽固

既然这么牛，为什么ZSL一直不温不火呢？至少没有像其他深度学习算法一样成为“群宠”。主要原因还是在于几个“牛皮癣式”的顽疾：

一是ZSL的效果依赖于相似模态的信息。在训练时如果训练集和测试集的类别相差太大，比如一个里面全是动物，另一个里面全是家居，这时让ZSL分析二者的映射关系就太困难了，就很容易出现属性漂移的“强偏”问题，难以预测出正确的结果，导致ZSL的性能表现大打折扣。

二是缺乏足量的专业定义和描述。ZSL虽然不需要大量的图像数据集，但需要进行特征描述。这方面人工比机器分类效果更好。但目前还缺乏足够的专业人员进行协助，NLP自身的发展也尚不足以满足ZSL的需要，使得整体进程相对缓慢。

这些桎梏不解决，ZSL即便具备从零起点到学霸的潜力，也只能入宝山而空回，被不如它的算法抢走工作机会。

回顾一年来CV技术的产业化进程，算得上是红红火火恍恍惚惚。

我们可以想象，未来一两年，从个人智能终端到城市的眼睛，机器视觉将无处不在。

一面是应用场景百花齐放异常火热，一面像ZSL这样的潜力股又处在相对停滞的状态，核心问题都没能取得突破性的进展。

在新年这样承前启后的阶段，或许是时候给ZSL许一个未来了。

隐藏的学霸之魂：Zero-Shot Learning如何打破“零起点”的封印？

相关阅读