从难以普及的数据增强技术，看AI的性价比时代

发布时间：2020-08-04 20:16:05 作者：naojiti
来源：ITPUB博客阅读：194

数据是AI训练的核心，这一点已经被确认再确认了。虽然数据驱动不是AI算法训练的唯一途径，但在产业中已经出现了很明显的趋势，那些数据丰富廉价的领域，就是会更容易孕育出AI技术。像是汉英之间的机器翻译能力会大大强于小语种间的机器翻译，数据收集更容易的人脸识别应用率也高于虹膜、眼纹等等生物特征的智能识别。

可以说数据的缺乏或昂贵，往往是阻碍AI发展的直接缘由。

当然面对这种情况，也出现了相应的技术解决方案——数据增强技术。

数据的有丝分裂，是怎样进行的？

所谓数据增强技术，可以理解为数据的繁殖皿，可以让数据进行“有丝分裂”，增强样本扩大数据集。

以图像数据为例，当图像数据不足时，可以对图像进行一些轻微的改变，例如裁剪、旋转、镜像反转、轻微的扭曲、增加噪点、增加遮挡物等等。对于人类来说，虽然可以一眼识破两者之间没有区别。但对于AI来说，即使几个像素点的变动，也是全新的数据样本。

而应用于文本数据，则有互译和词向量替换两种方法。通过机器翻译，将一句话从中文翻译成英文，再由英文翻译成中文，就可以实现语序、同义词等等的调整替换，得到语料乘二的效果。以及通过自然语言生成技术，将一句话中的不同对象进行划分并替换生成新的句子。

这些数据增强技术也开始通过深度学习的加持逐渐提升效率，例如去年4月谷歌就推出了一项名为AutoAugment的技术，这一模式设计了一个自动搜索空间，利用搜索算法来确定适合数据集的图像增强策略（例如上述的平移、缩放等等），制定执行的顺序并且自动执行。

例如将一个动物照片数据集输入给AutoAugment，AutoAugment通过计算会确定出先平移再剪裁是让AI对于数据“陌生感”最大化的解决方案，然后开始自动执行。

为什么数据增强没能普及？AI企业的成本怪圈

看到了这些解决方案，大家是不是有种“天亮了”感觉？既然数据可以“自我繁殖”，那么数据的累积和采集就再也不是AI发展的阻碍。小语种的翻译、冷门植物动物的识别都可以快速AI化，巨头移动互联网企业霸权下的数据垄断也即将被破解……等等，如果数据增强技术有如此之强的能力，这项技术至少应该像BERT一样在学术界和产业界引起极高的关注，并且迅速形成产业链。

可实际上今天我们仍然能看到大量AI企业为如何获取数据而忧虑。

为什么数据增强技术没能彻底解决他们的问题呢？这背后其实是老生常谈的成本问题。

数据增强技术从来都不是免费利用的，很多时候AI技术接口本身就需要按调用次数收费，更别提背后的计算成本和时间成本了。

就拿文本数据经常利用的机器翻译来说，百度、搜狗、有道等等提供的机器翻译服务对于普通用户来说虽然是免费的，但是超过了一定流量值之后也要进行收费。数据增强技术显然属于收费范畴之中。曾有知乎用户表示，几款主流的机器翻译软件的收费标准大概在48元-60元/百万字符不等。对于企业来说，这也是一项不小的花销。

而应用于图片数据增强的AutoAugment，更是一种十分昂贵的算法。应用时要对15000个模型进行收敛，这对算力的消耗是巨大的。如果以CIFAR-10这样的对象作为数据集，需要利用英伟达Tesla P100 GPU计算几千个小时，以谷歌云的收费标准需要花费7500美元。

换句话说，如果数据增强的收费成本超过了人工去拍照收集，企业自然会去选择更划算的方法。实际上大多数时候企业既不能覆盖人工获取数据的成本，也不能覆盖数据增强技术应用的成本。

当AI走进性价比时代

这一现象提醒了我们，AI正在进入一个“性价比”时代。

资本对于AI一掷千金的岁月已经过去，随着巨头的AI技术逐渐产业化，其他AI企业已经无法向以前那样不计成本的投入。同时随着产业链发展的越来越完善，AI企业发展过程中的“计费标准”也逐渐清晰起来。在巨头占据市场的情况下，AI企业很容易看到在未来业务的发展中究竟经历着哪些成本上的商业风险。

这时，帮助降低数据增强这一类技术的应用成本就成了一件很重要的事。

例如最近伯克利人工智能研究院就推出了一种群体增强技术，通过数据结组方法，更高效地找到数据增强策略。相比单纯的应用AutoAugment，可以提升近千倍的效率。让很多无法负担高昂计算成本的企业甚至个人都能利用起数据增强技术。

而这种旨在降低AI研发成本的技术，或许未来会成为典型。其中的原因在于，谷歌这样的巨头企业，以及OpenAI这样的研究机构，本身拥有雄厚的资本和资源支持，导致他们在研发技术时，很难会考虑技术的“性价比”。何况很多时候这些企业本身也是算力资源的掌握着，他们在某种程度上掌握着技术与算力之间的定价权。从谷歌的角度来说，他们当然希望企业在研发AI时需要消耗尽可能多的算力资源，毕竟从算法技术到云计算资源都是他们的一套买卖。

如此以往下去，如果技术的计算标准和计算资源都被垄断，AI企业在发展时会遇到一条明显的阈值。一旦超过这一阈值，AI企业就会很难跨越成本，于是直接被拦在门外。甚至科技巨头可以利用这种方式对于产业进行间接的操控，举例来讲，如果谷歌想保护自己在小语种机器翻译上的优势，只需要提高该语种机器翻译应用费用，就能通过加大企业获取语料数据成本的方式，阻碍他们进行相关研究。

在这种情况下，打破垄断、重塑定价权，让AI研发更具性价比，或许能够打造出一条独辟蹊径的道路。

从难以普及的数据增强技术，看AI的性价比时代

相关阅读