如何应对大数据时代

发布时间：2020-07-08 15:07:29 作者：白鸽不放鸽
来源：网络阅读：780

近些年来，大数据逐步***到现实生活，从医疗到信贷，可谓是各个行业。
单从“大数据”这个词语来看，说明数据量很大。如果这些数据结果，不做处理，以单纯数字呈现，相信你看的超不过10秒中，你会头皮发麻。你都头皮发麻了，那我们的客户岂不更发麻，如果这个问题解决不了，将非常影响大数据的发展。由此一个职业必将会兴起，就是数据可视化工程师，而它的职责就是将大数据的结果做的一目了然，降低客户的阅读时间和阅读门槛。
此教程将会尽快的完善起来，形成培养数据可视化工程师的经典网络教程。
现在我们进入课程，如何应对大数据时代！我总结了三条有效的秘籍。
三条秘籍：
● 抛弃不精准的样本数据，统计分析全部数据
截止到现在，我们获取收集的数据仍很有限，因此更多的是“随机采样分析”。
随机采样分析的定义：对一个生物的总体，机会均等地抽取样本，估计其总体的某种生物学特性的方法。
按照随机的原则，即保证总体中每个单位都有同等机会被抽中的原则抽取样本的方法。
优点：在根据样本资料推论总体时，可用概率的方式客观地测量出推论值的可靠程度，从而使这种推论建立在科学的基础上。正因为此，随机采样分析在社会调查和社会研究中应用比较广。
缺点：只适用于总体单位数量有限的情况，否则编号工作繁重；对于复杂的总体，样本的代表性难以保证；不能利用总体的已知信息等。在市场调研范围有限，或调查对象情况不明，难以分类。并且必须对总体各单位的情况有较多的了解，否则无法作出科学的分类。而这一点在实际调查之前又往往难以做到，从而导致样本的代表性较差。
例如，要想知道中国公民对某项政策的满意度，不可能对所有中国公民做问卷调查。通常的做法是随机找10000个人，用这10000个人的满意度来代表所有人的。
为了使结果尽可能准确，我们会设计尽可能精确的问卷，并使样本足够随机。
这就是“小数据时代”的做法，在不可能搜集全部数据的情况下，随机采样分析在各领域取得了巨大的成功。
但是，问题也就来了：
1.依赖随机性，而随机性很难做到。例如，使用固定电话随机打给10000户人家，这样也是缺乏随机性的，因为没有考虑到年轻人都使用手机的情况。
2.远看不错，一旦聚焦到某一点，就模糊了。例如，我们用10000个人来代表全国，这1000个人是随机从全国选取的。但是，如果用此结果来判断西藏的满意度，却是缺乏精确的。也就是说，分析结果不能适用于局部。
3.采样的结果只能回答你事先设计好的问题，不能回答你突然意识到的问题。
而在”大数据时代“，样本=总体。如今，我们已经有能力搜集到全面而完整的数据。
通常我们所说的大数据就是建立在掌握所有数据、至少也是尽可能多的数据的基础上的。
● 着眼数据的完整性和复杂性，弱化单条数据的精确性
在“小数据”时代，我们首先要解决的就是减少测量的错误，因为本身收集的信息比较少，所以要保证结果尽可能的准确就必须先保证记录的信息是正确的，否则细微的错误会被无限放大。由此我们必须先要优化测量工具。而现代科学就是这么发展过来的，制定温度的国际单位的物理学家开尔文曾说过：“测量就是认知”。要成为一名优秀的科学工作者必须要能准确收集和管理数据。
在“大数据”时代，我们可以轻而易举地获得全部数据，并且数目庞大到上万亿个数据，也正因为此，如果追求每一个数据的精确性，将不可想象的。弱化了数据的精确性，那么数据的混杂性也就不可避免。
然而，如果数据量足够大时，它所带来的混乱也不一定会带来不好的结果。也正是这个原因，我们放松了数据的标准，所能搜集的数据就多了起来，我们就可以用这些数据来做更多的事。
举一个例子：
要测一个一亩土地的含盐量，如果只有一个测量仪，那必须保证这个测量仪精确且能一直工作。但是如果每平米土地就有一个测量仪，则虽然有些测量数据是错误的，但是所有数据合起来却能得到一个更准确的结果。
因此，“大数据”通常用更有说服力的概率说话，而不是依赖测量工具的精准。这就要求我们重新审视获取收集数据的思路。由于数据量特别大，我们放弃了个体精确性，当然也无法实现个体精确性。
比如，我们在电脑存储上可以看到，所有的文件可以通过一个路径找到它，例如，要找一首歌曲，必须先找到一个分区，然后再找到其文件夹，最后逐步找到所需要的歌曲，而这就是传统的方法。如果电脑上的分区或者文件夹较少，可以这么查找，但如果有1亿个分区呢？10亿个文件夹呢？网络上的数据可远比个人电脑上的文件多，动则数十亿，如果使用清晰的分类，那么不仅分类的人会疯，查询的人也会疯。因此，现在互联网上广泛使用”标签“，通过标签来检索图片、视频、音乐等。当然，有时人们会错标一个标签，这让习惯精确性的人很痛苦，但是，接受”混乱“也给我们带来了好处：
由于拥有了比”分类”数量多得多的标签，我们就能够获得更多的内容。
可以通过标签组合来过滤内容。
又例如，如果我们要搜索“白鸽”。而“白鸽”所关联的信息又有很多：比如一种动物，又或者是一个品牌，还可以是一个名人。一旦我们按照传统的分类法，“白鸽”就会被分到动物类，品牌类，名人类。导致一个结果就是查询的人不知道它还有其他的分类，还有可能就是只想查“白鸽”这种动物，所以就不会到品牌类或者名人类里查询。但是，如果使用”标签“，输入”白鸽“+”动物“，即可查到想要的结果；输入”白鸽“+”品牌“即可查到想要的结果；输入”白鸽“+”名人“即可查到想要的结果。
由此可见，使用”标签“代替”分类“，虽然有很多不精确的数据，但是得力于大量的标签，使得我们搜索更为方便。
● 思考数据的关联性，放弃单一的因果性
首要研究数据的本身，不必再深究数据的形成的原因，让数据自身发言。
举个例子：
沃尔玛是世界上最大的零售商，掌握了大量的零售数据。通过销售数据分析，沃尔玛得到，每当季节性飓风来临之前，手电筒和蛋挞的销售量都会增加。由此，当季节性飓风来临时，沃尔玛会把库存的蛋挞放在靠近飓风用品的位置，促进顾客购买。
肯定会有人问“为什么飓风一来，人们都要买蛋挞呢？”
而这个“为什么”，是因果关系。而这个“因”，分析起来极难、并且很复杂，即便最后得出来了，意义也不大。对沃尔玛来说，当飓风来临时，摆好蛋挞，就行了。这就是数据自身发言。
而我们知道飓风与蛋挞有关，并且能赚钱就可以了。
这就是应对大数据时代的方式，即思考数据的关联性，放弃单一的因果关系。
这种方式能够帮助我们更好地理解世界。有时候，因果关系还会给我们带来一些错误的认知。
例如：
我们从父母那里得知，天冷时要带帽子和手套，否则就会感冒。但是，感冒的成因并非如此。又或者我们在餐馆里吃饭，突然肚子疼，可以想到原因食物有问题。可实际上很可能是接触到外界病菌的关系。
关联性在分析问题时提供了新的视角，让我们明白数据自身的发言。但是，因果性也不应该完全放弃，而是要以科学的关联性的立场来审视。

引来一个新的问题：大数据时代如何做到数据一目了然？答案在这里

如何应对大数据时代

相关阅读