《大数据》读后感
今天,我们处在一个大数据的时代,有时候数据给了我们有力的证明。以下是看了大数据后的2000字。欢迎阅读!
看了《大数据》2000字1这两年,大数据和云计算的思想像小苹果的音乐一样,到处传播。每个公司,不管是互联网公司还是传统企业,都标榜自己的大数据。
1,实体物联网和虚拟物联网
曾几何时,物联网的概念开始流行。庞大的物联网可以让世界上大量的物体被探测到并联网,包括人、车、房子等可以联网的物体。这些物体可以以一种方式被感知,它们的信息可以被记录下来以供使用。在几年前,这是一件看似遥不可及的事情,给每个物体都贴上所谓的RFID标签也是不现实的。如今,随着手机的广泛使用,人类自身也加入了物联网。为什么是物联网?这是为了什么?要知道物联网收获了什么,只需要看看一个物体在没有加入物联网和加入物联网之后,我们收获了什么。那么,很明显,我们需要通过某种方式获取对象的信息。这些存储的信息被称为数据。
物联网产生的数据是物理对象之间的信息,而现在在互联网上,数据量最大的是虚拟对象,或者说网络虚拟对象。由于网络对象直接寄生在网络上,具有方便接入网络的特点,在获取实体对象的信息仍然困难的情况下,具有很大的优势。但是,在未来,物理物联网产生的数据量肯定会增加,也许会超过网络上与物相连的数据量。
网络的广泛使用使得信息的产生和传播变得容易。每个接入网络的人都是以某种角色存在的,是网络上信息的创造者。对于产生的信息,每个接入网络的人都有多重角色,对于网络服务提供者来说,他就是网络使用者的角色;对于门户来说,他就是用户;对于社交网站来说,我们扮演的是虚拟或真实的网络角色;对于一个浏览器来说,他是一系列的角色,浏览网页,列出鼠标动作……不同的角色取决于对方需要从我们的动作中得到什么信息。如果把网络上的各种角色都看成是虚拟物体,那么由这种虚拟物体组成的虚拟物联网就会产生海量的数据。我经历过总是缺乏获取信息渠道的日子。现在,既然信息获取变得如此容易,那么必然会迎来一个信息爆炸的时代——大数据时代。
2、思维的转变
随着技术的改变,我们的思维方式也会改变。在过去的小数据时代,获取信息、存储信息、整理信息既费时又费力,所以我们不得不小心翼翼,琢磨如何用最少的成本、最快的方式收集尽可能准确的信息。之所以有抽样统计的方式,是因为受到技术的限制,不可能获得所有的样本,或者即使获得,也无法在合理的时间内处理。因为获取信息的成本很高,所以我们必须把一切都想清楚,才能开始处理。这就好比在计算机早期,用纸袋编码,一个错误的成本太高,人们要无数次验证代码才能输入。现代计算机大大提高了编码的效率,这使得人们能够创建更强大的软件。人在开始编码之前不需要对代码想太多,因为机器会帮你解决一些问题。所以,那些担心人会因为获取数据太方便,数据处理和分析成本太低而变得懒惰或欠考虑的人,真的是杞人忧天。从历史上看,技术进步提高了人类的生产力,但并没有使人变得懒惰,因为与此同时,欲望也增加了。人类只会变得更伟大。
所以在大数据时代,当数据更加全面的时候,我们可以涉足一些以前因为数据不足而无法覆盖的领域,比如预测。这是一个激动人心的领域,但其实这个领域已经出现了,每个人都是受益者。我们平时使用的输入法中的智能联想功能,可以根据我们之前输入的单词,预测我们接下来可能输入的单词,从而节省我们的输入时间。在这个算法中,没有人工智能,只有对人的输入习惯的大量统计。它是通过大量数据的统计来进行预测的统计方式,而不是加入独特的规则或逻辑。这就引出了大数据时代信息处理的一种重要方式。基于统计学,我们可以得到不同个体的相关性,但不需要了解它们的因果关系,我们从相关性中获益。这种方式,看似投机取巧,却能在关键时刻给我们带来优势。我们习惯于先知道一件事情的因果逻辑,然后再推断出相应的结果。但是,总会有一些无法用合理逻辑解释的现象。如果能跳过逻辑阶段,直接通过大数据分析享受一些结果(沃尔玛的啤酒和纸尿裤的案例),岂不是很好玩?当然,严谨的逻辑总是值得尊重的。
3.互联网的粘性
在广度上通过新花样吸引用户的时代,由于技术的提升,一个创业者在一个新的领域开拓出来的东西很容易被别人复制。这个时候,深度就很重要了。尤其是购物网站、微利网站、门户网站等信息量大的网站,对一个用户了解的越多,优势就越大。所以,在技术不再是最重要因素的时代,如何增加用户的粘性和忠诚度才是第一要务。通过用户之前的信息,我们可以推断出用户的喜好,并向用户推荐相应的信息或物品。当你比较了解一个用户,而别人不了解,这个用户就会离不开你。有他的智能排序功能,有新闻门户的“今日头条”应用,有他在各种购物网站的推荐算法(但这纯粹是为了增加消费而不是增加用户粘性),可以根据用户之前的浏览和喜好给出相应的推荐。这些的基础是要有用户的行为记录,否则无从谈起。
各行各业都在疯狂地抓住机会获取数据,拥有足够的数据,那么一切都变得可能。
2000字读完《大数据》2过去的一切都是前奏,这是大数据行业最喜欢引用的一句话。大数据是当前的趋势,大数据时代被认为是理解大数据的初级读物。最近连续看了两遍,第二遍是写这篇评论。总的来说,值得一读,但细节需要讨论。
维基百科对大数据的解释:大数据,或称巨量数据、海量数据、大数据,是指涉及的数据量巨大,无法在合理的时间内被截取、管理、处理、整理成人类可以解读的信息。
有人说,现在是读图时代。除了小说和心灵鸡汤,现在大部分畅销书都有图片。这本书是个特例。
首先试着分析一下作者的三个观点,是大数据行业喜欢引用的三句话:
1不是随机样本,而是全部数据。
我想每个人都可以意识到,对所有数据的分析要比随机样本的分析更好,但现实中我们往往无法得到所有的数据:首先,数据收集方法,每种方法都有其适用范围,不可能面面俱到;第二,从数据分析来看,战斗机只能数返航飞机上的弹孔,坠毁的不能。沃德通过分析飞行中的战斗机,得出最有可能导致坠机的薄弱点。第三,处理能力跟不上,就像之前的天气预报因为来不及计算那些数据,所以太离谱了。“抽样分析是信息匮乏时代的产物,是信息流通受限的模拟数据时代的产物”,作者显然只关注了一部分原因。
从语言理解的角度来看,所有的数据是什么,无论是“我们需要的所有数据”还是“我们能收集的所有数据”,在书中的很多商业案例中,我们只处理“我们能收集的所有数据”或者“我们认为的所有数据”。人对自然的认识总是有限的,存在主义认为世界没有终极目标。比如“Farecast用各航空公司一整年的价格数据做了一个预测”,“一整年”就是一个样本,或者“我们需要的所有数据”。
从历史的角度来看,托勒密在国外修建亚历山大图书馆的唯一目的就是“集天下之书”,实现“集天下之知识”的梦想。在中国,乾隆编纂了四部藏书,每部藏书过程都有主观因素。当时,他们都认为他们可以收集所有的书籍。最终,我们没有得到那个梦里所有的书。
不是准确,而是杂糅。
由于我们过去一直在抽样,所以它处于一个置信水平,有一个明确的公差或偏差。人类将永远知道我们是在精确度有限的情况下工作的。同时,作者本人也承认“错误并不是大数据的固有特征,而是一个需要我们迫切处理的现实问题,而且可能会长期存在”。大数据的特征是精确的还是混合的?
这就引出一个问题,如何控制大数据的质量:第一,不要求准确,但不准确到什么程度,需要定义,否则就是一塌糊涂。换个角度,如果定义了容差,满足条件的都是精确的(还是我还停留在小数据时代?这里的逻辑我还没理顺。就像质量管理大师克罗斯比提出零缺陷理论,我一直认为是个伪命题,缺陷肯定存在,就看怎么定义;第二,大量非结构化数据的处理,比如新闻的量化、情感分析,在非SQL的应用上还有巨大的提升空间。
“出问题不会是瞬间的,而是慢慢出问题的”。我们可以通过找到一个关联并监控它来预测未来。当然,我同意这种说法,但这并不意味着我们可以放弃准确性,只是我们需要重新定义准确性。对于项目管理行业来说,如果一个项目出现了严重的问题,我们相信一定是很多因素和流程环节出现了问题,我们已经失去了很多挽回的机会。而如果一味的容忍杂合,结果显然是不可接受的。
3不是因果关系,而是相关性。
这是本书对大数据理论最大的贡献,也是最有争议的地方。连翻译都看不下去了。
我对这种关系太熟悉了。小学的算命是典型的“不是因果关系,而是相关性”。算命其实就是趋势的总结。在给定的条件下,它会告诉你需要远离什么,需要靠近什么,但不会告诉你为什么要这么做。
我们经常谈论科学,然而,什么是科学,没有人能说清楚。我对科学的理解是:第一,有明确的范围;第二,在这个范围内建立一个强制的、正确的公理;第三,有明确的推演流程;四个可以复制。科学的霸权体现在把一切不符合这四个条件的都斥为伪科学和封建迷信,用不符合前两个条件的来排斥自己的一切错误。从这个定义来看,大数据不符合科学。
混沌理论中的蝴蝶效应主要集中在关联上。它指的是对初始条件敏感性的依赖。输入端的微小差异会迅速放大到输出端,但谁也不知道能输出什么。
人类一旦放弃了对因果关系的追求,也就放弃了自己最优秀的品质:意志力。很多人不愿意相信算命是担心一旦知道自己的命运就无法再抗争了。即使我相信算命,我也在探究相关关系中的因果因素。我放弃第一份工作的原因之一,就是厌倦了这样一个确定的明天:一个任务发出去,我大概就能预测到哪个环节会出问题。只要我不跟,这些环节十有八九会出问题。
分析完这三个观点,下面是对大数据理论的几点质疑。大数据是当前流行的回馈经济的重要组成部分,在金融和互联网行业应用广泛,都被认为是高薪领域。很多时候我都在想,所谓的看不见的手产生的趋势是不是看不见的。比如几家公司推一个概念,说是趋势,很快就真的成了趋势。身边活生生的例子就是天猫的双十一和京东。COM的618。一个巨头开路,无数人跟风,自然造就了一个购物节。至于是否合理,追究起来意义不大,因为很多东西是不可比的。这和没有强制控制中心的蜂群思维不同。
看完这本书,我总觉得作者说的太绝对,也许是我的理解太肤浅,所以在诱惑下我最后总结道:
情不可竭,竭则祸不单行。
福报不能穷尽,穷尽了就孤独了。
不能什么都说,但是什么都说很容易。
规则不可行,做了事情会很复杂。
;