怎么简单理解"大数据"及其应用？ - 头条热点

请用语音读文章

热门回答：

谈到大数据。一定会提到三个小案例：第一个例子是某个未婚少女怀孕了。甚至她老爸也不知道这件事儿。但是商家却打电话过来问需不需要买孕妇用品。第二个是经典的“啤酒和尿布”的例子。这个例子比较早。讲的是基于关联规则分析来预测超市里面顾客购买行为规律。第三个是近年来才吵吵的比较火热的例子。是谷歌通过搜索引擎里面的关键词检索日志的时间序列数据成功预测了流感爆发的时间和规模。第一个例子背后是基于精准营销。是大数据针对个人级别的应用。第二个例子能够有效预测零售商需求。属于企业级别应用。而第三个例子则是地区级别和国家级别的应用。由此可看出。当大数据真正走进生活、走进社会。其施展能量的力度越来越大。越来越强。最后。大数据这个概念就被吹的神乎其神了。

当我们听到这些大数据的应用案例时。会很自然地去质疑这些案例的可靠性。心中不免默念。这玩意儿的确有如此靠谱么？而其中最让人感觉不靠谱的。无疑是第三个。Google预测流感这件事儿。2009年2月19日。Nature上面有一篇文章。“Detecting influenza epidemics using search engine query data”（感兴趣的朋友可以关注以下）。论述了Google基于用户的搜索日志（其中包括。搜索关键词、用户搜索频率以及用户IP地址等信息）的汇总信息。成功“预测”了流感病人的就诊人数。

那么。Google为什么要干这件事儿呢？美国有个很牛的部门叫CDC。也就是疾控中心。这个部门统计美国本土各个地区的疾病就诊人数然后汇总。最后公布出来。但是呢。这个公布的数据的结果一般要延迟两周左右。也就是说当天的流感的全国就诊人数。要在两周之后才知道。Google呢就利用他的搜索引擎搭建了一个预测平台。把这个数据提前公布出来。所以说。Google做的工作并不是实际意义上的预测什么时候流感来。而是将CDC已经获得但是没及时公布的数据提前给猜出来。然后公布出来。当然。CDC为什么不及时公布数据。人家官方总是有自己的一堆理由的。我等草民不得而知。但是有一点是重要的。就是“越及时的数据。价值越高”。数据是有价值属性的。所以。Google的工作无论在公共管理领域还是商业领域都具有重大的意义。

Google的研究结果公布出来以后。大众对于这个研究案例的好评和差评都有不少。总之。引起了社会的热议。这个例子从而也成了经典的案例。那么社会为什么会对这个例子予以如此重要的关注呢？其原因就在于。如果在这个案例上成功了。Google就真正证明了大数据是“万能的”这件事。从而彻底颠覆社会对于大数据的看法。

首先。Google在这个研究中对于数据的处理只用了很简单的Logistic回归关系。稍微有点儿高中数学基础的朋友很快就可以理解应用。但是却成功地预测了复杂的流感规模的问题。Google用了简单的方法。预测复杂的问题。这件事为什么能成？根本就在于。Google的数据量大。这就是Google对于大数据的价值观。而大就是一切！Google有着世界上最大的搜索引擎。全世界每个用户的搜索行为都给存在Google的数据库里。Google想。我有这么多数据。不是想知道啥就知道啥。于是Google就做了这个伟大的事儿！

回过头来看三个经典的案例。从系统的角度上来看。一个人是一个小系统。一家超市是一个中等规模的系统。而一个国家一个地区则是一个超大的社会系统。如果要对一件事进行预测和分析。数据分析师要做两件事。一、构造理论模型；二、获取实证数据来拟合构造模型。对于小型简单系统。构造理论模型是可行的。而对于大规模的复杂系统。模型的构造则十分艰难（这也正是社会学家们每天忙碌研究的课题。也正是为什么社会革命家和思想家是如此的伟大。像马克思等等…）。大数据的观点之一认为。海量的数据可以弥补模型的不足。如果数据足够大。理论模型甚至根本就不需要。这种观点目前仍然处于争论中。搞理论的和搞实证（强调数据和统计方法）的专家们对此的口舌之战从没有停歇过。但无论如何。Google对于流感预测的研究无疑站在了支持大数据的一方。如果Google的案例是成功的。那么或许。拥有海量数据就真的意味着可以解决任意复杂的问题。大数据解决大问题！

上面的论述讲了半天Google案例的重要性。所以接下来。业界就把所有的目光凝聚在了Google预测的结果上。截止到Nature上面那篇Paper发表出来的时候。Google的预测还是准确的。不过到后来就发生了很大的偏差。偏差最大甚至高出了标准值（CDC公布的结果）将近一倍。

开始理论学家们是沮丧的。看到Google仗着自己庞大的数据库。在医疗监控这种复杂问题的预测分析过程中为所欲为。觉得自己马上就要下岗。然而时间到了2012年中旬的时候。他们就乐了。发现Google也不过如此。自己还是有价值的。实际上情况也确实如此。Google预测的失败也确实是过度地依赖于数据。导致很多被忽略了的因素对预测的结果产生了很大的影响。对客观世界进行预测需要模型。模型首先来自于理论构造。其次需要数据对模型进行训练对模型进行优化完善。大数据观点强调模型对数据训练的依赖。而尽可能地忽略理论构造这一部分的意义。这就有可能带来隐患。

从更加批判的角度来看。理论模型当中的确有一部分因素可以用数据量的规模来弥补。而仍然有一部分是不可弥补的。可弥补的部分因素。往往在数据量比较大的时候。被均匀的数据分布内部平滑抵消掉了。从整体上不会对最终的结果产生显著影响；而不可弥补的部分。往往和系统背后的结构性因素有关。这些因素不仅不会随着数据规模的增加而被消除。反而会由于系统的规模效应逐级放大最终产生背道而驰的结论。那么当数据分析专家需要对复杂的社会系统进行分析时。就一定要严谨地考虑对数据的依赖程度。因此。Google的案例既是一个很好的大数据的应用。同时其也为大数据在未来的发展道路上起到了很好的指示灯的作用。最后还是那句调侃的话：”Big Data is like teenage sex. Everyone talks about it, nobodyreally knows how to do it, everyone thinks everyone else is doing it, soeveryone else claims they are doing it too”。

你又是对大数据怎么理解的呢？

其他观点：

大数据＋人工智能＋超级计算机＋管控纪律。对于自媒体来说。各位应该好好研究。在这样的前提环境下。各自的发展之路。

这个绝不是简单理解的问题。它关系到整个生态系统乃至于整个国家的未来。

其他观点：

把大量的碎片信息通过一定的规则联系起来。

用于企业决策。分析客户需求。产品推广定位等。

这次疫情对大数据的应用就是一个好例子。把一个人的行程通过大数据比对。即使一个患者不知道自己何时感染的。通过大数据比对仍可以知道传播途径。

桔子生活网

怎么简单理解“大数据”及其应用？

更多热点文章推荐

发表评论取消回复

评论(2)

外部推荐

评论展示

随机推荐

更多热点文章推荐

相关推荐

抖音上好多影视剪辑视频是怎么做出来的？

拼多多有提现成功的吗？

你们觉得《行尸走肉》重口吗？

对于匿名社区里面有人经常发,小哥哥网恋么。这种事儿你怎么看？

发表评论 取消回复

评论(2)

随机推荐

发表评论取消回复