炼数成金 门户 大数据 查看内容

被高估的大数据

2018-6-29 14:20| 发布者: 炼数成金_小数| 查看: 19285| 评论: 0|来自: 企业网D1Net

摘要: 如果人们一直关注某个算法,就会发现有时并不真正了解它,这就像是一幅斑驳的肖像画是一张低水平的画作一样,只是在几个区域内清晰地勾画出来,但在其他许多方面却朦胧而晦涩。然而,对于那些相信选择性数据集的人来 ...

管理 大数据 Hadoop 数学 图书

如今的数据成为了人们称之为大数据分析这个磨坊所提供的粮食。事实上,App Developer 杂志一位作家最近对其使用情况表示担忧,他说,“实际上只有不到0.5%的数据正在进行业务决策分析。”

如果人们一直关注某个算法,就会发现有时并不真正了解它,这就像是一幅斑驳的肖像画是一张低水平的画作一样,只是在几个区域内清晰地勾画出来,但在其他许多方面却朦胧而晦涩。

然而,对于那些相信选择性数据集的人来说,其宽泛的笔触足以作为一个临时的罗夏测验,可以提供科学分离的证明,以寻求确凿证据的结论。

早在2013年,IBM公司发布的“行业洞察”报告估计每天全球都会创建2.5PB字节的数据。这些大量的数据来自用于收集购物者信息传感器、社交媒体站点的帖子、数字图片和视频、购买交易和手机GPS信号。

如今在短短五年后,其数量大幅提高。根据福布斯公司在2017年的报道,如今产生的数据比人类历史上5000年产生的数据还要多,这一数字令人印象深刻。

大数据的助推器
如今的数据成为了人们称之为大数据分析这个磨坊所提供的粮食。事实上,App Developer 杂志一位作家最近对其使用情况表示担忧,他说,“实际上只有不到0.5%的数据正在进行业务决策分析。”

但是,如果人们发现这些数据点淹没在PB级、EB级、ZB级庞大的海洋中,它们还没有被命名,偶尔会被一些技术管理人员或其他人发现能够确定人们是否值得贷款、教育、工作、保险政策等措施和决策?

“人们有可能成为数据独裁统治的受害者,迷信于信息,分析输出,并最终滥用它。”Viktor Mayer-Schönberger和Kenneth Cukier在大数据中提出警告:“一场将改变人们生活、工作和思考方式的革命即将到来。如果负责地处理大数据,可以成为一种理性决策的有用工具。如果不明智地使用它,它可以成为一种破坏巨大的工具,而无论是挫伤客户和员工的热情,还是造成伤害,其风险比人们通常承认的还要高。”

这似乎有点轻描淡写?
人们也提出了这个问题,接下来的新事物是什么?人们在社交媒体用户协议中点击“同意”是一回事,而企业从社交媒体中收集的信息与手机中的位置数据,以及广告中嵌入的面部识别系统结合起来则是另一回事。

尽管数字架构具有变革速度和抽象性,但人们基本信任那些构建或管理这些设计的人员的善意和良好意图,而没有意识到有多少具有创造力的人让机器所取代。

一旦消失,人们会再次得到它?
业界广受赞誉的统计学家Nassim Nicholas Taleb指出,“丰富的数据有可能是一种极其有害的知识。”

他表示,“更多的数据可能意味着更多的信息,但它也意味着更多的虚假信息。”

Taleb通过让人们想象“真实生活与图书馆之间的区别”来说明他的警告。“有人从图书馆的有利位置看待历史,然后会发现比那些在现实生活中观察到的更为虚假的关系,就像在现实生活中观察到的序列一样。”他解释说,“人们会受到更多的附带现象的欺骗,其中之一是超额数据与真实信号相比的直接结果。”

当然,这并不是在谈论大学图书馆,在这个图书馆中,通过复合人们的共识和多样性推动了管理过程。这更类似于被引入到一个理论图书馆,这个图书馆里充满了由一个拥有单一预设,并致力于一个非常具体的议程所选择的书籍。任何挑战或提供相反证据的数据都会被忽略或丢弃。

如果人们对这个思想实验进一步想像,想象所有这些书籍都是详细说明人们的生活应该如何运转,应该允许做什么,应该给予的信任程度。

“研究人员会获得好处,而其真相会带来负面影响。”Taleb假设说,“研究人员的自由选择在于,他能够选择任何统计数据可以证实其信念或者显示出良好的结果,并将其余部分抛弃。一旦他有了正确的结果,就可以选择停止。”他补充说,“虚假的事物将会浮出水面。”

Taleb认为,“现代性提供了太多的变量(但每个变量的数据太少),并且虚假关系增长要比真实信息快得多,因为其干扰噪声是上升的,真实信息是下降的。”他担心的是,人们将会受到“集体暴政”的摆布。

谨防具有魔力公式的数学家
“我小时候喜欢注视车窗外的车流,并研究车牌上的数字。”数学家Cathy O’Neil尔在她的文章中写道。然后她进入了数学夏令营,随后进入大学读书,最终获得了博士学位。她一直在阐述大数据在增加不平等并威胁民主所起到的作用。

O’Neil表示,“数学为现实世界的混乱提供了一个完美的避难所。我的论文是关于代数数论的,这个领域扎根于我小时候的兴趣。”她最终入职对冲基金D.E. Shaw公司,并将其抽象理论付诸实践。

“起初,我对在这个新实验室工作,并对研究全球经济感到兴奋和惊讶。”她写道。“而在一年多之后,2008年的金融危机之后,数学研究成为避难所,因为不仅深深地纠缠于世界的问题,而且也加剧了其中的许多问题。”

“住房危机、主要金融机构的崩溃,以及失业率的上升,所有这些都得到了数学家使用魔术配方的帮助和怂恿。”她继续说道,“更重要的是,我非常喜欢这种非凡的力量,因为数学能够与技术相结合,从而为现在认为有缺陷的系统提高效率和规模。”

然而,她注意到一些后续事件。她说,“新的数学技术比以往任何时候都更加热门,并扩展到更多的领域。”

没有任何真正的讨论和默许,似乎纯粹是基于敬畏,人类已经迷信于技术神灵,“像上帝一样,这些数学模型是不透明的,除了数学家和计算机科学家以外,对所有人都是不可见的。”

在人们了解数学破坏武器之前,这看起来有些夸张,那么在完成它的时候,人们肯定不会这么认为。

有什么样的风险
Mayer-Schönberger和Cukier写道:“关于大数据的关键点是其规模的变化会导致状态的改变。其转变不仅使得保护隐私变得更加困难,而且还带来了一种全新的威胁:基于倾向性的惩罚。这是使用大数据预测人们在采取行动之前就可以判断惩罚他们的可能性。这样做否定了公平、正义和自由意志的想法。”

人们希望采用大数据仍然是可以共同抵御风险的普遍理想。

声明:文章收集于网络,如有侵权,请联系小编及时处理,谢谢!

欢迎加入本站公开兴趣群
软件开发技术群
兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流
QQ群:26931708

Hadoop源代码研究群
兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop
QQ群:288410967 

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2018-11-20 08:46 , Processed in 0.157793 second(s), 24 queries .