炼数成金 大数据
订阅

大数据

老忽悠Larry Ellison的Oracle二代云:纸老虎还是洪水猛兽
老忽悠Larry Ellison的Oracle二代云:纸老虎还是洪水猛兽
Oracle设计第二代云的主要目的是提供更加安全的架构,其次是为了让企业更容易的搬迁,再次是为了给用户提供最好的自动化,和最优的价格和性能。除此之外,Oracle的第二代云架构还提供了比on-premises更好的功能和性 ...
分类:   
一文理解 Apache Hadoop 机架感知
一文理解 Apache Hadoop 机架感知
分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之 ...
分类:   
我经历的 Protocol Buffers 那些坑
我经历的 Protocol Buffers 那些坑
Protocol Buffers是一种广泛使用结构化数据存储格式,可以用于结构化数据的序列化/反序列化,也是很多rpc框架的基础之一,在Google内部大规模使用。protobuffers的最大问题是其可怕的类型系统。 Java的粉丝应该感觉 ...
分类:   
如何改进Elasticsearch用于日志分析?
如何改进Elasticsearch用于日志分析?
Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,被全球众多知名公司使用,有各种各样的场景用例。当应用在 Uber、Instacart 和 Tinder 时,它使骑手与附近的司机配对,为在线购物者提供相关的结果和建议, ...
分类:   
IBM公司史上最大一笔收购 以334亿美元收购红帽公司
IBM公司史上最大一笔收购 以334亿美元收购红帽公司
北京时间10月29日,两家公司周日宣布,IBM将以334亿美元的价格收购红帽公司(Red Hat)。根据一份联合声明,IBM将支付现金,以每股190美元的价格购买红帽公司的所有股票。这比周五红帽公司收盘价每股116.68美元溢价6 ...
分类:   
一文读懂Apache Flink技术
一文读懂Apache Flink技术
Flink是一款分布式的计算引擎,它可以用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时地处理一些实时数据流,实时地产生数据的结果;也可以用来做一些基于事件的应用,比如说滴滴通过F ...
分类:   
pandas系列学习(五):数据连接
pandas系列学习(五):数据连接
利用 Python 处理任何实际的数据时,你就需要将 pandas DataFrame 合并或者链接在一起来分析数据集,但是这个过程还是非常花费时间的,大约是 10 分钟。合并(merge)和连接(join)数据框 是任何有抱负的数据分析师 ...
分类:   
pandas系列学习(四):数据提取
pandas系列学习(四):数据提取
有多种方法可以从 pandas DataFrame 中选择和索引行列。在这篇文章中,我们来讲一些高级的提取数据方法。在 pandas 中实现选择和索引的有三个主要选项,这可能会令人困惑。本文涉及的三个选择案例和方法是:按照行号 ...
分类:   
pandas系列学习(三):DataFrame
pandas系列学习(三):DataFrame
如果你正在进行数据科学,从基于 Excel 的分析转向 Python 脚本和自动分析领域,你将会遇到非常流行的数据处理方式 Pandas。Pandas 的开发始于 2008 年,主要开发人员是 Wes McKinney,该库已经成为使用 Python 进行 ...
分类:   
pandas系列学习(二):Series
pandas系列学习(二):Series
pandas 提供的最重要的一个特性是 Series。Series 类似于 Python 中的列表或者数组。它表示一系列的值(数字或者其他数据),例如一列数字。你可以把它想象成一个固定的 Python 列表。它体用了额外的功能,方法和操 ...
分类:   
pandas系列学习(一):pandas入门
pandas系列学习(一):pandas入门
pandas 是一套用于 Python 的快速,高效的数据分析工具。近年来它的受欢迎程度飙升,与数据科学和机器学习等领域的兴起同步。正如 Numpy 提供了基础的数据类型,pandas 也提供了核心数组操作,它定义了处理数据的基 ...
分类:   
Oracle将从2019年1月起收取Java费用
Oracle将从2019年1月起收取Java费用
甲骨文宣布,“2019年1月之后”,如果没有商业许可,Java SE 8公开更新将无法用于“商业,商业或生产用途”。组织现在需要对运行Java SE 8的所有软件进行评估,并开始计算明年他们正在寻找的潜在账单。Java SE6和Jav ...
分类:   
为什么 Python 这么慢?
为什么 Python 这么慢?
Python 现在越来越火,已经迅速扩张到包括 DevOps、数据科学、Web 开发、信息安全等各个领域当中。然而,相比起 Python 扩张的速度,Python 代码的运行速度就显得有点逊色了。在代码运行速度方面,Java、C、C++、C# ...
分类:   
技术寡头争霸传之:控制开源工具,就控制了整个生态
技术寡头争霸传之:控制开源工具,就控制了整个生态
在以弑君者为荣的山谷里,假如国王再也不能被杀死了会怎样?全球市值最高的五家公司——苹果 (Apple)、亚马逊 (Amazon)、Alphabet、微软 (Microsoft) 和 Facebook——位于科技食物链的顶端,已经形成了 科技寡头垄断 ...
分类:   
分布式基础—RPC
分布式基础—RPC
在传统的开发模式中,我们通常将系统的各个服务部署在单台机器,随着服务的扩展,这种方式已经完全无法满足系统大规模的扩展需要,分布式系统由此诞生,在分布式系统中,最重要就是各个服务之间的 RPC 调用。RPC 全 ...
分类:   
快修复!Oracle爆出CVSS10高危漏洞——cve-2018-2913复现
快修复!Oracle爆出CVSS10高危漏洞——cve-2018-2913复现
甲骨文(Oracle)每季度的例行重要补丁更新,修复了 301 个安全漏洞,其中有 45 个被列为严重(Critical)等级,在 CVSS 漏洞评分系统上达到 9.8 分,最严重的 CVE-2018-2913 为 10 分。cve-2018-2913复现!!CVE-2018-2 ...
分类:   
Julia加入TPU,这是一个靠自己也要融入机器学习的编程语言
Julia加入TPU,这是一个靠自己也要融入机器学习的编程语言
Julia 语言发展非常迅速,它可以视为同时具备了 Python 的灵活性与 C 的速度,但目前 TensorFlow 和 PyTorch 等框架官方都不支持 Julia 语言。因此近日有研究者借助 XLA 底层编译器为 Julia 构建 TPU 支持,他们表示 ...
分类:   
2018 JVM 生态报告:79% 的 Java 开发者使用 Java 8
2018 JVM 生态报告:79% 的 Java 开发者使用 Java 8
2018 JVM 生态调查报告已于近日发布,该报告由 Snyk 和 The Java Magazine(Oracle 的双月刊)联合推出,旨在了解 JDK 的实现、工具、平台和应用方面的前景。基于超过 10200 份用户问卷,报告生成了如下结果:1、你 ...
分类:   
谁“杀死”了大数据创业者?裁员、缺钱、没法盈利,寒冬真的来了
谁“杀死”了大数据创业者?裁员、缺钱、没法盈利,寒冬真的来了
“这两年在大数据领域,纯粹讲概念没有技术的公司都死完了。融资过很多的钱的企业虽然还存活着,但大多过的也很难受。”一位大数据领域的资深创业者,对创界网说出了整个业内的真实现状。从2016年开始,就有人喊大数 ...
分类:   
Hadoop真的要死了吗?
Hadoop真的要死了吗?
10 月 3 日,Hortonworks 宣布将与其主要竞争对手 Cloudera 合作创建一家年收入约为 7.3 亿美元、拥有 2,500 名客户、市场估值达 52 亿美元的公司,这令很多人感到意外。Splice Machine 首席执行官 Monte Zweben 表 ...
分类:   
Redis 5.0 正式发布,slave 术语已遭删除
Redis 5.0 正式发布,slave 术语已遭删除
Redis 5 是 Redis 引入流数据类型(Stream data type)的第一个版本。按照官方的说法,不使用该特性的用户在生产环境中使用 Redis 5 会有更好的体验 —— 虽然开发团队尚未发现关于这项特性的关键错误。此外,因为许多 ...
分类:   
GitHub史上最大更新:可直接运行代码
GitHub史上最大更新:可直接运行代码
长期以来,Github 一直就是储存源代码和进行分享的平台,如今,已被微软招致麾下的 Github 似乎正在打破自己的边界。在 10 月 16 日的年度 GitHub Universe 大会上,Github 发布了一次重要的版本更新,推出了 GitHub ...
分类:   
Memcache/Redis集群管理探索实现:美图开源PaaS平台资源网关
Memcache/Redis集群管理探索实现:美图开源PaaS平台资源网关
twemproxy 是一款由 twitter 开源的 Redis/Memcached 代理,主要目标是减少后端资源的连接数以及为缓存横向扩展能力。 twemproxy 支持多种 hash 分片算法,同时具备失败节点自动剔除的功能。除此之外,其他比较成熟 ...
分类:   
在为OpenStack构建Zuul CI / CD云的过程中,我们学到什么了?
在为OpenStack构建Zuul CI / CD云的过程中,我们学到什么了?
对OpenStack等开源项目做出贡献往往意味着个人和公司提供代码,增加新功能和修复bug。近两年来,笔者一直在使用裸机服务提供商Packet捐赠的硬件,在美国各地的用户组会议上的演示和实验室运行一次性OpenStack云。六 ...
分类:   
VMware 的新OpenStack动作
VMware 的新OpenStack动作
VMware Integrated OpenStack 5包括增强的Kubernetes集群支持、VIO in a Box,这使用户能够在一台服务器上整合所有VMware Integrated OpenStack组件,并提高安全性。VMware自2013年开始提供VMware Integrated OpenSt ...
分类:   
让 Python 代码更易维护的七种武器
让 Python 代码更易维护的七种武器
随着软件项目进入“维护模式”,对可读性和编码标准的要求很容易落空(甚至从一开始就没有建立过那些标准)。然而,在代码库中保持一致的代码风格和测试标准能够显著减轻维护的压力,也能确保新的开发者能够快速了解 ...
分类:   
Facebook 的 3 个 Bug 祸害了 5000 万用户!
Facebook 的 3 个 Bug 祸害了 5000 万用户!
隐私安全战正在打响!当美国国会参议院商务委员会邀苹果、亚马逊、谷歌、Twitter、ATT 等美国知名科技巨头共同召开一场有关保护数据隐私的联邦立法听证会时,隔壁的 Facebook 却再次被掀了老底,因自身应用的安全漏 ...
分类:   
Scikit-learn发布0.20版本!新增处理缺失值、合并Pandas等功能
Scikit-learn发布0.20版本!新增处理缺失值、合并Pandas等功能
之前一直预告 Scikit-learn 的新版本会在 9 月发布,在马上就要结束的 9 月,我们终于迎来了 Scikit-learn 0.20。此版本修复了大量的错误和功能,增强了 Scikit-learn 库,改善了文档和示例。在此对 Scikit-learn 的 ...
分类:   
我跟OpenStack 1-8年,从ABC到HI、到KO
我跟OpenStack 1-8年,从ABC到HI、到KO
当时的OpenStack版本还处于A、B、C阶段,与端庄有型的CloudStack,简洁明快的OpenNebula,高端大气的Eucalyptus相比,可以合称IaaS初生年代的四小龙。其中的Eucalyptus在学术圈被高谈阔论,中国移动的大云用上了Open ...
分类:   
JDK 11 正式发布!
JDK 11 正式发布!
美国当地时间9月25日,Oracle 官方宣布 Java 11 (18.9 LTS) 正式发布,可在生产环境中使用!这是自 Java 8 后的首个长期支持版本,非常值得大家的关注,可以通过下面的地址进行下载:https://www.oracle.com/technet ...
分类:   

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2019-4-21 16:14 , Processed in 0.161386 second(s), 19 queries .