炼数成金 大数据
订阅

大数据

Dropbox Vs. Box:一场关于增长数字的博弈
Dropbox Vs. Box:一场关于增长数字的博弈
3月23日,Dropbox IPO成为开年之后互联网科技界的一个大新闻,因为公开市场迎来的新手,在首日交易中上涨了35%。自那以来,该公司股价一直徘徊在30美元左右,几乎是其首次募股规模16-18美元的两倍,这使其成为最具价 ...
分类:   
PostgreSQL查询优化器详解(物理优化篇)
PostgreSQL查询优化器详解(物理优化篇)
说到代价,我觉得有个东西是绕不过去的,就是统计信息和选择率,PostgreSQL的物理优化需要计算各种物理路径的代价,而代价估算的过程严重依赖于数据库的统计信息,统计信息是否能准确地描述表中的数据分布情况是决定 ...
分类:   
PostgreSQL查询优化器详解(逻辑优化篇)
PostgreSQL查询优化器详解(逻辑优化篇)
不止是数据库要进行优化,基本上所有的编程语言在编译的时候都会优化,比如你在编译C语言的时候,可以通过编译选项-o来指定进行哪个级别的优化,但是查询数据库的查询优化和C语言的优化还有些区别。分层不分层不是重 ...
分类:   
解密百度智能运维工程的架构建设
解密百度智能运维工程的架构建设
百度云智能运维团队在运维工具和平台研发方向历史悠久,支撑了全百度数十万规模服务器上的运维服务,所提供的服务包括服务管理、资源定位、监控、部署、分布式任务调度等等。最近几年,团队着力于发展智能化运维能力 ...
分类:   
大妈也能看懂的大数据分布式计算图解
大妈也能看懂的大数据分布式计算图解
首先,什么是分布式计算?简单点理解就是将大量的数据分割成多个小块,由多台计算机分工计算,然后将结果汇总。这些执行分布式计算的计算机叫做集群,我们仍然延续前文中人和计算机的类比,那么集群就是一个团队,单 ...
分类:   
Flume + kafka + HDFS构建日志采集系统
Flume + kafka + HDFS构建日志采集系统
Flume是一个非常优秀日志采集组件,类似于logstash,我们通常将Flume作为agent部署在application server上,用于收集本地的日志文件,并将日志转存到HDFS、kafka等数据平台中;关于Flume的原理和特性,我们稍后详解 ...
分类:   
企业级 Jenkins 数据备份大法
企业级 Jenkins 数据备份大法
如何驱动持续交付与DevOps转型与落地?如何真正打破部门墙?如何实现端到端的服务交付?答案都是:用Jenkins!相信大部分IT业者都应该听说过或者使用过Jenkins,研发工程师使用 Jenkins 执行编译打包,测试工程师使 ...
分类:   
Gartner:(首份)工业 IoT(物联网)平台魔力象限
Gartner:(首份)工业 IoT(物联网)平台魔力象限
工业企业的CIO们要慎重对待物联网(IoT)平台的摸底调查。采用率在增长,但实施复杂IT/OT集成的客户群很小,侧重于定义狭窄的结果。应专注于集成和数据及设备管理,以确保平台满足不断增长的需求。战略性规划假设: ...
分类:   
史上最大漏洞危机再生新变种,大量芯片受感染
史上最大漏洞危机再生新变种,大量芯片受感染
Spectre and Meltdown 安全漏洞自爆发以来,一直影响着英特尔、ARM 和其他比如说 AMD 等各芯片厂商,据不完全统计,它们已经在过去二十年内影响了数百万的芯片。黑客们也经常搜寻各类未完善的漏洞,以对存在该漏洞的 ...
分类:   
OpenStack 针对特定场景的 8 个高级特性
OpenStack 针对特定场景的 8 个高级特性
OpenStack K版本引入了许多CPU高级特性功能,不仅支持自定义CPU拓扑功能,支持设置虚拟机CPU的socket、core、threads等,还支持CPU pinning功能,即CPU核绑定,甚至能够配置虚拟机独占物理CPU,虚拟机的vCPU能够固定 ...
分类:   
分布式之消息队列复习精讲
分布式之消息队列复习精讲
系统间耦合性太强,如上图所示,系统A在代码中直接调用系统B和系统C的代码,如果将来D系统接入,系统A还需要修改代码,过于麻烦!将消息写入消息队列,需要消息的系统自己从消息队列中订阅,从而系统A不需要做任何修 ...
分类:   
6 个 Python 的日期时间库
6 个 Python 的日期时间库
曾几何时,我们中的一个人(Lacey)盯了一个多小时的 Python 文档中描述日期和时间格式化字符串的表格。当我试图编写从 API 中将日期时间字符串转换为 Python datetime对象时,我很难理解其中的特定部分,因此我决定 ...
分类:   
使用交互式 shell 来增强你的 Python
使用交互式 shell 来增强你的 Python
Python 编程语言已经成为 IT 中使用的最流行的语言之一。成功的一个原因是它可以用来解决各种问题。从网站开发到数据科学、机器学习到任务自动化,Python 生态系统有丰富的框架和库。本文将介绍 Fedora 软件包集合中 ...
分类:   
从架构深度解析阿里云自研数据库 POLARDB
从架构深度解析阿里云自研数据库 POLARDB
全用户态架构,我们有用户态的分布式文件系统(libpfs),我们有自己的polarswitch,这是一个类似本地的网关。我们有用户态的IO栈,用的是开源的SPDK,还有一个用户态的网络RDMA。全用户态带来收益非常大,POLARDB性能 ...
分类:   
Google宣布Git协议迎来重大更新,性能大幅提升
Google宣布Git协议迎来重大更新,性能大幅提升
Git 团队最近为谷歌提供协议 v2 支持,他们发现,在包含 50 万个引用的仓库中,单个分支 fetch 操作的性能提高了 3 倍。协议 v2 还将从 googlesource.com 服务器发送出来的字节数减少到原先的八分之一。这项改进要归 ...
分类:   
全球首次!上海交大光量子芯片实现二维空间的连续量子行走
全球首次!上海交大光量子芯片实现二维空间的连续量子行走
最近,上海交通大学金贤敏团队实现了大规模三维结构集成光量子芯片,并演示了首个真正空间二维的连续时间随机行走量子计算,其成果最近发表于期刊《科学·进展》上。该团队使用飞秒激光直写技术,制备了节点数为 49 ...
分类:   
知名互联网公司 Java 开发岗面试知识点解析
知名互联网公司 Java 开发岗面试知识点解析
Java 开发属于后台开发方向,有人说后台开发很坑,因为需要学习的东西太多了。没错,这个岗位就是需要学习好多东西。包括:本语言(Java/C++/PHP)基础、数据库、网络协议、Linux 系统、计算机原理甚至前端相关知识 ...
分类:   
坚持还是放弃,Go 语言的“美好与丑陋”解读
坚持还是放弃,Go 语言的“美好与丑陋”解读
Go 确实有一些不错的特性,也就是本文中提到的“好”的部分,但是当我们不将它用于 API 或者网络服务器(这是为它设计的),而是将它用于业务领域逻辑的时候,它看起来比较糟糕。即使是用于网络编程,它在设计和实现 ...
分类:   
如何快速定位JVM中消耗CPU最多的线程?
如何快速定位JVM中消耗CPU最多的线程?
在日常 Java 的开发中,性能调优肯定是很多人不能绕开的一个环节。而其中最简单,也是最基础的一个问题就是如何定位消耗 CPU 最多的线程。这篇文章中你假笨以一个简单的 Test 例子为蓝本,给各位总结了分析这类问题 ...
分类:   
基于 MongoDB 的分布式数据库架构 Sharding
基于 MongoDB 的分布式数据库架构 Sharding
随着大数据时代的到来,数据的收集存储能力得到了大幅度。与此同时,企业数据库系统的存储压力和运算压力也越发严峻。在传统的RDBMS时代,针对这个问题,大多会进行纵向扩容,比如说购买存储、机器升级等。但这种方 ...
分类:   
Apache Pulsar:实时数据处理中消息、计算和存储的统一
Apache Pulsar:实时数据处理中消息、计算和存储的统一
实时数据处理在各个行业和领域中已经变得越来越关键。但是在实时数据栈中,Messaging,Computing和Storage三个部分的分离,给方案的实现带来了高复杂性,低可维护性,低效率等问题。Apache Pulsar 在2016年开源,是S ...
分类:   
ZooKeeper真不是最终一致性的,而是顺序一致性
ZooKeeper真不是最终一致性的,而是顺序一致性
2017 饿了么做异地多活,我的团队承担 ZooKeeper 的异地多活改造。在此期间我听到 2 种不同的关于一致性的说法。一种说法是 ZooKeeper 是最终一致性,因为由于多副本、以及保证大多数成功的 Zab 协议,当一个客户端 ...
分类:   
5 月编程语言榜:C 再度暴涨,Python 首次超越 Java
5 月编程语言榜:C 再度暴涨,Python 首次超越 Java
这个 5 月,国外两个流行的编程语言参考指标榜单都出现了十分有意思的变化。在 TIOBE 5 月编程语言榜中,Scala 厚积薄发,一举进入 TOP 20 。而在 PYPL 发布的 5 月编程语言指数榜中,Python 首次超越 Java 占据榜首 ...
分类:   
MySQL 在并发场景下的问题及解决思路
MySQL 在并发场景下的问题及解决思路
对于数据库系统来说在多用户并发条件下提高并发性的同时又要保证数据的一致性一直是数据库系统追求的目标,既要满足大量并发访问的需求又必须保证在此条件下数据的安全,为了满足这一目标大多数数据库通过锁和事务机 ...
分类:   
腾讯云新一代企业级HTAP数据库TBase核心概念
腾讯云新一代企业级HTAP数据库TBase核心概念
2017年,腾讯云PostgreSQL-XZ(PGXZ)正式改名为TBase,目前已经应用于政务、医疗、公安、消防、电信、金融等行业的十几家客户中。TBase以其功能强大,运行稳定以及强大的互联网基因得到客户的普遍认可。2016年,基 ...
分类:   
中小型企业大数据体系建设的核心技术选型
中小型企业大数据体系建设的核心技术选型
准确来说 “大数据” 这个概念并不存在,其就是在曾经我们提到过的 “海量数据” 的基础上,数据量级再一次增大,导致传统的处理手段无法进行及时、有效地处理。为了表征与传统数据处理手段的区别,表明技术的先进性 ...
分类:   
容器云应该采用什么样的部署方式?
容器云应该采用什么样的部署方式?
目前应该是几乎所有的容器云厂商在容器云交流和PoC时都强调所有组件都容器化。这样实施安装部署相对容易,一键部署、半小时搭建容器云平台。但我们在PoC测试中也发现了一些问题,比如容器资源分配的问题,Kubernetes ...
分类:   
13个Python GUI库
13个Python GUI库
Python是一门高级编程语言。它用于通用编程。Python语言由Guido van Rossum创建,并于1991年首次发布。Python的设计哲学着重于代码的可读性。因此空白在Python中具有重要的意义。Python提供了允许在小规模和大规模上 ...
分类:   
阿里巴巴宣布研制出全球最强量子电路模拟器“太章”
阿里巴巴宣布研制出全球最强量子电路模拟器“太章”
5月8日,阿里巴巴量子实验室施尧耘团队宣布于近日成功研制当前世界最强的量子电路模拟器,名为“太章”。 基于阿里巴巴集团计算平台在线集群的超强算力,“太章”在世界上率先成功模拟了81(9x9)比特40层的作为基准 ...
分类:   
Node.js 10.0和NPM 6发布,强化安全性
Node.js 10.0和NPM 6发布,强化安全性
4 月 24 日,Node.js 项目发布了 10.0.0 版本的 Node.js,同时 npm, Inc 发布了 node 包管理器 npm 的 6.0 版本。这两个发布版本都强调了安全性的增强,Node.js 升级到了 OpenSSL 1.1.0 版本,而 npm 包含了多项聚焦 ...
分类:   

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2018-6-24 11:00 , Processed in 0.642176 second(s), 19 queries .