炼数成金 大数据
订阅

大数据

Spark Streaming VS Flink
Spark Streaming VS Flink
Spark Streaming 是微批处理,运行的时候需要指定批处理的时间,每次运行 job 时处理一个批次的数据。Flink 是基于事件驱动的,事件可以理解为消息。事件驱动的应用程序是一种状态应用程序,它会从一个或者多个流中 ...
分类:   
弃用 Oracle!
弃用 Oracle!
近日,DB-Engines 最新发布了 2018 年 8 月数据库排名榜,Oracle 稳居第一,同时是本月涨幅最大的数据库技术,涨幅高达 34.24,狠甩第二名 MySQL。然而万万没想到的是,使用率位居第一的 Oracle 在国内外科技巨头的 ...
分类:   
用图表和实例解释 Await 和 Async
用图表和实例解释 Await 和 Async
JavaScript ES7 中的 async / await 让多个异步 promise 协同工作起来更容易。如果要按一定顺序从多个数据库或者 API 异步获取数据,你可能会以一堆乱七八糟的 promise 和回调函数而告终。而 async / await 结构让我 ...
分类:   
留给传统 DBA 的时间不多了?看饿了么如何构建数据库平台自动化
留给传统 DBA 的时间不多了?看饿了么如何构建数据库平台自动化
从时间轴上看我们每年会有一个比较大的前进,我们从人肉->工具化->平台化->自助化只用了两年半时间完成全部迭代,其中平台化&自助化+数据库多活改造我们一口气用了8个月的时间完成全部开发及改造工作。在完 ...
分类:   
如何在 Git 中重置、恢复,返回到以前的状态
如何在 Git 中重置、恢复,返回到以前的状态
使用 Git 工作时其中一个鲜为人知(和没有意识到)的方面就是,如何轻松地返回到你以前的位置 —— 也就是说,在仓库中如何很容易地去撤销那怕是重大的变更。在本文中,我们将带你了解如何去重置、恢复和完全回到以 ...
分类:   
如何用女朋友能懂的方式解释Kubernetes
如何用女朋友能懂的方式解释Kubernetes
Kubernetes 有自己的各种模型和术语,导致很多初学者在刚刚接触 Kubernetes 时,理解起来有很多的困难和障碍。本文将其类比为主题公园,配合生动形象的图片,通俗易懂地阐述了 Kubernetes 的基础理念和各个组成部分 ...
分类:   
Python流处理
Python流处理
Faust是一个流处理库,将kafka流中的思想移植到Python中。它被用于Robinhood去构建高性能的分布式系统和实时数据通道,每天处理数十亿的数据。Faust同时提供流处理和事件处理,同类型的工具分享例如:Kafka Streams, ...
分类:   
我是如何用2个Unix命令给SQL提速的
我是如何用2个Unix命令给SQL提速的
理想情况下,MariaDB 应该支持排序合并连接,并且在预测到备用策略的运行时间过长时,优化器应该使用排序合并连接。但在此之前,使用 70 年代设计的 Unix 命令就可以解决这个问题。
分类:   
Apache Flink 1.6.0 正式发布,涵盖多项重要更新
Apache Flink 1.6.0 正式发布,涵盖多项重要更新
Flink 的状态支持是使 Flink 在实现各种用例方面如此通用和强大的关键特性之一。为了使其更加容易使用,社区为其添加了 TTL 的原生支持(FLINK-9510, FLINK-9938),此功能允许在状态过期之后能够清理状态。在 Flink 1 ...
分类:   
全球最严个人数据保护法GDPR实施之后
全球最严个人数据保护法GDPR实施之后
“我们公司也在修改‘隐私协议’,已经写好了,还只是比较简单的框架,内部正在核对,因为隐私政策特别重要,目前还没有推出。”欧盟通用数据保护条例(General Data Protection Regulation,简称GDPR)正式实施十多 ...
分类:   
Spark SQL在100TB上的自适应执行实践
Spark SQL在100TB上的自适应执行实践
Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。 ...
分类:   
Python爬取了121.3万条大众点评,告诉你哪里的小龙虾才是一绝
Python爬取了121.3万条大众点评,告诉你哪里的小龙虾才是一绝
首先要进行分析的是各个城市的小龙虾热度。我们以带有“小龙虾”标签的餐厅评论总和作为最终的对比依据,得到的TOP20城市如下: 可以看出上海市的点评数遥遥领先,可能存在以下两个因素:a.上海市的小龙虾餐厅数量 ...
分类:   
云存储主要技术路线选型比较
云存储主要技术路线选型比较
哪些应用场景适合云存储?存储虚拟化、分布式存储、对象存储这几种技术主要解决什么问题?技术产品选型如何考虑?传统 IT 环境中使用传统存储的困境有那些?那些应用场景是传统存储不能满足而必须借助云存储来实现的?一 ...
分类:   
为什么说“开源”已经失败:让穷人越来越穷,富人越来越富!
为什么说“开源”已经失败:让穷人越来越穷,富人越来越富!
2018年是“开源”一词提出20周年,对于这个具有里程碑意义的年份,已经有很多文章和会议发言,其中绝大多数都是祝贺之词。不幸的是,开源支持者似乎不能(或不愿意)对开源对整个社会的实际影响进行反思性思考,导致 ...
分类:   
雕刻在LINUX内核中的LINUS故事
雕刻在LINUX内核中的LINUS故事
因为LINUX操作系统的流行,Linus 已经成为地球人都知道的名人。虽然大家可能都听过钱钟书先生的名言:“假如你吃个鸡蛋觉得味道不错,又何必认识那个下蛋的母鸡呢?” 但是如果真是遇到一个“特别显赫”的鸡蛋,很多人 ...
分类:   
Linux 之父如何定义 Linux?
Linux 之父如何定义 Linux?
LINUX是一个免费类unix内核,适用于386-AT计算机,附带完整源代码。主要让黑客、计算机科学学生使用,学习和享受。它大部分用C编写,但是一小部分是用gnu格式汇编,而且引导序列用的是因特尔086汇编语言。C代码是相 ...
分类:   
有故障的才是「云平台」
有故障的才是「云平台」
当某朵云故障时,我看到了太多从业者弹冠相庆,幻想着友商遭灾了就能白捡到个大单。但友商出故障这类事是新闻不是丑闻,客户不会为一次故障而放弃现有供应商。只有屌丝云备胎才幻想着情侣吵一架自己就能接盘。这些年 ...
分类:   
Gartner 最新IaaS收入排名前五:AWS、Azure、阿里云等
Gartner 最新IaaS收入排名前五:AWS、Azure、阿里云等
亚马逊网络服务(AWS)仍然是infrastructure-as-a-service (IaaS) 第一大公有云供应商。根据 Gartner的最新数据,供应商在收入和市场份额的竞争中保持着巨大的领先地位。但随着微软、阿里巴巴和谷歌施加压力,其在云领 ...
分类:   
Erlang 入坑指南
Erlang 入坑指南
大部分人学习编程是从面向对象过来的。 Erlang 是一门函数式编程语言。写码时候的思维方式和传统的面向对象还是有很大差别的。这算是第一个挑战。第二个挑战是, Erlang 的语法比较奇怪。当然这点因人而异,不过对于 ...
分类:   
运行Docker:物理机vs虚拟机,五方面详细对比!
运行Docker:物理机vs虚拟机,五方面详细对比!
从2013年3月dotCloud公司发布第一个版本的Docker以来,已经有越来越多的公司将自己的线上业务跑在了Docker里面,大量的实战经验证明Docker是一种值得信赖和拥抱的技术。不论网上,还是各种技术交流会上,大家也都在 ...
分类:   
什么是云原生?
什么是云原生?
在一般用法中,“云原生”是一种构建和运行应用程序的方法,它利用了云计算交付模型的优势。“云原生”是关于如何创建和部署应用程序,和位置无关。 这意味着应用程序位于云中,而不是传统数据中心。CNCF将“云原生 ...
分类:   
OpenStack计算模块Nova架构及问题源码剖析
OpenStack计算模块Nova架构及问题源码剖析
提起OpenStack,大家都不陌生。 OpenStack实质是亚马逊AWS的开源实现,在短短几年的发展历程中,已经成为了云计算开源领域的事实标准,得到了国内外知名企业的大力贡献和支持,OpenStack可以支持KVM、XEN、LXC等虚拟 ...
分类:   
有关容器的六大误区和八大正确场景
有关容器的六大误区和八大正确场景
做容器的研究和容器化几年了,从最初对于容器的初步认识,到积攒了大量的容器迁移经验,并和客户解释了容器技术之后,发现原来对于容器的理解有大量的误解,而且容器并非虚拟机的替代,而是有十分具体的应用场景的。 ...
分类:   
对象存储从理论到实践
对象存储从理论到实践
随着PC、平板电脑、智能手机等电子设备的普及,互联网极大的提升了人们的生活水平。网络在丰富人们生活的同时,也产生了庞大的数据量。据IDC预测,全球数据总量预计2020年达到44个ZB,我国数据量将达到8060个EB,占 ...
分类:   
鲜为人知的 Python 语法
鲜为人知的 Python 语法
所有人(好吧,不是所有人)都知道 python 是一门用途广泛、易读、而且容易入门的编程语言。但同时 python 语法也允许我们做一些很奇怪的事情。使用 lambda 表达式重写多行函数,众所周知 python 的 lambda 表达式不 ...
分类:   
RocketMQ 4.3正式发布,支持分布式事务
RocketMQ 4.3正式发布,支持分布式事务
在微服务架构中,随着服务的逐步拆分,数据库私有已经成为共识,这也导致所面临的分布式事务问题成为微服务落地过程中一个非常难以逾越的障碍,但是目前尚没有一个完整通用的解决方案。其实不仅仅是在微服务架构中, ...
分类:   
如何用 Python实时监控文件?
如何用 Python实时监控文件?
在业务稳定性要求比较高的情况下,运维为能及时发现问题,有时需要对应用程序的日志进行实时分析,当符合某个条件时就立刻报警,而不是被动等待出问题后去解决,比如要监控nginx的$request_time和$upstream_response ...
分类:   
在树莓派上实现人脸识别
在树莓派上实现人脸识别
预计在不久后的将来,人脸识别和身份认证技术将在我们的日常生活中扮演一个非常重要的角色。这项技术为我们开辟了一个全新的世界,它几乎适用于我们生活的方方面面。面部识别/身份认证的使用案例包括安全系统、认证 ...
分类:   
Kubernetes核心组件解析
Kubernetes核心组件解析
众所周知,Kubernetes是目前最为火热的容器编排工具之一,其背后有如此多的追随者必然是有原因的。首先Kubernetes非常轻量,通常Kubernetes都是以容器作为载体,而容器本来就具有轻量级秒级部署的特点;再者Kubernet ...
分类:   
AWS彻底抛弃Oracle数据库:计划2020年初完成
AWS彻底抛弃Oracle数据库:计划2020年初完成
北京时间8月2日上午消息,亚马逊在数据中心技术提供商这条路上的发展日渐将不少自己长期以来的供应商变为了难以共融的竞争对手,甲骨文(Oracle)即其中之一。  最近,亚马逊正在考虑对甲骨文的新一轮打击。据知情 ...
分类:   

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2018-8-17 15:16 , Processed in 0.120964 second(s), 19 queries .