炼数成金 大数据
订阅

大数据

Linux桌面进化史
Linux桌面进化史
Linux 上的第一个“桌面”是在 X Window 系统上运行的窗口管理器。X 为图形用户界面提供了基本构建块,例如在屏幕上创建窗口并提供键盘和鼠标输入。要运行 X 图形环境,用户需要一种方法来管理会话中的所有窗口,这 ...
分类:   
一文看懂JVM内存布局及GC原理
一文看懂JVM内存布局及GC原理
java的内存布局以及GC原理”是java开发人员绕不开的话题,也是面试中常见的高频问题之一。java发展历史上出现过很多垃圾回收器,各有各的适应场景,很多网上的旧文章已经跟不上最新的变化。本文详细介绍了java的内存 ...
分类:   
不要做中台!不要做!不要……要
不要做中台!不要做!不要……要
感谢资本寒冬。没有资本的添薪加油,它还没火成当年的云计算、大数据、O2O、共享经济,但也相当吸引眼球了。比如很多大会有了中台专题;有培训公司开起了《中台产品经理》课;《邵恒头条》会用专门的一期讲中台;还 ...
分类:   
比拼Kafka,大数据分析新秀Pulsar到底好在哪
比拼Kafka,大数据分析新秀Pulsar到底好在哪
在实时流式架构中,消息传递可以分为两类:队列(Queue)和流(Stream)。队列模型主要是采用无序或者共享的方式来消费消息。通过队列模型,用户可以创建多个消费者从单个管道中接收消息;当一条消息从队列发送出来 ...
分类:   
技术专家:为什么我们最终选择Apache Pulsar替代Kafka?
技术专家:为什么我们最终选择Apache Pulsar替代Kafka?
在传统消息系统中,存在一些问题。一方面,消息的存储和服务一般是紧耦合的,节点的扩容和运维不便,特别是在需要多备份来保证高可用性的场景。另一方面,消息的消费模式被固定,在企业内部需要维护多套系统来保证不 ...
分类:   
理解Apache Pulsar工作原理
理解Apache Pulsar工作原理
Apache Pulsar选择一致性而不是可用性就像BookKeeper和Zookeeper一样。Apache Pulsar尽一切努力保持一致性。Apache Pulsar在上层具有高级别的Topic(主题)和Subscription(订阅)的概念,在底层数据存储在二进制文件中 ...
分类:   
Hadoop迎来3.x时代,昔日大数据霸主如何应对云计算的挑战?
Hadoop迎来3.x时代,昔日大数据霸主如何应对云计算的挑战?
Scalability 主要是指 Hadoop 的分布式文件系统 HDFS 仍然有提高扩展性的需求和空间,后面会详细展开讲。Cloud 也是一个非常重要的方向,云上的对象存储甚至有取代 HDFS 成为云端大数据默认存储的趋势,所以 HDFS 如 ...
分类:   
中国北斗与美国GPS差距有多大?核心数据曝光......
中国北斗与美国GPS差距有多大?核心数据曝光......
提起全球卫星导航系统,人们经常首先想起美国的全球定位系统(GPS)。据参考消息援引《日本经济新闻》网站8月20日报道,美国长期以来一直是全球卫星定位系统的领导者,但现在,中国的北斗卫星导航系统在规模上已经超 ...
分类:   
图解Gossip-可能是最有趣的一致性协议
图解Gossip-可能是最有趣的一致性协议
Gossip协议是一个通信协议,一种传播消息的方式,灵感来自于:瘟疫、社交网络等。使用Gossip协议的有:Redis Cluster、Consul、Apache Cassandra等。说到社交网络,就不得不提著名的六度分隔理论。1967年,哈佛大学 ...
分类:   
7种 JVM 垃圾收集器特点、优劣势及使用场景(多图)
7种 JVM 垃圾收集器特点、优劣势及使用场景(多图)
G1 收集器是 jdk1.7 才正式引用的商用收集器,现在已经成为 jdk9 默认的收集器。前面几款收集器收集的范围都是新生代或者老年代,G1 进行垃圾收集的范围是整个堆内存,它采用 “ 化整为零 ” 的思路,把整个堆内存划 ...
分类:   
中国学者刷新世界纪录!开发出20量子比特量子芯片
中国学者刷新世界纪录!开发出20量子比特量子芯片
量子比特数和操纵精度,是当前国际量子计算科研的两大核心难题。而多比特量子纠缠态的实验制备是衡量量子计算平台控制能力的关键标志,全球范围内竞争尤为激烈。在工业界,谷歌、IBM、微软、英特尔、华为、阿里等高 ...
分类:   
AI计算藏惊人“黑洞”:15万美元多跑0.1分,大型AI研究被批无视能耗成本
AI计算藏惊人“黑洞”:15万美元多跑0.1分,大型AI研究被批无视能耗成本
越来越强大的 AI 模型正在改变这个世界。但这背后的成本并不便宜。近日,著名的 AI 研究机构艾伦 AI 研究所(AI2)发布了一份新的立场文件(Position Paper),呼吁业内在评估 AI 研究时应该更加重视能效,在开发、训 ...
分类:   
想要改变世界的 Rust 语言
想要改变世界的 Rust 语言
一门编程语言就像一个小宇宙,语言中的各种语法概念就像一颗颗星辰。对于初学者来说,看这些语法概念与看星罗棋布时产生的迷惑是相似的。幸亏编程语言是由人类创造的,编程语言的作者可以被找到,编程语言的源码也可 ...
分类:   
民生银行数据中台体系的构建与实践
民生银行数据中台体系的构建与实践
在大数据、人工智能、区块链等新兴技术的驱动下,各家银行纷纷利用新技术制定数字转型改革战略,寻找差异化经营的可行模式。民生银行积极推进改革转型,2018年在“民营企业的银行、科技金融的银行、综合服务的银行” ...
分类:   
10 分钟彻底理解 Redis 的持久化和主从复制
10 分钟彻底理解 Redis 的持久化和主从复制
Redis作为一个键值对内存数据库(NoSQL),数据都存储在内存当中,在处理客户端请求时,所有操作都在内存当中进行。对于只把Redis当缓存来用的项目来说,数据消失或许问题不大,重新从数据源把数据加载进来就可以了, ...
分类:   
如何用 Linux 命令行工具解析和格式化输出 JSON
如何用 Linux 命令行工具解析和格式化输出 JSON
JSON 是一种轻量级且与语言无关的数据存储格式,易于与大多数编程语言集成,也易于人类理解 —— 当然,如果格式正确的话。JSON 这个词代表 Java Script Object Notation,虽然它以 JavaScript 开头,而且主要用于在 ...
分类:   
即将发版!Apache Flink 1.9 版本的演进之路
即将发版!Apache Flink 1.9 版本的演进之路
Apache Flink 项目在捐献给 Apache 之前,是由柏林工业大学博士生发起的项目,当时的 Flink 系统还是一个基于流式 Runtime 的批处理引擎,主要解决的也是批处理的问题。2014 年,Flink 被捐献给 Apache,并迅速成为 ...
分类:   
Kafka是靠什么机制保持高可靠,高可用的?
Kafka是靠什么机制保持高可靠,高可用的?
面试大厂时,一旦简历上写了Kafka,几乎必然会被问到一个问题:说说acks参数对消息持久化的影响?这个acks参数在kafka的使用中,是非常核心以及关键的一个参数,决定了很多东西。所以无论是为了面试还是实际项目使用 ...
分类:   
比Spark快100倍的GPU加速SQL引擎!BlazingSQL开源了
比Spark快100倍的GPU加速SQL引擎!BlazingSQL开源了
BlazingSQL 是一个基于英伟达 RAPIDS 生态系统构建的 GPU 加速 SQL 引擎。RAPIDS 包含一组软件库(BlazingSQL、cuDF、cuML、cuGraph),用来在 GPU 上执行端到端的数据科学计算和分析管道。RAPIDS 基于 Apache Arrow ...
分类:   
正式支持多线程!Redis 6.0与老版性能对比评测
正式支持多线程!Redis 6.0与老版性能对比评测
协议栈优化的这种方式跟 Redis 关系不大,多线程特性在社区也被反复提了很久后终于在 Redis 6 加入多线程,Salvatore 在自己的博客 An update about Redis developments in 2019 也有简单的说明。但跟 Memcached 这 ...
分类:   
58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密
58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密
Flink-Storm 是 Flink 官方提供的用于 Flink 兼容 Storm 程序 beta 工具,并且在 Release 1.8 之后去掉相关代码。本文主要讲述 58 实时计算平台如何优化 Flink-Storm 以及基于 Flink-Storm 实现真实场景下大规模 Sto ...
分类:   
通过阅读源码,提高你的 JS 水平
通过阅读源码,提高你的 JS 水平
当你还处于编程生涯的初期阶段时,深入研究开源库和框架的源代码可能是一项艰巨的任务。在本文中,Carl Mungazi 分享了他如何克服恐惧,并开始用源码来提高他的知识水平和专业技能。他还使用了 Redux 来演示他如何解 ...
分类:   
十大至简规则,用Jupyter Notebook写代码应该这样来
十大至简规则,用Jupyter Notebook写代码应该这样来
你真的是 Jupyter Notebook 高手吗,真的能将代码和文档打造成铁桶一般的整体吗?Jupyter Notebook 是一个非常常用的代码编辑器,它非常适合做数据分析与代码展示,很多云服务也采用它作为代码编辑器。此外,因为用 ...
分类:   
微众银行数据库架构演进及 TiDB 实践经验
微众银行数据库架构演进及 TiDB 实践经验
2014 年微众银行成立之时,就非常有前瞻性的确立了微众银行的 IT 基础架构的方向:去 IOE,走互联网模式的分布式架构。IOE 即 IBM、Oracle、EMC,代表了传统基础架构领域的服务器、商业数据库和存储产品体系,众所周 ...
分类:   
网易云音乐的消息队列改造之路
网易云音乐的消息队列改造之路
网易云音乐从13年4月上线以来,业务和用户突飞猛进。后台技术也从传统的 Tomcat 集群到分布式微服务快速演进和迭代,在业务的不断催生下,诞生了云音乐的 RPC,API 网关和链路跟踪等多种服务,消息队列也从 RabbitMQ ...
分类:   
互联网公司的中台到底是什么,有哪些种类、困境?
互联网公司的中台到底是什么,有哪些种类、困境?
中台化据说是马云参观 Supercell 后在阿里巴巴提出的,要求“大中台、小前台”的模式。目标也很明确:小前台距离一线更近,便于快速决策、敏捷行动;剩下的交给支撑部门做。首先,Supercell 一直倡导“Less is more ...
分类:   
吐血整理!140种Python标准库、第三方库和外部工具都有了
吐血整理!140种Python标准库、第三方库和外部工具都有了
Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有Python内置函数和标准库,又有第三方库和工具。这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换、数据 ...
分类:   
OpenResty之Lua语法学习
OpenResty之Lua语法学习
OpenResty最早是顺应OpenAPI的潮流做的,所以 Open 取自“开放”之意,而Resty便是 REST 风格的意思。虽然后来也可以基于ngx_openresty实现任何形式的 webservice 或者传统的 web 应用。OpenResty (也称为 ngx_open ...
分类:   
1美元训练BERT,教你如何薅谷歌TPU羊毛 | 附Colab代码
1美元训练BERT,教你如何薅谷歌TPU羊毛 | 附Colab代码
BERT是谷歌去年推出的NLP模型,一经推出就在各项测试中碾压竞争对手,而且BERT是开源的。只可惜训练BERT的价格实在太高,让人望而却步。之前需要用64个TPU训练4天才能完成,后来谷歌用并行计算优化了到只需一个多小 ...
分类:   
微软再称王
微软再称王
曾经被评论者判了“死刑”的微软,在度过10余年的疲软期后,重新做回“王者”。7月18日,微软公布了其2019财年第四季度(指2019年4月1日-6月30日)业绩报告以及2019财年业绩报告。这份报告中,微软整个财年收入超过1 ...
分类:   

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2019-10-19 18:18 , Processed in 0.114095 second(s), 19 queries .