炼数成金 大数据
订阅

大数据

7种 JVM 垃圾收集器特点、优劣势及使用场景(多图)
7种 JVM 垃圾收集器特点、优劣势及使用场景(多图)
G1 收集器是 jdk1.7 才正式引用的商用收集器,现在已经成为 jdk9 默认的收集器。前面几款收集器收集的范围都是新生代或者老年代,G1 进行垃圾收集的范围是整个堆内存,它采用 “ 化整为零 ” 的思路,把整个堆内存划 ...
分类:   
中国学者刷新世界纪录!开发出20量子比特量子芯片
中国学者刷新世界纪录!开发出20量子比特量子芯片
量子比特数和操纵精度,是当前国际量子计算科研的两大核心难题。而多比特量子纠缠态的实验制备是衡量量子计算平台控制能力的关键标志,全球范围内竞争尤为激烈。在工业界,谷歌、IBM、微软、英特尔、华为、阿里等高 ...
分类:   
AI计算藏惊人“黑洞”:15万美元多跑0.1分,大型AI研究被批无视能耗成本
AI计算藏惊人“黑洞”:15万美元多跑0.1分,大型AI研究被批无视能耗成本
越来越强大的 AI 模型正在改变这个世界。但这背后的成本并不便宜。近日,著名的 AI 研究机构艾伦 AI 研究所(AI2)发布了一份新的立场文件(Position Paper),呼吁业内在评估 AI 研究时应该更加重视能效,在开发、训 ...
分类:   
想要改变世界的 Rust 语言
想要改变世界的 Rust 语言
一门编程语言就像一个小宇宙,语言中的各种语法概念就像一颗颗星辰。对于初学者来说,看这些语法概念与看星罗棋布时产生的迷惑是相似的。幸亏编程语言是由人类创造的,编程语言的作者可以被找到,编程语言的源码也可 ...
分类:   
民生银行数据中台体系的构建与实践
民生银行数据中台体系的构建与实践
在大数据、人工智能、区块链等新兴技术的驱动下,各家银行纷纷利用新技术制定数字转型改革战略,寻找差异化经营的可行模式。民生银行积极推进改革转型,2018年在“民营企业的银行、科技金融的银行、综合服务的银行” ...
分类:   
10 分钟彻底理解 Redis 的持久化和主从复制
10 分钟彻底理解 Redis 的持久化和主从复制
Redis作为一个键值对内存数据库(NoSQL),数据都存储在内存当中,在处理客户端请求时,所有操作都在内存当中进行。对于只把Redis当缓存来用的项目来说,数据消失或许问题不大,重新从数据源把数据加载进来就可以了, ...
分类:   
如何用 Linux 命令行工具解析和格式化输出 JSON
如何用 Linux 命令行工具解析和格式化输出 JSON
JSON 是一种轻量级且与语言无关的数据存储格式,易于与大多数编程语言集成,也易于人类理解 —— 当然,如果格式正确的话。JSON 这个词代表 Java Script Object Notation,虽然它以 JavaScript 开头,而且主要用于在 ...
分类:   
即将发版!Apache Flink 1.9 版本的演进之路
即将发版!Apache Flink 1.9 版本的演进之路
Apache Flink 项目在捐献给 Apache 之前,是由柏林工业大学博士生发起的项目,当时的 Flink 系统还是一个基于流式 Runtime 的批处理引擎,主要解决的也是批处理的问题。2014 年,Flink 被捐献给 Apache,并迅速成为 ...
分类:   
Kafka是靠什么机制保持高可靠,高可用的?
Kafka是靠什么机制保持高可靠,高可用的?
面试大厂时,一旦简历上写了Kafka,几乎必然会被问到一个问题:说说acks参数对消息持久化的影响?这个acks参数在kafka的使用中,是非常核心以及关键的一个参数,决定了很多东西。所以无论是为了面试还是实际项目使用 ...
分类:   
比Spark快100倍的GPU加速SQL引擎!BlazingSQL开源了
比Spark快100倍的GPU加速SQL引擎!BlazingSQL开源了
BlazingSQL 是一个基于英伟达 RAPIDS 生态系统构建的 GPU 加速 SQL 引擎。RAPIDS 包含一组软件库(BlazingSQL、cuDF、cuML、cuGraph),用来在 GPU 上执行端到端的数据科学计算和分析管道。RAPIDS 基于 Apache Arrow ...
分类:   
正式支持多线程!Redis 6.0与老版性能对比评测
正式支持多线程!Redis 6.0与老版性能对比评测
协议栈优化的这种方式跟 Redis 关系不大,多线程特性在社区也被反复提了很久后终于在 Redis 6 加入多线程,Salvatore 在自己的博客 An update about Redis developments in 2019 也有简单的说明。但跟 Memcached 这 ...
分类:   
58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密
58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密
Flink-Storm 是 Flink 官方提供的用于 Flink 兼容 Storm 程序 beta 工具,并且在 Release 1.8 之后去掉相关代码。本文主要讲述 58 实时计算平台如何优化 Flink-Storm 以及基于 Flink-Storm 实现真实场景下大规模 Sto ...
分类:   
通过阅读源码,提高你的 JS 水平
通过阅读源码,提高你的 JS 水平
当你还处于编程生涯的初期阶段时,深入研究开源库和框架的源代码可能是一项艰巨的任务。在本文中,Carl Mungazi 分享了他如何克服恐惧,并开始用源码来提高他的知识水平和专业技能。他还使用了 Redux 来演示他如何解 ...
分类:   
十大至简规则,用Jupyter Notebook写代码应该这样来
十大至简规则,用Jupyter Notebook写代码应该这样来
你真的是 Jupyter Notebook 高手吗,真的能将代码和文档打造成铁桶一般的整体吗?Jupyter Notebook 是一个非常常用的代码编辑器,它非常适合做数据分析与代码展示,很多云服务也采用它作为代码编辑器。此外,因为用 ...
分类:   
微众银行数据库架构演进及 TiDB 实践经验
微众银行数据库架构演进及 TiDB 实践经验
2014 年微众银行成立之时,就非常有前瞻性的确立了微众银行的 IT 基础架构的方向:去 IOE,走互联网模式的分布式架构。IOE 即 IBM、Oracle、EMC,代表了传统基础架构领域的服务器、商业数据库和存储产品体系,众所周 ...
分类:   
网易云音乐的消息队列改造之路
网易云音乐的消息队列改造之路
网易云音乐从13年4月上线以来,业务和用户突飞猛进。后台技术也从传统的 Tomcat 集群到分布式微服务快速演进和迭代,在业务的不断催生下,诞生了云音乐的 RPC,API 网关和链路跟踪等多种服务,消息队列也从 RabbitMQ ...
分类:   
互联网公司的中台到底是什么,有哪些种类、困境?
互联网公司的中台到底是什么,有哪些种类、困境?
中台化据说是马云参观 Supercell 后在阿里巴巴提出的,要求“大中台、小前台”的模式。目标也很明确:小前台距离一线更近,便于快速决策、敏捷行动;剩下的交给支撑部门做。首先,Supercell 一直倡导“Less is more ...
分类:   
吐血整理!140种Python标准库、第三方库和外部工具都有了
吐血整理!140种Python标准库、第三方库和外部工具都有了
Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有Python内置函数和标准库,又有第三方库和工具。这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换、数据 ...
分类:   
OpenResty之Lua语法学习
OpenResty之Lua语法学习
OpenResty最早是顺应OpenAPI的潮流做的,所以 Open 取自“开放”之意,而Resty便是 REST 风格的意思。虽然后来也可以基于ngx_openresty实现任何形式的 webservice 或者传统的 web 应用。OpenResty (也称为 ngx_open ...
分类:   
1美元训练BERT,教你如何薅谷歌TPU羊毛 | 附Colab代码
1美元训练BERT,教你如何薅谷歌TPU羊毛 | 附Colab代码
BERT是谷歌去年推出的NLP模型,一经推出就在各项测试中碾压竞争对手,而且BERT是开源的。只可惜训练BERT的价格实在太高,让人望而却步。之前需要用64个TPU训练4天才能完成,后来谷歌用并行计算优化了到只需一个多小 ...
分类:   
微软再称王
微软再称王
曾经被评论者判了“死刑”的微软,在度过10余年的疲软期后,重新做回“王者”。7月18日,微软公布了其2019财年第四季度(指2019年4月1日-6月30日)业绩报告以及2019财年业绩报告。这份报告中,微软整个财年收入超过1 ...
分类:   
GitHub 封杀「美国贸易制裁国家」的开发人员
GitHub 封杀「美国贸易制裁国家」的开发人员
如果你在面临美国制裁的国家/地区使用GitHub的在线服务,可能将被封杀,只能享用最基本的服务。在微软旗下的GitHub“限制”住在乌克兰克里米亚地区的一名开发人员的帐户后,人们开始围绕言论自由展开了争论,这名开 ...
分类:   
一年时间打造全球最大规模之一的Kubernetes集群,蚂蚁金服怎么做到的
一年时间打造全球最大规模之一的Kubernetes集群,蚂蚁金服怎么做到的
云原生的核心理念是让应用无差别运行在任何一朵云上,即将应用变成云的 “原住民”。而蚂蚁金服的 Kubernetes 开发团队在项目开始时需要思考的是如何将 Kubernetes 云原生化的运行在各个机房,并在没有任何基础设施 ...
分类:   
优于现有量子计算机性能 日本量子退火机真有这么牛?
优于现有量子计算机性能 日本量子退火机真有这么牛?
日本国立情报学研究所等机构证实,其开发的、采用新计算方式的高速计算机,拥有超过现有量子计算机的性能。这台计算机名为“Coherent Ising Machine”,其设计目的是为快速解决组合优化问题。这台新计算机的性能真能 ...
分类:   
突破!DNA 上的 SQL 查询已经成为现实
突破!DNA 上的 SQL 查询已经成为现实
几年前,连研究人员都不愿使用 DNA 来存储数据,觉得这么做太超前了,不具有任何实用价值。今天,你可以使用合适的软件和生化模块来扩展 PostgreSQL,并在 DNA 上运行 SQL。当下全世界的数据浪潮来势凶猛,不仅超出 ...
分类:   
阿里 10 PB/天日志系统设计和实现
阿里 10 PB/天日志系统设计和实现
为了定位问题,往往需要登录机器,查看各种散落的信息,有时候为了简便, pssh + grep 的命令组合,来查询日志,而这样的操作也存在风险,当系统负载本身较高时,全量扫描操作可能把机器直接打死。当时一个简单的想 ...
分类:   
时至今日,为何C语言仍在软件开发领域占据统治性地位?
时至今日,为何C语言仍在软件开发领域占据统治性地位?
对于计算机编程语言来说,没有什么技术能流传使用 50 年,除非它比其他的都好用。C 语言于 1972 年面世,如今在软件世界仍保持着基本底层开发的主流语言的地位。但有时一个技术能被长久的流传使用, 只是因为人们还 ...
分类:   
NoOps:IT完全自动化运营之路
NoOps:IT完全自动化运营之路
自动化领域的IT领导者正在关注和探索无人值守运营环境的可能性。但是DevOps的这种演变实现起来绝非易事。自动化已经成为一种在简化IT运营中广泛使用的工具,Mindtree就是这样一个组织,它从基础设施中移除手动流程, ...
分类:   
百亿流量微服务网关的设计与实现
百亿流量微服务网关的设计与实现
其实,网关跟面向服务架构和微服务架构有很深的渊源。十多年以前,银行等金融机构完成全国业务系统大集中以后,分散的系统都变得集中,也带来了各种问题:业务发展过快如何应对,对接系统过多如何集成和管理。为了解 ...
分类:   
除了海底、山洞 在数据中心节能这件事上还有哪些灵感?
除了海底、山洞 在数据中心节能这件事上还有哪些灵感?
一年前,我在播报微软在海底建设数据中心的新闻时,还是很震惊的,感叹在解决数据中心能耗问题上,行业内真是用尽办法,后来就陆续看到北极圈构建数据中心,腾讯在山洞构建数据中心等各种创意实践。互联网公司建立在 ...
分类:   

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2019-8-20 07:16 , Processed in 0.179757 second(s), 19 queries .