炼数成金 大数据
订阅

大数据

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密
58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密
Flink-Storm 是 Flink 官方提供的用于 Flink 兼容 Storm 程序 beta 工具,并且在 Release 1.8 之后去掉相关代码。本文主要讲述 58 实时计算平台如何优化 Flink-Storm 以及基于 Flink-Storm 实现真实场景下大规模 Sto ...
分类:   
通过阅读源码,提高你的 JS 水平
通过阅读源码,提高你的 JS 水平
当你还处于编程生涯的初期阶段时,深入研究开源库和框架的源代码可能是一项艰巨的任务。在本文中,Carl Mungazi 分享了他如何克服恐惧,并开始用源码来提高他的知识水平和专业技能。他还使用了 Redux 来演示他如何解 ...
分类:   
十大至简规则,用Jupyter Notebook写代码应该这样来
十大至简规则,用Jupyter Notebook写代码应该这样来
你真的是 Jupyter Notebook 高手吗,真的能将代码和文档打造成铁桶一般的整体吗?Jupyter Notebook 是一个非常常用的代码编辑器,它非常适合做数据分析与代码展示,很多云服务也采用它作为代码编辑器。此外,因为用 ...
分类:   
微众银行数据库架构演进及 TiDB 实践经验
微众银行数据库架构演进及 TiDB 实践经验
2014 年微众银行成立之时,就非常有前瞻性的确立了微众银行的 IT 基础架构的方向:去 IOE,走互联网模式的分布式架构。IOE 即 IBM、Oracle、EMC,代表了传统基础架构领域的服务器、商业数据库和存储产品体系,众所周 ...
分类:   
网易云音乐的消息队列改造之路
网易云音乐的消息队列改造之路
网易云音乐从13年4月上线以来,业务和用户突飞猛进。后台技术也从传统的 Tomcat 集群到分布式微服务快速演进和迭代,在业务的不断催生下,诞生了云音乐的 RPC,API 网关和链路跟踪等多种服务,消息队列也从 RabbitMQ ...
分类:   
互联网公司的中台到底是什么,有哪些种类、困境?
互联网公司的中台到底是什么,有哪些种类、困境?
中台化据说是马云参观 Supercell 后在阿里巴巴提出的,要求“大中台、小前台”的模式。目标也很明确:小前台距离一线更近,便于快速决策、敏捷行动;剩下的交给支撑部门做。首先,Supercell 一直倡导“Less is more ...
分类:   
吐血整理!140种Python标准库、第三方库和外部工具都有了
吐血整理!140种Python标准库、第三方库和外部工具都有了
Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有Python内置函数和标准库,又有第三方库和工具。这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换、数据 ...
分类:   
OpenResty之Lua语法学习
OpenResty之Lua语法学习
OpenResty最早是顺应OpenAPI的潮流做的,所以 Open 取自“开放”之意,而Resty便是 REST 风格的意思。虽然后来也可以基于ngx_openresty实现任何形式的 webservice 或者传统的 web 应用。OpenResty (也称为 ngx_open ...
分类:   
1美元训练BERT,教你如何薅谷歌TPU羊毛 | 附Colab代码
1美元训练BERT,教你如何薅谷歌TPU羊毛 | 附Colab代码
BERT是谷歌去年推出的NLP模型,一经推出就在各项测试中碾压竞争对手,而且BERT是开源的。只可惜训练BERT的价格实在太高,让人望而却步。之前需要用64个TPU训练4天才能完成,后来谷歌用并行计算优化了到只需一个多小 ...
分类:   
微软再称王
微软再称王
曾经被评论者判了“死刑”的微软,在度过10余年的疲软期后,重新做回“王者”。7月18日,微软公布了其2019财年第四季度(指2019年4月1日-6月30日)业绩报告以及2019财年业绩报告。这份报告中,微软整个财年收入超过1 ...
分类:   
GitHub 封杀「美国贸易制裁国家」的开发人员
GitHub 封杀「美国贸易制裁国家」的开发人员
如果你在面临美国制裁的国家/地区使用GitHub的在线服务,可能将被封杀,只能享用最基本的服务。在微软旗下的GitHub“限制”住在乌克兰克里米亚地区的一名开发人员的帐户后,人们开始围绕言论自由展开了争论,这名开 ...
分类:   
一年时间打造全球最大规模之一的Kubernetes集群,蚂蚁金服怎么做到的
一年时间打造全球最大规模之一的Kubernetes集群,蚂蚁金服怎么做到的
云原生的核心理念是让应用无差别运行在任何一朵云上,即将应用变成云的 “原住民”。而蚂蚁金服的 Kubernetes 开发团队在项目开始时需要思考的是如何将 Kubernetes 云原生化的运行在各个机房,并在没有任何基础设施 ...
分类:   
优于现有量子计算机性能 日本量子退火机真有这么牛?
优于现有量子计算机性能 日本量子退火机真有这么牛?
日本国立情报学研究所等机构证实,其开发的、采用新计算方式的高速计算机,拥有超过现有量子计算机的性能。这台计算机名为“Coherent Ising Machine”,其设计目的是为快速解决组合优化问题。这台新计算机的性能真能 ...
分类:   
突破!DNA 上的 SQL 查询已经成为现实
突破!DNA 上的 SQL 查询已经成为现实
几年前,连研究人员都不愿使用 DNA 来存储数据,觉得这么做太超前了,不具有任何实用价值。今天,你可以使用合适的软件和生化模块来扩展 PostgreSQL,并在 DNA 上运行 SQL。当下全世界的数据浪潮来势凶猛,不仅超出 ...
分类:   
阿里 10 PB/天日志系统设计和实现
阿里 10 PB/天日志系统设计和实现
为了定位问题,往往需要登录机器,查看各种散落的信息,有时候为了简便, pssh + grep 的命令组合,来查询日志,而这样的操作也存在风险,当系统负载本身较高时,全量扫描操作可能把机器直接打死。当时一个简单的想 ...
分类:   
时至今日,为何C语言仍在软件开发领域占据统治性地位?
时至今日,为何C语言仍在软件开发领域占据统治性地位?
对于计算机编程语言来说,没有什么技术能流传使用 50 年,除非它比其他的都好用。C 语言于 1972 年面世,如今在软件世界仍保持着基本底层开发的主流语言的地位。但有时一个技术能被长久的流传使用, 只是因为人们还 ...
分类:   
NoOps:IT完全自动化运营之路
NoOps:IT完全自动化运营之路
自动化领域的IT领导者正在关注和探索无人值守运营环境的可能性。但是DevOps的这种演变实现起来绝非易事。自动化已经成为一种在简化IT运营中广泛使用的工具,Mindtree就是这样一个组织,它从基础设施中移除手动流程, ...
分类:   
百亿流量微服务网关的设计与实现
百亿流量微服务网关的设计与实现
其实,网关跟面向服务架构和微服务架构有很深的渊源。十多年以前,银行等金融机构完成全国业务系统大集中以后,分散的系统都变得集中,也带来了各种问题:业务发展过快如何应对,对接系统过多如何集成和管理。为了解 ...
分类:   
除了海底、山洞 在数据中心节能这件事上还有哪些灵感?
除了海底、山洞 在数据中心节能这件事上还有哪些灵感?
一年前,我在播报微软在海底建设数据中心的新闻时,还是很震惊的,感叹在解决数据中心能耗问题上,行业内真是用尽办法,后来就陆续看到北极圈构建数据中心,腾讯在山洞构建数据中心等各种创意实践。互联网公司建立在 ...
分类:   
记一次Linux被入侵,服务器变“矿机”全过程
记一次Linux被入侵,服务器变“矿机”全过程
周一早上刚到办公室,就听到同事说有一台服务器登陆不上了,我也没放在心上,继续边吃早点,边看币价是不是又跌了。不一会运维的同事也到了,气喘吁吁的说:我们有台服务器被阿里云冻结了,理由:对外恶意发包。我放 ...
分类:   
中国跨过数据库这座大山了吗?
中国跨过数据库这座大山了吗?
今年5月甲骨文中华区大规模的裁员,就是中国跨过数据库这座大山造成的局部“山体滑坡”。在09年以前,甲骨文Oracle可以说是世界数据库的强者,占据着绝对的霸主地位。但是放在10年后,在2019年就已经被崛起的云数据 ...
分类:   
Ceph部署在Centos7上简明摘要
Ceph部署在Centos7上简明摘要
Ceph是一个可靠地、自动重均衡、自动恢复的分布式存储系统,根据场景划分可以将Ceph分为三大块,分别是对象存储、块设备存储和文件系统服务。在虚拟化领域里,比较常用到的是Ceph的块设备存储,比如在OpenStack项目 ...
分类:   
除了负载均衡,Nginx还可以做限流、缓存、黑白名单……
除了负载均衡,Nginx还可以做限流、缓存、黑白名单……
Nginx擅长处理静态文件,是非常好的图片、文件服务器。把所有的静态资源的放到nginx上,可以使应用动静分离,性能更好。Nginx通过反向代理可以实现服务的负载均衡,避免了服务器单节点故障,把请求按照一定的策略转 ...
分类:   
程序员该如在低代码和无代码开发中抉择?
程序员该如在低代码和无代码开发中抉择?
对于一个人第一次是如何了解低代码/无代码这两种开发方式,我总是充满好奇。这就是为什么我觉得贸易展会是如此有趣的原因;因为我可以拿同样的问题问每一个走进你的展台的人们。通常这是我问他们的第一个问题,当然 ...
分类:   
Kubernetes 预测性集群伸缩
Kubernetes 预测性集群伸缩
Kubernetes 本身有很多方面的 scaling,包括 Pod 的垂直扩展和集群物理节点的扩展等。今天我想介绍的是 Cluster-Autoscaler 用于物理节点的扩展。如果大家经常关注 Kubernetes scaling 相关的一些 talk,应该会比较 ...
分类:   
PostgreSQL 隐式类型转换探秘
PostgreSQL 隐式类型转换探秘
数据表t_cast中的id列类型为int,执行第一条SQL没有出错,第二条SQL则出错,错误信息为没有相匹配的operator,给出的HINT为添加显式类型转换。对于熟悉Oracle数据库的同学来说,不禁会产生疑问:’1’和’1’::text ...
分类:   
MySQL高可用方案升级规划
MySQL高可用方案升级规划
这两天在梳理MySQL高可用方案的升级计划,发现要做的事情还真不少。我们目前有新系统和老系统,老系统因为历史原因使用的是MySQL 5.5版本,新系统有了整体的规划,使用的是MySQL 5.7版本。
分类:   
Gartner 2018年度全球公有云市场前五:AWS、Azure、阿里云、谷歌云、IBM云
Gartner 2018年度全球公有云市场前五:AWS、Azure、阿里云、谷歌云、IBM云
7月10日,权威研究机构Gartner发布全球云计算市场数据,2018年阿里云全球市场份额增长近一倍,在全球市场“坐三望二”。分析师认为阿里云研发投入近乎激进,建立起全球最丰富技术产品矩阵,带来强劲增长。据Gartner ...
分类:   
SQL on Hadoop在快手大数据平台的实践与优化
SQL on Hadoop在快手大数据平台的实践与优化
SQL on Hadoop,顾名思义它是基于Hadoop生态的一个SQL引擎架构,我们其实常常听到Hive、SparkSQL、Presto、Impala架构,接下来,我会简单的描述一下常用的架构情况。HIVE,一个数据仓库系统。它将数据结构映射到存储 ...
分类:   
分布式模式将给企业的岗位职责带来哪些变化?
分布式模式将给企业的岗位职责带来哪些变化?
什么是分布式?一个企业两套系统是否可以看作一个分布式部署?一套系统两个数据库、计算和存储分离、一个数据库部署在多个物理机是否可视为分布式部署?这里我们不纠结于场景或者实现形式的差异 , 从本质上看问题。
分类:   

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2019-12-15 00:09 , Processed in 0.133902 second(s), 19 queries .