炼数成金 大数据
订阅

大数据

MySQL 字符转化以及乱码原因
MySQL 字符转化以及乱码原因
MySQL 中存入数据时发生的编码转换过程:1、在终端 (Terminal,可以是 bash 窗口,也可以是客户端工具如 navicat) 中输入,输入的内容由 Terminal 根据其自己的字符进行编码。2、经 Terminal 编码后的二进制流被传输 ...
分类:   
Linux 中内存 buffer 和 cache 的区别
Linux 中内存 buffer 和 cache 的区别
细心的朋友会注意到,当你在linux下频繁存取文件后,物理内存会很快被用光,当程序结束后,内存不会被正常释放,而是一直作为caching.这个问题,貌似有不少人在问,不过都没有看到有什么很好解决的办法.那么我来谈谈这个问 ...
分类:   
高并发性能调试经验分享
高并发性能调试经验分享
由于原生 nginx 使用本地 CPU 做 RSA 计算,ECDHE_RSA 算法的单核处理能力只有 400 qps 左右。前期测试时的并发性能很低,就算开了 24 核,性能也无法超过 1 万。核心功能在去年底就完成了开发,线下测试也没有发现 ...
分类:   
理解 Linux 的平均负载和性能监控
理解 Linux 的平均负载和性能监控
在本文中,我们将解释 Linux 系统中最关键的管理任务之一——关于系统 / CPU 的负载load和平均负载Load average的性能监控。系统负载 / CPU 负载 – 衡量 Linux 系统的 CPU 过载或利用率低的指标,即处于运算状态或 ...
分类:   
60 TB数据:Facebook 是如何大规模使用 Apache Spark 的
60 TB数据:Facebook 是如何大规模使用 Apache Spark 的
Facebook 经常使用数据驱动的分析方法来做决策。在过去的几年,用户和产品的增长已经需要我们的分析工程师一次查询就要操作数十 TB 大小的数据集。我们的一些批量分析执行在古老的 Hive 平台( Apache Hive 由 Faceb ...
分类:   
Linux 系统下 init 进程的前世今生
Linux 系统下 init 进程的前世今生
Linux 系统中的 init 进程 (pid=1) 是除了 idle 进程 (pid=0,也就是 init_task) 之外另一个比较特殊的进程,它是 Linux 内核开始建立起进程概念时第一个通过 kernel_thread 产生的进程,其开始在内核态执行,然后通 ...
分类:   
敏捷数据管理的12个技术原则
敏捷数据管理的12个技术原则
回顾整个数据平台的发展,在每一个阶段所有数据类应用都会或多或少的都会有数据质量的困扰,数据标准更是难以落地。数据管理由于难度大,涉及方面多逐步成为重要不紧急的事情。在海量复杂数据的场景下,如果没有有效 ...
分类:   
敏捷大数据方法论
敏捷大数据方法论
前段时间有报道称,有学者质疑“大数据”理论,也有硅谷公司负责人质疑大数据应用的效果。结合2011年Gartner关于BI(Business Intelligence)应用70%-80%都失败的一个调查结论(这里的fail是夸张的说法,更确切地讲 ...
分类:   
程序员最核心的竞争力是什么?
程序员最核心的竞争力是什么?
互联网时代的技术来得快,去得更快。就像Flash这样曾经雄霸天下多年的技术,都有被人人唾弃的一天。如果没有足够强的学习能力,就无法跟上变化,被淘汰只是迟早的事。想想看,你苦心钻研多年引以为傲的技术,一夜之 ...
分类:   
为了软银的万亿物联网 ARM取消了一笔企业预授权费用
为了软银的万亿物联网 ARM取消了一笔企业预授权费用
6月20日消息,英国芯片设计公司ARM今天宣布对其DesignStart项目进行升级,在Cortex-M0的基础上,又免预付授权费开放了Cortex-M3处理器及相关IP子系统。ARM DesignStart最早在2010年的时候提供给用户快速获得ARM IP的 ...
分类:   
Web 前端知识体系精简
Web 前端知识体系精简
Web前端技术由html、css和javascript三大部分构成,是一个庞大而复杂的技术体系,其复杂程度不低于任何一门后端语言。而我们在学习它的时候往往是先从某一个点切入,然后不断地接触和学习新的知识点,因此对于初学者 ...
分类:   
DevSecOps:让每个程序员都成为安全检测员
DevSecOps:让每个程序员都成为安全检测员
DevSecOps是一种全新的安全理念,作用和意义建立在“每个人都对安全负责”的理念之上,通过加强内部安全测试,主动搜寻安全漏洞,及时修复漏洞、控制风险,实现与业务流程的良好整合。自2012年Gartner提出DevSecOps ...
分类:   
川普数据公司团队意外泄漏近2亿美国选民的个人信息
川普数据公司团队意外泄漏近2亿美国选民的个人信息
就在今天,数据安全公司 UpGuard 证实,亚马逊的云空间上存在一个总量大于 1.1TB 的美国选民数据库,不用密码即可访问。其中几乎包含了所有 2 亿美国登记选民的个人信息。数据来源是共和党全国委员会聘请的公司 Targ ...
分类:   
AIDevOps离我们还有多远?
AIDevOps离我们还有多远?
如果有一天机器人可以代替我们做代码 Review,会自动分析出当前代码变更集对相关功能的影响,对迭代完成的影响,甚至对软件成本的影响。并且指导程序员如何修改代码,降低缺陷几率;或者招聘时,候选人的简历不再是 ...
分类:   
进程的处理器亲和性和 vCPU 的绑定
进程的处理器亲和性和 vCPU 的绑定
通常情况下,在 SMP 系统中,Linux 内核的进程调度器根据自有的调度策略将系统中的一个进程调度到某个 CPU 上执行。一个进程在前一个执行时间是在 cpuM(M 为系统中的某 CPU 的 ID)上运行,而在后一个执行时间是在 ...
分类:   
一步步实现 Redis 搜索引擎
一步步实现 Redis 搜索引擎
关于索引数据更新的问题,有两种方式来进行。一种是通过商品数据的修改,来即时触发更新操作,一种是通过定时脚本来进行批量更新。这里要注意的是,关于索引内容的更新,如果暴力的删除 Key,再重新设置 Key。因为 R ...
分类:   
中国蝉联超级计算机世界第一,美国跌出前三强!
中国蝉联超级计算机世界第一,美国跌出前三强!
在超级计算机领域,美国的世界霸主地位已经动摇。今天,在德国法兰克福召开的全球超算大会(ISC2017)公布了“超级计算机500强”榜单,其中,中国超算“神威·太湖之光”与“天河二号”连续第三次夺得榜单前两位,瑞 ...
分类:   
不仅Docker有镜像,KVM也有多种方式操作镜像
不仅Docker有镜像,KVM也有多种方式操作镜像
KVM的镜像也是可以像孙悟空说“定”一样保存下当前的状态的,也是可以有层级的,层级之间是可以灵活操作的,这些操作在KVM里面叫做snapshot。Snapshot广义来讲分为三个级别:Volume Manager级别:常见的是LVM的snaps ...
分类:   
Spark这是要一统江湖的节奏
Spark这是要一统江湖的节奏
Spark创始人Matei最近在spark submmit上做了一次演讲,看了内容会发现spark这是要一统江湖的架势,一起来看看都介绍了什么内容。Spark一直以来想做的一个事情就是统一整个大数据分析引擎,高层易用的API是核心竞争力 ...
分类:   
mysql-proxy数据库中间件架构
mysql-proxy数据库中间件架构
mysql-proxy是mysql官方提供的mysql中间件服务,上游可接入若干个mysql-client,后端可连接若干个mysql-server。它使用mysql协议,任何使用mysql-client的上游无需修改任何代码,即可迁移至mysql-proxy上。mysql-pro ...
分类:   
二十一世纪14大数据泄露事件
二十一世纪14大数据泄露事件
数据安全事故每天都在上演,统计数据分分秒秒在增加记录条目。但是,重大数据泄露和小型数据安全事故之间的差别在哪里呢?请看下列本世纪最重大数据泄露清单,你会发现其中关键。该清单未必基于被泄记录数量,而是根 ...
分类:   
“墨子号”实现1203公里光子纠缠,潘建伟团队跨越超安全通信障碍
“墨子号”实现1203公里光子纠缠,潘建伟团队跨越超安全通信障碍
升空整整10个月之后,“墨子号”终于再次传来好消息,当地时间6月15日,《Nature》杂志头版刊登出了中国“墨子号”量子卫星首次实现上千公里量子纠缠的消息,相较于此前144公里的最高量子传输距离纪录,这次跨越意味 ...
分类:   
简析银行业数据中心的特点
简析银行业数据中心的特点
银行业是一个特别,与众不同的行业,作为一个天天与钱打交道的敏感机构,其数据中心的结构和内部运营管理必然与普通互联网数据中心有着巨大差别,银行业是直接关系民计民生的服务性机构。国家各级管理单位对银行的网 ...
分类:   
数据中心的降噪之路
数据中心的降噪之路
在我们的生活中,处处充满了声音。喜悦的、悲伤的、激动的,还有刺耳的,那些人们听到时感觉刺耳的声音,就是噪声。噪声无处不在,是一种环境污染,被认为是仅次于大气污染和水污染的第三大公害。噪声污染是指所产生 ...
分类:   
如何使用火焰图来降低服务器负载
如何使用火焰图来降低服务器负载
在 Lucid,我们使用面向服务的架构来建设我们的系统。其中字体服务(font service)就是其中之一,它负责根据字体族名称和 unicode 编码范围来提供相应的字体服务,同时也对用户上传的字体进行校验和检查。在生产环 ...
分类:   
Spark Streaming应用与实战全攻略
Spark Streaming应用与实战全攻略
以对于以上的架构存在一些问题,我们可以看见数据在Dubbox服务阶段处理后直接通过HBase API入库了HBase,中间并没做任何缓冲,要是HBase出现了问题整个集群都完蛋,没法写入数据,数据还丢失,HBase这边压力也相当大 ...
分类:   
Python切分图像小案例(1、3、2、4象限子图互换)
Python切分图像小案例(1、3、2、4象限子图互换)
首先解释上一篇文章详解Python科学计算扩展库numpy中的矩阵运算(1)最后的习题,该问题答案是10 ** 8 = 100000000,原因在于Python中的运算符**是从右往左计算的,这在Python运算符中算是一个特例。读取一幅图像的 ...
分类:   
我是虚拟机内核我困惑?!
我是虚拟机内核我困惑?!
内核,是指的操作系统内核。所有的操作系统都有内核,无论是Windows还是Linux,都管理着三个重要的资源:计算,网络,存储。计算指CPU和内存,网络即网络设备,存储即硬盘之类的。内核是个大管家,想象你的机器上跑 ...
分类:   
用OpenStack界面轻松创建虚拟机的你,看得懂这24个参数么?
用OpenStack界面轻松创建虚拟机的你,看得懂这24个参数么?
大家从OpenStack页面上,轻松一点就创建了一个虚拟机,但是当你登陆到一台物理机上ps查看的时候,却发现参数复杂之极。如果使用KVM hardware-assisted virtualization,也即BIOS中VD-T是打开的,则参数中accel=kvm。 ...
分类:   
一位数据科学家的私房工具清单
一位数据科学家的私房工具清单
作为一位万人敬仰的数据科学家,不但需要培育一棵参天技能树,私人武器库里没有一票玩得转的大火力工具也是没法在江湖中呼风唤雨的。近日北卡来罗纳大学CTO,一位数据科学家Jefferson Heard分享了多年来收集沉淀的数 ...
分类:   

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2017-6-24 13:06 , Processed in 0.089581 second(s), 20 queries .