炼数成金 大数据
订阅

大数据

Talend加速推进大数据“平民化”
Talend加速推进大数据“平民化”
在今年3月初的Strate大会上,开源数据集成软件厂商Talend宣布与Hortonworks达成协议,将合作把Talend开源数据集成工具带入Apache Hadoop社区。仅过了半个月,Talend宣布其大数据平台Talend Open Studio for Big Data ...
分类:   
Hadoop和开源软件对BI架构的影响
Hadoop和开源软件对BI架构的影响
开源技术对于BI架构以及开发流程的影响这是一个很大的话题,它基本上还是取决于你选择的具体技术以及产品。Hadoop是一项专门应对大数据的技术,特别是在非机构化数据方面,比如社交网络以及Web应用中,文本信息,应用 ...
分类:   
百亿亿次计算系统 GPU改变世界的猜想
百亿亿次计算系统 GPU改变世界的猜想
随着科学技术的不断发展,超级计算机正在经历着由Pataflop(千万亿次)向Exascale(百亿亿次)的过渡。Exascale超级计算是百亿亿次高性能计算技术,是超级计算领域的下一个里程碑,linpack性能是目前全球速度最快超级计算 ...
分类:   
Google骂微软夸 Facebook开源数据中心王国
Google骂微软夸 Facebook开源数据中心王国
与严格保密的Google不同,Facebook不仅全新设计的服务器和数据中心,并且将其设计方案开源,这简直是对Google莫大的蔑视。每一个Google员工都需要签署一份保密协议,而这在Facebook根本不需要。就连一向保守的微软也 ...
分类:   
部署标准化的大数据软件堆栈尚需时日
部署标准化的大数据软件堆栈尚需时日
近日,几位专家在参加科技博客网站GigaOm主办的一次虚拟专题小组讨论会时得出结论,尽管许多企业对大数据平台的兴趣日渐浓厚,但是可能需要一段时间以后才能部署标准化的大数据软件堆栈(software stack)。专题讨论 ...
分类:   
美国政府数据中心整合:让数字来说话
美国政府数据中心整合:让数字来说话
让我们深入窥视美国政府的数据中心整合计划,该计划旨在节省50亿美元。看看哪个政府部门关闭的数据中心最多,关闭哪里的数据中心以及这个领域在发生怎样的变化。美国政府正在积极推进一项雄心勃勃的整合计划,旨在到 ...
分类:   
宁家骏:化云为雨落地云计算
宁家骏:化云为雨落地云计算
近日,在北京举行的第四届云计算中国峰会上,国家信息中心专家委员会主任宁家骏表示,发展云计算要冷静,国家坚决反对将云计算中心办成云计算的房地产。“发展云计算不能人云亦云,一定要化云为雨,应该以应用为核心 ...
分类:   
揭秘Microsoft Bing与Google搜索背后的故事
揭秘Microsoft Bing与Google搜索背后的故事
Google搜索引擎已经赢得全球范围的赞誉,而这一切都要归功于Google开创性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后台支持Google算法的基础设施才是真正的幕后英雄,其基础设施可快速的索引链接成 ...
分类:   
混合云计算:定义云均衡、性能和合规
混合云计算:定义云均衡、性能和合规
与云计算中的许多其它术语一样,“混合云计算”这一提法也并没有统一的定义。维基百科的定义是这样的:“混合云是由两个或两个以上的云构成的,包括私有云、社区云或者公共云。这些云保持独立实体的存在,但是也结合 ...
分类:   
5年500亿美元:大数据市场收入排行榜与未来预测
5年500亿美元:大数据市场收入排行榜与未来预测
根据Wikibon最近发布的报告,大数据市场正处在井喷式增长的前夕,未来五年全球大数据市场价值将高达500亿美元。2012年初,大数据相关软件、硬件和服务的收入总和只有约50亿美元。但随着企业逐渐认识到大数据和相关分 ...
分类:   
云计算影响数据库软件发展趋势
云计算影响数据库软件发展趋势
近年来,数据库市场成几何级的增长,各种数据库软件市场规模不断扩大。新的应用不断涌现,未来数据库市场的发展将出现新的趋势。从云计算到虚拟化技术,再到自助商业智能工具等,数据库面临信息管理技术创新带来的新 ...
分类:   
CIO:应该如何开发大数据的价值
CIO:应该如何开发大数据的价值
曾领导美国Unisys公司战略创新项目的Nicholas D. Evans日前撰文提出了关于大数据的4A模型,并就CIO如何从大数据中获取价值提出了建议。   目前,大型公司维护、管理着的数据数量正飞速增长。2011年,麦肯锡曾指出, ...
分类:   
揭开NoSQL数据库崛起的六大原因
揭开NoSQL数据库崛起的六大原因
NoSQL产品越来越火,NoSQL产品通常以其高性能,强扩展性和高容错性为大家所称道,我们在问为什么NoSQL会流行起来的时候,或许应该问一下为什么这些功能会变得这么重要。   ·由于我们需要处理的数据集越来越大,其 ...
分类:   
Cassandra新特性:分层压缩
Cassandra新特性:分层压缩
Cassandra的数据模型借鉴自Google的BigData模型,简单来说就是将写操作放在一个内存块中,当内存块大小达到一定大小时,将内存中的数据排序后写成一个sstable文件,而这种方式会有一些问题,而前段时间Google的Chrom ...
分类:   
数据倾斜总结
数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成 ...
分类:   
Redis的简单使用和介绍 linux(centos 5.4) redis install
Redis的简单使用和介绍 linux(centos 5.4) redis install
Redis 是一个高性能的key-value数据库。 redis的出现,很大程度补偿了memcached这类keyvalue存储的不足,在部 分场合可以对关系数据库起到很好的补充作用。它提供了Python,Ruby,Erlang,PHP,Java客户端,使用很方便 ...
分类:   
Oracle大数据机和连接器支持与Hadoop和Cloudera Manager集成
Oracle大数据机和连接器支持与Hadoop和Cloudera Manager集成
  Oracle 大数据机和大数据连接器软件支持与 Hadoop、Cloudera Manager 以及 Oracle NoSQL 数据库的集成。上月 Oracle宣布携手 Cloudera 进军大数据机和连接器软件领域。   大数据机融合了 Cloudera 公司的Apach ...
分类:   
hadoop+hbase+zookeeper集群安装方法
hadoop+hbase+zookeeper集群安装方法
由于刚开始的时候我用虚拟机安装,安装版本是hadoop0.20.2+hbase0.90.3+zookeeper3.3.3版本,在测试hbase集群的时候hmaster不能正常启动或者是启动后进程自杀(在网上找到的答案应该是虚拟机的内存小,不支持0.90.x以 ...
分类:   
解读IBM InfoSphere大数据分析平台
解读IBM InfoSphere大数据分析平台
Gartner预测,到2015年,超过85%的财富500强企业将在大数据竞争中失去优势。Gartner认为,大部分的组织或企业都不具备技术力量处理大数据,也没有能力管理大数据。Gartner的预测看起来有些悲观,但的确反映了用户在数 ...
分类:   
数据传输率测试:亚马逊云独占鳌头
数据传输率测试:亚马逊云独占鳌头
如果企业觉得自己有在云中传输大量数据的需求,那么请务必注意:传输数据所需的时间长短,将取决于数据要往哪里传输。 云存储服务商Nasuni完成的一项测试表明,从一个云向另一个云传输12TB的数据,不同运营商的传 ...
分类:   
健康云上的大数据分析
健康云上的大数据分析
EMC中国研究院大数据实验室主任研究员 周宝曜 引言 本文旨在介绍区域医疗信息系统建设和大数据分析技术的发展,并总结出健康云上的大数据分析面临的特殊挑战和提出初步解决方案。 一、健康云的兴起 随着我国经济持续 ...
分类:   
走进Google租赁数据中心:极力掩盖定制服务器
走进Google租赁数据中心:极力掩盖定制服务器
《连线》杂志最近刊文,谈及Google数据中心的一些内幕:Google试图隐藏自己的客户定制数据中心硬件,但到底隐藏了多少呢?在硅谷的一个数据中心,Google明显不愿让竞争对手一窥硬件真容,它将所有服务器机柜放在黑暗 ...
分类:   
数据质量管理:数据中心优化必修课
数据质量管理:数据中心优化必修课
数据是企业数据中心的重要资产,获取并维护高质量数据,对高效的IT和业务运营至关重要。面对复杂度不断增加的业务数据,如何全面保证数据质量?借助完备的Informatica数据质量平台,无论何时何地,您都可以在整个企业 ...
分类:   
八种主流NoSQL数据库系统对比
八种主流NoSQL数据库系统对比
虽然SQL数据库是非常有用的工具,但经历了15年的一支独秀之后垄断即将被打破。这只是时间问题:被迫使用关系数据库,但最终发现不能适应需求的情况不胜枚举。但是NoSQL数据库之间的不同,远超过两 SQL数据库之间的差 ...
分类:   
Oracle大数据平台浮出水面
Oracle大数据平台浮出水面
甲骨文在2011年的OpenWorld上宣布将推出Oracle大数据机(Big Data Appliance,后简称BDA)和Exalytics商务智能服务器,当时TechTarget编辑曾表示这是甲骨文强势进入“大数据”市场的标志。随着BDA和Exalytics在今年年 ...
分类:   
spring data redis源码框架分析
spring data redis源码框架分析
redis是由Salvatore Sanfilippo用C语言编写的一个缓存系统,与memcached相比,提供了更多的处理复杂数据结构的方法;性能也非常的突出。由于项目需要,自己简单地看了下spring新加入的模块spring data redis,spring ...
分类:   
hadoop上运行c++程序步骤
hadoop上运行c++程序步骤
一。写一个程序保存为wordcount-simple.cpp:#include "hadoop/Pipes.hh"#include "hadoop/TemplateFactory.hh"#include "hadoop/StringUtils.hh"const std::string WORDCOUNT = "WORDCOUNT";const ...
分类:   
HBase 增量备份和还原工具
HBase 增量备份和还原工具
HBase自带的export/import机制可以实现Backup Restore功能。而且可以实现增量备份。下面设增量备份的python脚本。在这个脚本中,每天做增量备份,每个月15日做全备份。import time import datetime from datetime im ...
分类:   
NoSQL在SAE中的应用
NoSQL在SAE中的应用
关于SAESinaAppEngine(简称SAE)是新浪研发中心于2009年8月开发,并于2009年11月3日正式推出的国内首个公有云计算平台,是新浪云计算战略的核心组成部分。SAE选择国内流行最广的Web开发语言PHP作为支持语言,Web开发 ...
分类:   
视觉中国的NoSQL之路:从MySQL到MongoDB
视觉中国的NoSQL之路:从MySQL到MongoDB
起因视觉中国网站(www.chinavisual.com)是国内最大的创意人群的专业网站。2009年以前,同很多公司一样,我们的CMS和社区产品都构建于PHP+Nginx+MySQL之上;MySQL使用了Master+Master的部署方案;前端使用自己的PHP框 ...
分类:   

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

热门文章

     

    GMT+8, 2018-10-19 13:29 , Processed in 0.172595 second(s), 19 queries .