马如悦:大规模数据分析系统的搭建

原创
移动开发
在第二天的数据挖掘与实时分析专场,第一场演讲由百度基础架构部高级工程师马如悦带来,他的主题是大规模数据分析系统的搭建。马讲师预测,到2015、2016年,数据分析将和移动、云计算一样热门,因此现在未雨绸缪很有必要。

2013年4月26日-27日,由51CTO传媒集团旗下WOT(World Of Tech)品牌主办的2013大数据全球技术峰会在北京富力万丽酒店召开。本次峰会将围绕大数据基础架构与上层应用的生态系统,解决大规模数据引发的问题,探索大数据基础的解决方案,激发数据挖掘带来的竞争力,让数据发出声音。51CTO作为本次峰会的主办方,将全程视频、图文直播报道这场数据的盛宴,更多内容请点击专题:2013大数据全球技术峰会

 

2013大数据全球技术峰会专题

 在第二天的数据挖掘与实时分析专场,***场演讲由百度基础架构部高级工程师马如悦带来,他的主题是大规模数据分析系统的搭建。马讲师预测,到2015、2016年,数据分析将和移动、云计算一样热门,因此现在未雨绸缪很有必要。

马讲师首先提出了两个观点,数据系统和分层设计。数据系统必须包括storage和query,因此mysql是数据系统,而HBase、NoSQL只能算存储层。另外,大数据必须采用分层设计,包括:垂直分层-时效性库,水平分层-OLTP、OLAP、NoSql等。分层可以减少设计复杂性、减少使用运维复杂性、资源效率使用***。

为什么要提出这两个观点呢,因为***,从小数据到大数据,数据的存储、处理都是不同的;第二,大数据系统也是storage+query;第三,大数据因为过于heavy,需要分层考虑。

另外,马讲师还提到了最近大数据系统的趋势,Newsql和Interactive analysis开始被人提及和研究,nosql太过原始,sql容量性能有限,newsql相当于sql和nosql的中间实现,即带有事物处理的nosql;Hive响应太慢,数据库容量性能有限,而Interactive analysis可以解决这些问题。

***,马讲师讲到了大数据分析的架构设计,底层是ETL-1,然后装进数据仓库,然后通过ETL-2,对数据进行分析,以前我们关注的都是底层,但是数据挖掘和分析缺乏关注。发展趋势是数据量越来越大,维度越来越多,从以人为主到以机器为主,用户专业度越来越高,但数量减少。

大数据系统搭建的一些解决方案,分别是商业版和开源版。开源版还没有很成熟的产品来构建大数据下的OLAP,中等规模可以用HPCC解决方案,可以代替一些商业产品。

在QA环节,来自Oracle的参会者和马讲师就商业与开源进行了精彩的辩论,马讲师讲到,如果数据是公司的核心竞争力,那么采用开源方案可以不依赖他人,并且有自己的技术专利。

[[71738]]

以上是51CTO.com记者从一线为您带来的精彩报道。后续我们还有更加精彩的独家报道,敬请关注。

责任编辑:徐川 来源: 51CTO
相关推荐

2021-08-25 08:23:51

AI数据机器学习

2024-04-02 14:29:12

网络安全数据泄露

2023-12-15 10:16:51

容器工具数据

2016-10-12 09:22:51

数据分析技术Apache Kyli

2022-06-24 09:00:00

数据管理数据卷数据存储

2023-10-26 01:26:04

Vaex数据数据集

2020-06-10 10:00:53

Serverless数据处理函数

2020-07-23 14:03:09

数据中心数据网络

2019-12-25 10:46:13

Python 开发编程语言

2016-05-30 12:08:14

2022-12-30 14:14:51

数据中心服务器

2017-01-11 15:54:53

SDN网络数据中心中国移动

2020-12-11 19:52:06

数据中心超大规模数据中心

2023-02-14 11:24:36

2021-03-24 11:13:12

数据中心云计算物联网

2018-11-30 15:30:38

UCloud数据中心网络部署

2023-10-07 08:30:07

B+树数据库管理系统

2021-09-24 11:34:44

MaxCompute Python 数据分析

2020-10-30 11:09:30

Pandas数据代码

2014-05-04 15:01:09

点赞
收藏

51CTO技术栈公众号