新闻资讯  快讯  焦点  财经  政策  社会
互 联 网   电商  金融  数据  计算  技巧
生活百科  科技  职场  健康  法律  汽车
手机百科  知识  软件  修理  测评  微信
软件技术  应用  系统  图像  视频  经验
硬件技术  知识  技术  测评  选购  维修
网络技术  硬件  软件  设置  安全  技术
程序开发  语言  移动  数据  开源  百科
安全防护  资讯  黑客  木马  病毒  移动
站长技术  搜索  SEO  推广  媒体  移动
财经百科  股票  知识  理财  财务  金融
教育考试  育儿  小学  高考  考研  留学
您当前的位置:首页 > 互联网百科 > 大数据

带你了解阿里大数据产品技术架构

时间:2019-04-24 13:02:13  来源:  作者:

本文笔者将从数据采集层、数据计算层、数据服务层、数据应用层四大层次来带大家了解阿里大数据的产品技术架构

2014年,马云提出:“人类正从IT时代走向DT时代”。

如果说在IT时代是以自我控制、自我管理为主,那么到了DT (Data Technology)时代,则是以服务大众、激发生产力为主。以互联网(或者物联网)、云计算、大数据和人工智能为代表的新技术革命正在渗透至各行各业,悄悄地改变着我们的生活。

在DT时代,人们比以往任何时候更能收集到更丰富的数据。

IDC的报告显示:预计到2020年,全球数据总量将超过40ZB (相当于40万亿GB),这一数据量是2011年的22倍!正在呈“爆炸式”增长的数据,其潜在的巨大价值有待发掘。数据作为一种新的能源,正在发生聚变,变革着我们的生产和生活,催生了当下大数据行业发展热火朝天的盛景。

但是,如果不能对这些数据进行有序,有结构地分类组织和存储。如果不能有效利用并发掘它,继而产生价值,那么它同时也成为一场“灾难”。无序、无结构的数据犹如堆积如山的垃圾,给企业带来的是令人昨舌的高额成本。

在阿里巴巴集团内,我们面临的现实情况是:集团数据存储达到EB级别,部分单张表每天的数据记录数高达几千亿条,在2016年“双”购物狂欢节”的24小时中,支付金额达到了1207 亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿且所有数据都需要做到实时、准确地对外披露……

这些给数据采集、存储和计算都带来了极大的挑战。

在阿里内部,数据工程师每天要面对百万级规模的离线数据处理工作。阿里大数据井喷式的爆发,加大了数据模型、数据研发、数据质量和运维保障工作的难度。

同时,日益丰富的业态,也带来了各种各样、纷繁复杂的数据需求。如何有效地满足来自员工、商家、合作伙伴等多样化的需求?提高他们对数据使用的满意度,是数据服务和数据产品需要面对的挑战。

如何建设高效的数据模型和体系,使数据易用,避免重复建设和数据不一致性,保证数据的规范性?如何提供高效易用的数据开发工具?如何做好数据质量保障:如何有效管理和控制日益增长的存储和计算消耗?如何保证数据服务的稳定,保证其性能?如何设计有效的数据产品高效赋能于外部客户和内部员…..这些都给大数据系统的建设提出了更多复杂的要求。

本文介绍的阿里巴巴大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。

如图1.1所示是阿里巴巴大数据系统体系架构图,从图中可以清晰地看到数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。

一、数据采集层

阿里巴巴是一家多业态的互联网公司,几亿规模的用户(如商家、消费者、商业组织等)在平台上从事商业、消费、娱乐等活动,每时每刻都在产生海量的数据。

数据采集作为阿里大数据系统体系的第一环尤为重要。因此,阿里巴巴建立了一套标准的数据采集体系方案,致力全面、高性能、规范地完成海量数据的采集,并将其传输到大数据平台。

阿里巴巴的日志采集体系方案包括两大体系: Aplus.JS 是Web端日志采集技术方案; UserTrack 是App端日志采集技术方案。

在采集技术基础之上,阿里巴巴用面向各个场景的埋点规范,来满足通用浏览、点击、特殊交互、APP事件、H5及APP里的HS和Native日志数据打通等多种业务场景。

同时,还建立了一套高性能、高可靠性的数据传输体系,完成数据从生产业务端到大数据系统的传输。在传输方面,采用TimeTunnel (TT), 它既包括数据库的增量数据传输,也包括日志数据的传输。

TT作为数据传输服务的基础架构,既支持实时流式计算,也支持各种时间窗口的批量计算。另外,也通过数据同步工具(DataX和同步中心,其中同步中心是基于DataX易用性封装的)直连异构数据库(备库)来抽取各种时间窗口的数据。

二、数据计算层

数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的。

从采集系统中收集到的大量原始数据,将进人数据计算层中被进一步整合与计算。

面对海量的数据和复杂的计算,阿里巴巴的数据计算层包括两大体系:数据存储及计算云平台(离线计算平台MaxCompute和实时计算平台StreamCompute)和数据整合及管理体系(内部称之为“OneData”)。

其中,MaxCompute 是阿里巴巴自主研发的离线大数据平台,其丰富的功能和强大的存储及计算能力使得阿里巴巴的大数据有了强大的存储和计算引擎: StreamCompute 是阿里巴巴自主研发的流式大数据平台,OneData是数据整合及管理的方法体系及工具。

阿里巴巴的大数据工程师在这一体系下,构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性,充分发挥阿里巴巴在大数据海量、多样性方面的独特优势。

借助这一统一化数据整合及管理的方法体系,我们构建了阿里巴巴的数据公共层,并可以帮助相似大数据项目快速落地实现。

从数据计算频率角度来看:阿里数据仓库可以分为离线数据仓库和实时数据仓库。

离线数据仓库主要是指:传统的数据仓库概念,数据计算频率主要以天(包含小时、周和月)为单位——如T-1,则每天凌晨处理上一天的数据。

但是,随着业务的发展特别是交易过程的缩短,用户对数据产出的实时性要求逐渐提高,所以阿里的实时数据仓库应运而生。“双11”实时数据直播大屏,就是实时数据仓库的种典型应用。

阿里数据仓库的数据加工链路也是遵循业界的分层理念,包括:操作数据层(Operational Data Store, ODS)、 明细数据层(Data WarehouseDetail, DWD)、汇总数据层(Data Warehouse Summary, DWS)和应用数据层(Application Data Store, ADS)。通过数据仓库不同层次之间的加工过程实现从数据资产向信息资产的转化,并且对整个过程进行有效的元数据管理及数据质量处理。

在阿里大数据系统中,元数据模型整合及应用是一个重要的组成部分,主要包含:数据源元数据、数据仓库元数据、数据链路元数据、工具类元数据、数据质量类元数据等。

元数据应用主要面向数据发现、数据管理等,如用于存储、计算和成本管理等。

三、数据服务层

当数据已被整合和计算好之后,需要提供给产品和应用进行数据消费。

为了有更好的性能和体验,阿里巴巴构建了自己的数据服务层,通过接口服务化方式对外提供数据服务。针对不同的需求,数据服务层的数据源架构在多种数据库之上,如:MySQL和HBase等。后续将逐渐迁移至阿里云2数据库ApsaraDB for RDS(简称”RDS )和表格仔储(Table Store)等。

开放给集团内部各应用使用:现在,数据服务每天拥有几十亿的数据调用量,如何在性能、稳定性、扩展性等方面更好地服务于用户?如何满足应用各种复杂的数据服务需求?如何保证“双11” 媒体大屏数据服务接口的高可用……

随着业务的发展,需求越来越复杂,因此数据服务也在不断地前进。

数据服务可以使应用对底层数据存储透明,将海量数据方便高效的开放给集团内部各应用使用。现在,数据服务每天拥有几十亿的数据调用量,如何在性能、稳定性、扩展性等方面更好地服务于用户?如何满足应用各种复杂的数据服务需求?如何保证“双11”媒体大屏数据服务接口的高可用……随着业务的发展,需求越来越复杂,因此数据服务也在不断地前进。

数据服务层对外提供数据服务主要是通过统一的数据服务平台 (为方便阅读,简称为“OneService”)。

OneService 以数据仓库整合计算好的数据作为数据源,对外通过接口的方式提供数据服务,主要提供简单数据查询服务、复杂数据查询服务(承接集团用户识别、用户画像等复杂数据查询服务)和实时数据推送服务三大特色数据服务。

四、数据应用层

数据已经准备好,需要通过合适的应用提供给用户,让数据最大化地发挥价值。

阿里对数据的应用表现在各个方面,如:搜索、推荐、广告、金融、信用、保险、文娱、物流等。商家,阿里内部的搜索、推荐、广告、金融等平台,阿里内部的运营和管理人员等,都是数据应用方:ISV、研究机构和社会组织等也可以利用阿里开放的数据能力和技术。

我们相信:数据作为新能源,为产业注人的变革是显而易见的。我们对数据新能源的探索也不仅仅停留在狭义的技术、服务和应用上。我们正在挖掘大数据更深层次的价值,为社会经济和民生基础建设等提供创新方法。

作者:Wilton(董超华),曾任职科大讯飞,现任富力环球商品贸易港大数据产品经理。公众号名称:改变世界的产品经理。
 



Tags:   点击:()  评论:()
声明:本站部分内容来自互联网,内容观点仅代表作者本人,如有任何版权侵犯请与我们联系,我们将立即删除。
▌相关评论
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
▌相关推荐
题:广州“出入大门”的白衣守护者  作者 蔡敏婕 陈淑华  在广州白云国际机场,有13个医疗急救点。...【详细内容】
2020-03-23   大数据  点击:(0)  评论:(0)  加入收藏
新冠肺炎疫情对全世界经济的冲击正逐步浮现,香港的“超级联系人”角色也因此受到挑战。笔者在大湾区多个城市游走多年,最终在深圳成功开创自己的事业,深深感觉到香港年轻一代仍有其不可替代的优势。...【详细内容】
2020-03-23   大数据  点击:(1)  评论:(0)  加入收藏
(杨佩佩)记者21日从山西联运集团股份有限公司获悉,自19日起,山西支援湖北医护人员及配偶、子女乘坐山西省太原市建南汽车站46条线路的客运班车终身免...【详细内容】
2020-03-23   大数据  点击:(2)  评论:(0)  加入收藏
3月17日自美国洛杉矶乘坐中国南方航空CZ610次航班(座位号R52H),于18日5时25分抵达沈阳桃仙机场,在机场边检站采样做新冠病毒核酸检测。...【详细内容】
2020-03-23   大数据  点击:(5)  评论:(0)  加入收藏
缅甸外交官、联合国驻缅甸机构人员在到达缅甸后需进行14天的居家隔离。...【详细内容】
2020-03-23   大数据  点击:(4)  评论:(0)  加入收藏
(记者 王国安)泰国卫生部21日公布,新增新冠肺炎确诊病例89例,再创单日确诊病例新高。...【详细内容】
2020-03-23   大数据  点击:(6)  评论:(0)  加入收藏
根据西班牙当地媒体当地时间20日下午的消息,目前效力于西甲西班牙人的中国球员武磊确诊感染新冠病毒。西媒确认武磊是4位感染病毒的球员之一。...【详细内容】
2020-03-23   大数据  点击:(4)  评论:(0)  加入收藏
安徽省建设合肥综合性国家科学中心人工智能研究院,开展基础研究、应用基础研究、技术创新和应用示范,为人工智能产业创新发展提供强大知识储备和技术...【详细内容】
2020-03-23   大数据  点击:(5)  评论:(0)  加入收藏
据湖北十堰市人民政府网站消息,为确保全市人民群众出行安全,十堰市新型肺炎疫情防控指挥部21日就规范人车安全有序流动有关事项发布通告。...【详细内容】
2020-03-23   大数据  点击:(3)  评论:(0)  加入收藏
据陕西省卫健委网站消息,2020年3月20日8时至21日8时,陕西新增1例境外(英国)输入新冠肺炎确诊病例;陕西本地无新增确诊病例,本地新增疑似病例0例,...【详细内容】
2020-03-23   大数据  点击:(4)  评论:(0)  加入收藏
根据大陆最新诊疗方案,病例确诊需结合核酸检测、血清特异性抗体检测、胸部影像学检查等多个标准。...【详细内容】
2020-03-23   大数据  点击:(6)  评论:(0)  加入收藏
我和表妹的对话虽是半开玩笑,但已然成为半个假洋鬼子的我,笃定“法国人要么美、要么死”的说法话糙理不糙,因为每天我都和一个非常有代表性的“法国人”样本一起工作、生活——我的爱人法兰克。...【详细内容】
2020-03-23   大数据  点击:(4)  评论:(0)  加入收藏
中国驻菲律宾大使黄溪连在机场会见洛钦,并向菲方移交了中国援助的抗疫物资。...【详细内容】
2020-03-23   大数据  点击:(5)  评论:(0)  加入收藏
当日21时10分,内蒙古森林消防总队参与跨区域协防的400余名指战员从河北石家庄临时驻地出发,前往五台山火场实施增援。...【详细内容】
2020-03-23   大数据  点击:(4)  评论:(0)  加入收藏
(袁超)贵州茅台酒股份有限公司2020年第一次临时股东大会20日选举高卫东为公司第二届董事会董事,在随后召开的董事会会议上,选举高卫东为公司第二届董...【详细内容】
2020-03-23   大数据  点击:(4)  评论:(0)  加入收藏
据路透社报道,21日,伊朗总统鲁哈尼表示,伊朗为抗击新冠肺炎疫情,采取了包括旅行限制等在内的社会疏离措施,这些措施将持续两到三周的时间,因为他...【详细内容】
2020-03-23   大数据  点击:(5)  评论:(0)  加入收藏
3月19日,武汉协和医院超声影像科门前,贴满了提示候诊患者保持距离的告示。中青报·中青网记者 李峥苨/摄  3月19日下午,武汉华中科技大学同济医学院附属同济医院门前,久违地出现了车辆川流不息的景象。...【详细内容】
2020-03-23   大数据  点击:(6)  评论:(0)  加入收藏
智利卫生部长马纳利奇20日说,从21日零时起,智利全国无限期关闭电影院、剧院、酒吧、舞厅等场所,餐厅将取消堂食,但保留外卖。...【详细内容】
2020-03-23   大数据  点击:(5)  评论:(0)  加入收藏
报到时要采取有效措施避免大量人员长时间聚集,家长一律不得进入校园,对学生携带的行李要做好入校前消毒工作。...【详细内容】
2020-03-23   大数据  点击:(6)  评论:(0)  加入收藏
(记者 陈冠言) 3月21日,广西对口支援湖北省十堰市抗疫医疗队乘坐北部湾航空包机返回南宁。...【详细内容】
2020-03-22   大数据  点击:(4)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条