新闻资讯  快讯  焦点  财经  政策  社会
互 联 网   电商  金融  数据  计算  技巧
生活百科  科技  职场  健康  法律  汽车
手机百科  知识  软件  修理  测评  微信
软件技术  应用  系统  图像  视频  经验
硬件技术  知识  技术  测评  选购  维修
网络技术  硬件  软件  设置  安全  技术
程序开发  语言  移动  数据  开源  百科
安全防护  资讯  黑客  木马  病毒  移动
站长技术  搜索  SEO  推广  媒体  移动
财经百科  股票  知识  理财  财务  金融
教育考试  育儿  小学  高考  考研  留学
您当前的位置:首页 > 互联网百科 > 大数据

排名前6位的最流行的大数据框架,你在用哪一款?

时间:2019-11-27 17:07:24  来源:  作者:

市场上有许多可用的框架。其中一些更受欢迎,例如Spark,Hadoop,Hive和Storm。Presto在效用指数上得分很高,而Flink具有巨大的潜力。另外还有一些需要提及的其他内容,例如Samza,Impala,Apache Pig等。在这里,我们将讨论其中的一些。


1. Apache Hadoop

排名前6位的最流行的大数据框架,你在用哪一款?

 

Hadoop是基于JAVA的平台。这是一个开放源代码框架,可跨集群排列的一组硬件机器提供批处理数据处理和数据存储服务。Hadoop同样适用于可靠,可扩展和分布式的计算。但是,它也可以用作通用文件存储。它可以存储和处理PB的信息。Hadoop由三个主要组件组成。

  1. HDFS文件系统-负责Hadoop集群中的数据存储;
  2. MapReduce系统-用于处理集群中的大量数据;
  3. YARN-它是处理资源管理的核心。
  • 优点

它提供了经济高效的解决方案,高吞吐量,多语言支持以及与大数据服务中大多数新兴技术的兼容性。还通过出色的故障处理机制支持高可伸缩性,容错能力,更适合研发,高可用性。

  • 缺点

它包含安全漏洞的漏洞,不执行内存中的计算,因此会遭受处理开销,不适用于流处理和实时处理,这是处理大量小文件的问题。

像Amazon,Adobe,AOL,阿里巴巴,EBay和Facebook这样的组织也使用Hadoop。


2. Apache Spark

排名前6位的最流行的大数据框架,你在用哪一款?

 

Spark框架由加利福尼亚大学伯克利分校成立。它是具有改进的数据流处理的批处理框架。借助完整的内存计算以及处理优化,它保证了极其快速的集群计算系统。

Spark框架由五层组成。

  • HDFS和HBASE:它们构成了数据存储系统的第一层。
  • YARN和Mesos:它们形成资源管理层。
  • 核心引擎:这形成了第三层。
  • 库:构成第四层,其中包含用于流查询处理时的SQL查询的Spark SQL,用于处理图形数据的GraphX和Spark R实用程序以及用于机器学习算法的MLlib。
  • 第五层包含一个应用程序接口,例如Java或Scala。

Spark可以作为独立的集群与功能强大的存储层一起使用,也可以与Hadoop进行一致的集成。它也支持一些流行的语言,例如Python,R,Java和Scala。

  • 优点
  1. 速度
  2. 使用方便
  3. 进阶分析
  4. 自然动态
  5. 多种语言
  6. Apache Spark功能强大
  7. 增加对大数据的访问
  8. 对Spark开发人员的需求
  9. 开源社区
  • 缺点

Spark带来了一些弊端,例如设置和实现的复杂性,语言支持限制,而不是真正的流引擎。


3.Apache Storm

排名前6位的最流行的大数据框架,你在用哪一款?

 

Apache Storm是另一个引人注目的解决方案,专注于处理巨大的实时数据流。Storm的主要亮点是可伸缩性和停机后的迅速恢复能力。您可以在Java,Python,Ruby和Fancy的帮助下使用此解决方案。Storm包含一些使其在本质上与模拟产品不同的组件。第一个是Tuple,它是支持序列化的关键数据表示元素。然后是Stream,它在Tuple中合并了命名字段的方案。Spout从外部源获取数据,从它们中形成元组,然后将它们发送到Stream。另外还有Bolt(数据处理器)和Topology(拓扑),这是一整套元素及其相关描述。将所有这些元素组合在一起,可以帮助工程师监督大量的非结构化数据流。

谈到性能,Storm提供了比Flink和Spark更好的延迟。尽管如此,它的吞吐量却更糟。最近,Twitter移至另一个框架Heron。Yelp,Yahoo !、阿里巴巴等大型组织尚未利用Storm。到2020年,它将拥有庞大的客户群和支持。


4. Apache Flink

排名前6位的最流行的大数据框架,你在用哪一款?

 

Apache Flink是一个开源框架,同样适用于批处理和流数据处理。它最适合于集群环境。该框架基于转换–流概念。它也是大数据的4G。它比Hadoop – Map Reduce快100倍。

Flink框架由多层组成-

  • 部署层
  • 运行层
  • 图书馆层
  • 优点

低延迟,高吞吐量,容错,逐项输入,批处理轻松以及流数据处理,与Hadoop的兼容性。

  • 缺点

很少有可伸缩性问题。


5. Presto

排名前6位的最流行的大数据框架,你在用哪一款?

 

Presto是最适合较小数据集的开源分布式SQL工具。Presto配备了协调员以及各种工人。当客户提交查询时,将对这些查询进行解析,分析,计划执行并分配给协调员在工作人员之间进行处理。

优点

  1. 即使并发查询工作量增加,查询降级最少。
  2. 它的查询执行速度比Hive快三倍。
  3. 易于添加图像和嵌入链接。
  4. 高度用户友好。

缺点

  1. 可靠性问题

6. Samza

排名前6位的最流行的大数据框架,你在用哪一款?

 

Apache Samza是有状态的流,准备与Kafka共同开发的大数据系统。Kafka提供数据服务,缓冲和容错能力。两者结合起来被提议用于需要快速单级处理的地方。使用Kafka,可以以低延迟使用它。Samza还在处理过程中保存了局部状态,从而提供了更多的容错能力。它是为KAppa体系结构设计的,但可以在其他体系结构中使用。Samza使用YARN来安排资源。因此,它需要一个Hadoop集群才能工作,这意味着您可以依赖YARN提供的亮点。这个大数据处理框架是为Linkedin开发的,也被eBay和TripAdvisor使用,以进行欺诈发现。Kafka利用了相当一部分代码来创建竞争的数据处理框架Kafka流。


结论

没有一个最适合所有业务需求的框架。但是,以某些框架为特色,Storm似乎最适合流式传输,而Spark是批处理的赢家。对于每个组织或企业,自己的数据都是最重要的。将资源投入大数据结构包括支出。许多框架都是可自由访问的,而有些框架则需要付费。视项目需求而定,可提供初步版本。对于适当的选择,请了解业务目标。您可以在较小规模的项目上尝试使用该框架,以更精确地了解其功能。投资于正确的框架可以使企业成功。

点击关注,如果发现任何不正确的地方,或者想分享有关上述主题的更多信息,欢迎反馈。



Tags:大数据框架   点击:()  评论:()
声明:本站部分内容来自互联网,内容观点仅代表作者本人,如有任何版权侵犯请与我们联系,我们将立即删除。
▌相关评论
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
▌相关推荐
市场上有许多可用的框架。其中一些更受欢迎,例如Spark,Hadoop,Hive和Storm。Presto在效用指数上得分很高,而Flink具有巨大的潜力。另外还有一些需要提及的其他内容,例如Samza,Impa...【详细内容】
2019-11-27   大数据框架  点击:(0)  评论:(0)  加入收藏
Hadoop Distributed File System (HDFS): 分布式文件系统,提供对应用程序数据的高吞吐量,高伸缩性,高容错性的访问。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用...【详细内容】
2019-04-24   大数据框架  点击:(33)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条