www.zhnq.net > spArk和hADoop的区别

spArk和hADoop的区别

hadoop和spark的联系和区别计算数据存储位置hadoop:硬盘spark:内存计算模型hadoop:单一spark:丰富处理方式hadoop:非迭代spark:迭代场景要求hadoop:离线批处理.(面对sql交互式查询、实时处理及机器学习等需要和第三方框架结合.多种数据格式转换,导致消耗大量资源)spark:批处理、实时处理

直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠.比如说,Spark没有文件管理功能,因而必须依赖Hadoop分布式文件系统(HDFS)或另外某种解决方案.Hadoop框架的主要模块包括如下

hadoop在外存处理数据,spark在内存处理数据.hadoop适合迭代处理,擅长批量处理;spark适合流处理,不擅长迭代处理.spark处理速度更快,但是太吃内存.

嗯两份中的话计算模型相同:都是在集群里运行mapreduce运算存储方式不同:在计算过程中hadoop需要不断的在硬盘中写入读取数据 ,而spark直接将数据加载到内存中,在内存中运算.

spark是一种内存计算框架,计算基本是在内存中进行操作,所以效率比hadoop高很多,但是使用内存那就必然代价比较大

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点. 但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法. 优势应该在于分布式架构比较相似能快速上手吧. 如果我的回答没能帮助您,请继续追问.

稳定性方面,由于代码质量问题,Spark长时间运行会经常出错,在架构方面,由于大量数据被缓存在RAM中,Java回收垃圾缓慢的情况严重,导致Spark性能不稳定,在复杂场景中SQL的性能甚至不如现有的Map/Reduce.不能处理大数据,单

解决问题的层面不一样首先,hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同.Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味

解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同.Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味

解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同.Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味

网站地图

All rights reserved Powered by www.zhnq.net

copyright ©right 2010-2021。
www.zhnq.net内容来自网络,如有侵犯请联系客服。zhit325@qq.com