Spark架构
用Spark架构具有如下优点:
- 实现一键式安装和配置、线程级别的任务监控和告警
- 降低硬件集群、软件维护、任务监控和应用开发的难度
- 便于做成统一的硬件、计算平台资源池
注:Spark Streaming无法实现毫秒级的流计算,因此,对于需要毫秒级实时响应的企业应用而言,仍然需要采用流计算框架(如Storm)
Spark+Hadoop架构
Hadoop和Spark的统一部署缘由:
- Hadoop生态系统中的一些组件所实现的功能,目前还是无法由Spark取代的,比如,Storm
- 现有的Hadoop组件开发的应用完全转移到Spark上需要一定的成本
不同的计算框架统一运行在YARN中,可以带来如下好处:
- 计算资源按需伸缩
- 不用负载应用混搭,集群利用率高
- 共享底层存储,避免数据跨集群迁移