简介:一个围绕速度、易用性和复杂分析构建的通用大数据计算框架。
来源:Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。
2013年Spark加入Apache孵化器项目后发展迅猛,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(Hadoop、Spark、Storm)。
运行速度快,消耗资源少
- 基于内存计算,全局优化的工作流编排
- 比MapReduce快100倍(内存),或10倍(磁盘)
- 计算跟着数据走
简单易用,支持交互式查询
- 易用的APIs(Python, JAVA, Scala, and SQL)
- 丰富的内置库函数
包含多个库的全栈式平台,良好的生态系统

- 减轻运维,且各组件之间易于集成
- 支持所有Hadoop生态系统中的数据源
- 可以基于云计算
Spark生态系统组件应用场景
