The value of knowledge lies not in possession, but in share.

0%

什么是Spark?

简介:一个围绕速度、易用性和复杂分析构建的通用大数据计算框架。

来源:Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。

​ 2013年Spark加入Apache孵化器项目后发展迅猛,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(Hadoop、Spark、Storm)。

运行速度快,消耗资源少

  • 基于内存计算,全局优化的工作流编排
  • 比MapReduce快100倍(内存),或10倍(磁盘)
  • 计算跟着数据走

简单易用,支持交互式查询

  • 易用的APIs(Python, JAVA, Scala, and SQL)
  • 丰富的内置库函数

包含多个库的全栈式平台,良好的生态系统

  • 减轻运维,且各组件之间易于集成
  • 支持所有Hadoop生态系统中的数据源
  • 可以基于云计算

Spark生态系统组件应用场景

🍭支持一根棒棒糖吧!