0%

什么是Spark？

发表于 2018-01-07 更新于 2023-06-06 分类于 Big Data 热度： Valine：

简介：一个围绕速度、易用性和复杂分析构建的通用大数据计算框架。

来源：Spark最初由美国加州伯克利大学（UCBerkeley）的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。

2013年Spark加入Apache孵化器项目后发展迅猛，如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一（Hadoop、Spark、Storm）。

运行速度快，消耗资源少

基于内存计算，全局优化的工作流编排
比MapReduce快100倍（内存），或10倍（磁盘）
计算跟着数据走

简单易用，支持交互式查询

易用的APIs（Python, JAVA, Scala, and SQL）
丰富的内置库函数

包含多个库的全栈式平台，良好的生态系统

减轻运维，且各组件之间易于集成
支持所有Hadoop生态系统中的数据源
可以基于云计算

Spark生态系统组件应用场景

🍭支持一根棒棒糖吧！

本文作者： 旋律信
本文链接： https://wangcong.net/article/WhatsSpark.html
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！