??斗地主捕鱼电竞提现秒到 广告位招租 - 15元/月全站展示
??支付宝搜索579087183领大额红包 ??伍彩集团官网直营彩票
??好待遇→招代理 ??伍彩集团官网直营彩票
??络茄网 广告位招租 - 15元/月全站展示
分分钟理解大数据基础之Spark

转载   高级编程师   2018-11-15   浏览量:17


一背景

分分钟理解大数据基础之Spark
Spark 是 2010 年由 UC Berkeley AMPLab 开源的一款 基于内存的分布式计算框架,2013 年被Apache 基金会接管,是当前大数据领域最为活跃的开源项目之一

Spark 在 MapReduce 计算框架的基础上,支持计算对象数据可以直接缓存到内存中,大大提高了整体计算效率。特别适合于数据挖掘与机器学习等需要反复迭代计算的场景。

二特性

高效:Spark提供 Cache 机制,支持需要反复迭代的计算或者多次数据共享,基于Spark 的内存计算比 Hadoop MapReduce 快100倍。

易用:Spark提供 20 多种数据集操作类型,并支持使用 Python 和 Scala 脚本开发应用。

先进架构:Spark采用 Scala 语言编写,基于 DAG 图的执行引擎,减少多次计算之间中间结果写到 HDFS 的开销。

三应用场景

分分钟理解大数据基础之Spark

Spark之上有四种应用工具库。

Spark Streaming: 用于流式计算。

MLlib:用于机器学习(聚类、协同过滤等)。

Spark SQL:用于处理结构化数据。

GraphX:用于图和图并行计算的API。

目前主要应用在广告精准投放系统、日志报表即时查询、以及推荐系统等业务场景。这些应用场景的共同特点是计算量大且效率要求高。

四部署模式

Spark有三种部署模式。

Standalone:使用Spark自带的集群管理器。

Spark on Mesos:使用 Mesos 管理资源。

Spark on YARN:使用 YARN 管理资源。

五任务流程

Spark重要组件包括 Driver Program(Driver) 和Executor。以 Standalone(Driver 运行在 Client)模式为例介绍任务执行流程。

分分钟理解大数据基础之Spark
客户端运行用户程序,启动 Driver。

Driver将作业转换为DAG图(类似数据处理的流程图),根据策略将DAG图划分为多个Stage,最终生成一系列最小可执行的Task。

Driver根据Task的需求,向Master申请运行Task所需的资源。

Master为Task调度分配满足需求的Worker节点,在Worker节点启动Exeuctor。

Exeuctor启动后向Driver注册。

Driver将Task调度到Exeuctor执行。

Executor执行结果写入文件或返回Driver。

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

转载自://blog.51cto.com/14042734/2317197

招聘 不方便扫码就复制添加关注:程序员招聘谷,微信号:jobs1024



大数据spark中ml与mllib 的区别你分清了吗?
大数据学习过程中一个重要的环节就是spark,但是在spark中有很多的知识点,很多人都傻傻分不清楚,其中,最易搞混的就是ml与mllib的区别。
spark自带的logistic_regression例子分析
spark自带的logistic_regression例子分析。
spark源码系列之累加器实现机制及自定义累加器
累加器是Spark的一种变量,顾名思义该变量只能增加。有以下特点:1,累加器只能在Driver端构建及并只能是Driver读取结果,Task只能累加。2,累加器不会改变SparkLazy计算的特点。只会在Job触发的时候进行相关累加操作。3,现有累加器的类型。
如何制定一份可实施的2018年大数据学习计划?
我们习惯了“间歇性踌躇满志、持续性混吃等死”,那么2018年快过了一半了,又该做点什么呢?其实,要想做出改变并非难事,你缺少的只是一个计划(去做)。学习大数据分析更是如此,因为大数据是一门综合性的学科,复杂且具有一定系统性,所以大数据的学习更加需要有一个明确的目标和计划,然后按部就班的执行。那么如何才能制定出一份可行性强的大数据学习计划呢?我们可以从以下几个方面去制定。如何制定一份可实施的2018
用eclipse执行spark的一个简单wordcount java语言 中的一些问题!
首先wordcount代码,其中uaa是存放hadoop工具类的package!packagecom.lxw.test;importjava.util.Arrays;importjava.util.Iterator;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;import...
spark1.x升级到spark2.x以及1.x和2.x的版本兼容
1.spark1.x升级到spark2.x对于普通的spark来说,变动不大:举一个最简单的实例:spark1.xpublicstaticJavaRDD<String>workJob(JavaRDD<String>spark1Rdd){JavaPairRDD<String,Integer>t...
大数据Storm相比于Spark、Hadoop有哪些优势 摘录
一、可能很多初学大数据的伙伴不知道strom是什么,先给大家介绍一下strom:分布式实时计算系统,storm对于实时计算的意义类似于hadoop对于批处理的意义。storm的适用场景。流数据处理。Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。分布式rpc。由于storm的处理组件是分布式的,而且处理延迟极低,所以可以作为一个通用的分布式rpc框架来使用。当然,其实我们的搜索引擎本身也是一个分布式rpc系统
Spark笔记整理之RDD转化DataFrame
1.概述RDD转化为DataFrame共有两种方式,下面我将结合源码,对这两种方式进行试验和讲解通过反射的方式,这种方式需要事先知道这份数据的Schema信息,才能使用,应用场景例如:读取HDFS数据等等通过编码实现,这种方式是自定义Schema的方式,可以在不知道Schema的时候使用。2.详解1).反射方式:定义caseclass,类似于定义DF的Schema...
spark启动报错及解决办法
spark启动报错及解决办法。spark启动sqlUnabletoinstantiateorgapachehadoophiveqlmetadataSessionHiveMetaStoreClient
spark中写hdfs的异常解决
spark中写hdfs的异常解决。