??斗地主捕鱼电竞提现秒到 广告位招租 - 15元/月全站展示
??支付宝搜索579087183领大额红包 ??伍彩集团官网直营彩票
??好待遇→招代理 ??伍彩集团官网直营彩票
??络茄网 广告位招租 - 15元/月全站展示
零基础怎么学spark?大数据开发学习

转载   金罗老师   2018-11-03   浏览量:19


随着大数据时代的到来。各种技术衍生,市场工作岗位的需求越亦增长。今天科多大数据挑选大数据里高频技术词汇“spark”跟大家分享。


spark 如何入手?

概述

Apache Spark是一个快速和通用的集群计算系统。它提供Java,scala,Python、R语言的APIs,以及支持一般执行图形的优化引擎。 它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和Spark Streaming。

下载

从项目网站的下载页面获取Spark。本文档适用于Spark 2.1.0版本。 Spark使用Hadoop的客户端库用于HDFS和YARN。下载是预先打包的一些流行的Hadoop版本。用户还可以下载“Hadoop free”二进制文件,并通过扩充Spark的类路径,使用任何Hadoop版本运行Spark。 Scala和Java用户可以使用其maven cooridnates在他们的项目中包含Spark,并且在将来Python用户也可以从PyPI安装Spark。

如果你想从源代码编译Spark,请访问Building Spark。

Spark在Windows和类UNIX系统(例如Linux,Mac OS)上运行。它很容易在一台计算机上本地运行 – 所有你需要的是在系统PATH上安装java,或者JAVA_HOME环境变量指向Java安装位置。

Spark运行于Java 7+,Python 2.6 + / 3.4 +和R 3.1+。对于Scala API,Spark 2.1.0使用Scala 2.11。您将需要使用兼容的Scala版本(2.11.x)。

请注意,Java 7和Python 2.6的支持在从Spark 2.0.0已过时,并且对于Scala 2.10和2.6之前的Hadoop版本的支持在Spark 2.1.0中已过时,并且可能会在Spark 2.2.0中被删除。

运行示例和Shell

Spark附带了几个示例程序。 Scala,Java,Python和R示例在examples/src/ main目录中。 要运行Java或Scala示例程序之一,请在顶级Spark目录中使用bin / run-example [params]。 (在后台,这将调用更通用的spark提交脚本来启动应用程序)。 例如,

./bin/run-example SparkPi10

您还可以通过Scala shell的修改版本以交互方式运行Spark。 这是一个学习框架的好方法。

./bin/spark-shell--master local[2]

--master选项指定分布式集群的master URL,或者本地使用一个线程运行在本地,或者使用local [N]在本地使用N个线程运行。 您应该首先使用local进行测试。 有关选项的完整列表,请运行Spark shell 使用–help选项。

Spark还提供了一个Python API。 要在Python解释器中以交互方式运行Spark,请使用bin / pyspark:

./bin/pyspark--masterlocal[2]

示例应用程序也在Python中提供。 例如,

./bin/spark-submit examples/src/main/python/pi.py10

Spark自1.4以来提供了一个实验R API(仅包括DataFrames API)。 要在R解释器中以交互方式运行Spark,请使用bin / sparkR:

./bin/sparkR--masterlocal[2]

示例应用也在R中提供。例如,

./bin/spark-submit examples/src/main/r/dataframe.R

在群集上运行

Spark集群模式概述解释了在集群上运行的关键概念。 Spark可以单独运行,也可以通过多个现有集群管理器运行。 它目前提供了几个部署选项:

独立部署模式:在私有集群上部署Spark的最简单方法

Apache Mesos

Hadoop YARN

从哪里入手

编程指南

快速入门:快速介绍Spark API; 从这里开始!

Spark编程指南:Spark所有支持的语言(Scala,Java,Python,R)

基于Spark的??椋?/p>

Spark Streaming:处理实时数据流

Spark SQL,Datasets和DataFrames:支持结构化数据和关系查询

MLlib:内置机器学习库

GraphX:Spark的新图形处理API

API Docs

Spark Scala API (Scaladoc)

Spark Java API (Javadoc)

Spark Python API (Sphinx)

Spark R API (Roxygen2)

部署指南

集群概述:在集群上运行的组件概述

提交应用程序:打包和部署应用程序

部署模式:

Amazon EC2:允许您在大约5分钟内在EC2上启动集群的脚本

独立部署模式:快速启动独立集群,无需第三方集群管理器

Mesos:使用Apache Mesos部署私有集群

YARN:在Spark上部署Hadoop的下一代(YARN)

其他文档

配置:- 通过其配置系统定制Spark

监视:跟踪应用程序的行为

优化指南:优化性能和内存使用的最佳做法

作业调度:在Spark应用程序内部和跨程序调度资源

安全:Spark安全支持

硬件配置:针对集群硬件的建议

与其他存储系统集成:

OpenStack Swift

编译Spark:使用Maven系统构建Spark

贡献给Spark

第三方项目:相关第三方Spark项目

外部资源

Spark主页

Spark社区资源,包括当地meetups

StackOverflow标签apache-spark

邮件列表:在这里提出关于Spark的问题

AMP训练营:在加州大学伯克利分校的一系列训练营,有关于Spark,Spark Streaming,Mesos等的特色演讲和练习。 更多视频,幻灯片和练习可免费在线获取。

代码示例:更多也可以在Spark的examples子文件夹中获得(Scala,Java,Python,R)

在这里相信有许多想要学习大数据的同学,大家可以+下大数据学习裙:716加上【五8一】最后014,即可免费领取一整套系统的大数据学习教程


转载自://blog.51cto.com/13854477/2312561

招聘 不方便扫码就复制添加关注:程序员招聘谷,微信号:jobs1024



大数据spark中ml与mllib 的区别你分清了吗?
大数据学习过程中一个重要的环节就是spark,但是在spark中有很多的知识点,很多人都傻傻分不清楚,其中,最易搞混的就是ml与mllib的区别。
spark自带的logistic_regression例子分析
spark自带的logistic_regression例子分析。
spark源码系列之累加器实现机制及自定义累加器
累加器是Spark的一种变量,顾名思义该变量只能增加。有以下特点:1,累加器只能在Driver端构建及并只能是Driver读取结果,Task只能累加。2,累加器不会改变SparkLazy计算的特点。只会在Job触发的时候进行相关累加操作。3,现有累加器的类型。
如何制定一份可实施的2018年大数据学习计划?
我们习惯了“间歇性踌躇满志、持续性混吃等死”,那么2018年快过了一半了,又该做点什么呢?其实,要想做出改变并非难事,你缺少的只是一个计划(去做)。学习大数据分析更是如此,因为大数据是一门综合性的学科,复杂且具有一定系统性,所以大数据的学习更加需要有一个明确的目标和计划,然后按部就班的执行。那么如何才能制定出一份可行性强的大数据学习计划呢?我们可以从以下几个方面去制定。如何制定一份可实施的2018
用eclipse执行spark的一个简单wordcount java语言 中的一些问题!
首先wordcount代码,其中uaa是存放hadoop工具类的package!packagecom.lxw.test;importjava.util.Arrays;importjava.util.Iterator;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;import...
spark1.x升级到spark2.x以及1.x和2.x的版本兼容
1.spark1.x升级到spark2.x对于普通的spark来说,变动不大:举一个最简单的实例:spark1.xpublicstaticJavaRDD<String>workJob(JavaRDD<String>spark1Rdd){JavaPairRDD<String,Integer>t...
大数据Storm相比于Spark、Hadoop有哪些优势 摘录
一、可能很多初学大数据的伙伴不知道strom是什么,先给大家介绍一下strom:分布式实时计算系统,storm对于实时计算的意义类似于hadoop对于批处理的意义。storm的适用场景。流数据处理。Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。分布式rpc。由于storm的处理组件是分布式的,而且处理延迟极低,所以可以作为一个通用的分布式rpc框架来使用。当然,其实我们的搜索引擎本身也是一个分布式rpc系统
Spark笔记整理之RDD转化DataFrame
1.概述RDD转化为DataFrame共有两种方式,下面我将结合源码,对这两种方式进行试验和讲解通过反射的方式,这种方式需要事先知道这份数据的Schema信息,才能使用,应用场景例如:读取HDFS数据等等通过编码实现,这种方式是自定义Schema的方式,可以在不知道Schema的时候使用。2.详解1).反射方式:定义caseclass,类似于定义DF的Schema...
spark启动报错及解决办法
spark启动报错及解决办法。spark启动sqlUnabletoinstantiateorgapachehadoophiveqlmetadataSessionHiveMetaStoreClient
spark中写hdfs的异常解决
spark中写hdfs的异常解决。