×

scala

windows下安装spark + hadoop + pyspark(windows下安装redis)

☔︎ ☔︎ 发表于2024-04-27 浏览6956 评论0
选择版本 spark依赖的是hadoop和Java spark、hadoop和python的适配 hadoop2.x都是基于java7开发的 hadoop3.x是基于java8开发的https://spark.apache.org/downloads.html 里面有各种依赖的关系 第二种方法:下载:在spark官网的最后一行蓝色,有老版本下载的链接 文件有两个: spark大小大概200M,小的不是 如果带hadoopX版本,才是能够hadoop执行的。 hadoop是执行had

scala

Spark3.0新特性(spark 3.0新特性)

星花园站长资源网 星花园站长资源网 发表于2024-04-27 浏览4832 评论0
概述 Spark在SQL查询方面的性能优化主要分为四个方向七个方面 开发交互方向 新的Explain格式 所有join支持hints 动态优化 自适应查询执行 动态分区裁剪 Catalyst提升 增强嵌套列的裁剪和下推 增强聚合的代码生成 基础设施更新 支持新的Scala和Java版本 一、动态优化 1.自适应查询执行:通过使用运行时的统计信息 1)根据统计信息设置reducer的数量来避免内存和I/O资源的浪费 对reducer的个数进行了优化:避免reduder 空转资源浪费

scala

IDLE开发wordCount程序(第五弹)

一 发表于2024-04-27 浏览4074 评论0
目录 一.以本地模式执行spark程序 创建Maven项目,新建资源文件夹 步骤1 打开右上角的Fileànewàproject 步骤2 选择mavenànext 步骤3 填写groupld、artifctldànext 步骤4 填写项目名称和选择放置位置 步骤5 在main目录下创建scala文件,右击ànewàdirectory,命名为Scala 步骤6 右击Scala文件,选择【Mark Directory as】à【sources root】表示将文

scala

Apache Hadoop3.2.2与Spark3.0.0环境安装(hadoop3.1.3对应spark版本)

ipacer ipacer 发表于2024-04-27 浏览6356 评论0
目录 基础环境说明 JDK基础环境安装 下载并解压jdk8 设置环境变量 更新环境配置 Hadoop环境安装 下载并解压Hadoop3.2.2  设置环境变量 更新环境配置 设置Hadoop JAVA_HOME Hadoop 核心配置文件设置 Hadoop hdfs核心配置start-dfs.sh和stop-dfs.sh  Hadoop yarn核心配置start-yarn.sh和stop-yarn.sh ssh免密登录设置 启动Hadoop jps进程查看 H

scala

在Spark Scala/Java应用中调用Python脚本,会么?

qq_pwd26vsv qq_pwd26vsv 发表于2024-04-27 浏览4424 评论0
摘要:本文将介绍如何在 Spark scala 程序中调用 Python 脚本,Spark java程序调用的过程也大体相同。 本文分享自华为云社区《【Spark】如何在Spark Scala/Java应用中调用Python脚本》,作者: 小兔子615 。 1.PythonRunner 对于运行与 JVM 上的程序(即Scala、Java程序),Spark 提供了 PythonRunner 类。只需要调用PythonRunner 的main方法,就可以在Scala或Java程序中调用

scala

scala 异步操作 生产者消费者(scala异步编程)

运营狗转载 运营狗转载 发表于2024-04-27 浏览4307 评论0
-- 反应式编程 异步非阻塞 scala优化 生产中消费者  案例 传统方法1 Array(11,22,33) .map(function1) // map1 .map(function2) // map2 需要map1执行完毕再执行map2 传统方法2 for循环 则顺序是11的map1 11的map2 22的map1 22的map2  我们今天实现的最终效果 map1不断执行  map2也不断执行. 这样map2就减少了等待时间. 注意这里使用scala反应式编程,不是简

scala

Spark :: 大画Spark(1)——Spark的Dispatcher原理

25013415 25013415 发表于2024-04-27 浏览2941 评论0
背景 在Spark的网络环境中,Netty是进行RPC通讯的底层通讯模块,在Netty之上,Spark构建起了一整套的通信发送与接收处理机制,这个机制涉及到了Spark的Dispatcher,MessageLoop,Endpoint,Inbox等一系列的概念和关系,理解诸如这些概念和关系是很多Spark初学者的挡路石,为了能让初学者以及一直使用Spark的同学深入了解这些概念和内容,我准备写一个专题,叫做《大画Spark》,通过一系列相视的生活中的例子,大家都能听懂的常识,以及生动的插画(这

scala

搭建Spark开发环境(搭建spark开发环境的实验原理)

BlueIce_kaka BlueIce_kaka 发表于2024-04-27 浏览4413 评论0
                                      实验报告 ①.spark集群基础 查看自己三个节点环境的ip地址:ip addre Master: Slave1: Slave2: 切换hadoop用户查看master能否切换另外两台slave然后配置另外两台可以自由切换 配置成刚才三个节点的ip地址 配置另外两个节点的免密快速访问(修改配置需要管理员root权限才能修改)   ②.Sp

scala

Spark 之 RDD行动算子(spark rdd的常用算子)

田小会 田小会 发表于2024-04-27 浏览5009 评论0
前言 本文介绍Spark三大数据结构之一的RDD的行动算子,通过配合案例使读者更加深刻的了解各大行动算子的作用及其使用方法; Spark 知识系列文章    此处罗列了有关Spark相关知识的其他文章,有需要的可以进行点击查阅。    Spark 之 Spark框架及部署    Spark 之Spark三大数据结构    Spark 之 RDD转换算子    Spark 之 SparkSQL    Spark 之 SparkStreaming 一

scala

Windows环境下安装Spark并运行WordCount例子

牙郎 牙郎 发表于2024-04-27 浏览8533 评论0
一、Windows下安装Spark 1、提前安装Java JDK Java版本是1.8,不能是18,16,15或者其他版本。 2、提前安装Scala Scala版本是2.13.1版本。 3、安装Spark 准备好Hadoop软件包(hadoop-2.7.7)和Spark软件包(spark-2.2.0-bin-hadoop2.7)。 高级系统设置—>环境变量—>系统变量(选中Path) (接上一步)—>编辑—>新建(分别新建如下图所示变量