×

scala

Spark环境搭建安装及配置详细步骤(保姆教程)(spark安装与配置)

源码代售 源码代售 发表于2024-05-31 浏览6897 评论0
Spark 作为一个数据处理框架和计算引擎 1 Spark-Local 模式 1.1 解压缩文件  将 spark-2.1.1-bin-hadoop3.2.tgz 文件上传到 Linux 并解压缩,放置在指定位置,路径中。  tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/apps/ cd /opt/apps/ mv spark-2.1.1-bin-hadoop2.7 spark-local  1.2 启动 Local 环境  1) 进入

scala

大数据技术Flink开发环境准备和API代码案例(大数据开发之Flink从入门到精通)

IPASS IPASS 发表于2024-05-31 浏览5454 评论0
1、Flink简介 看到下面这只可爱的松鼠,显然它不仅是一直普通的松鼠,它还是Flink的项目logo,我们都知道计算机领域很多应用和项目都会使用一只动物作为代表。先来看看这只小动物的意义! 在德语中,Flink 一词表示快速和灵巧,项目采用一只松鼠的彩色图案作为 logo与之呼应,因为柏林的松鼠有一种迷人的红棕色,而 Flink 的松鼠 logo 拥有可爱的尾巴,尾巴的颜色与 Apache 软件基金会的 logo 颜色相呼应,也就是说,这是一只 Apache 风格的松鼠

scala

Spark学习笔记02:Scala安装(spark scala教程)

indexie indexie 发表于2024-05-31 浏览8154 评论0
目录 一、在线运行Scala 二、选择Scala版本 三、在Windows上安装Scala (一)、到Scala官网下载Scala ​(二)、安装Scala (三)、配置Scala环境变量 (四)、测试Scala是否安装成功 1、查看Scala版本 2、启动Scala,执行语句 五、在Linux上安装Scala (一)、到Scala官网下载Scala (二)、安装Scala 1、上传scala安装包到master虚拟机 2、解压scala安装包到指定目录 (三)、配

后端

HDFS的读写流程步骤(附图文解析)(HDFS读写流程)

森宇 森宇 发表于2024-05-31 浏览15628 评论0
1、HDFS的写入流程: 详细步骤: client 发起文件上传请求,通过 RPC 与 NameNode 建立通讯,NameNode 检查目标文件是否已存在,父目录是否存在,返回是否可以上传; client 请求第一个 block 该传输到哪些 DataNode 服务器上; NameNode 根据配置文件中指定的备份数量及副本放置策略进行文件分配,返回可用的 DataNode 的地址,如:A,B,C; client 请求3台 DataNode 中的一台A上传数据(本质上是一个 RPC

scala

安装Scala(安装Scala之前必须配置JDK)

朱朱朱、 朱朱朱、 发表于2024-05-31 浏览5032 评论0
一、选择Scala版本 在master虚拟机上安装Spark2.1.1 二、Windows上安装Scala 到Scala官网下载Scala (1)Scala2.11.12下载网址: https://www.scala-lang.org/download/2.11.12.html (2)单击单击【Scala-2.11.12.msi】超链接,将Scala下载下来 安装Scala (1)双击,进入安装向导,按提示进行操作,完成Scala的安装 配置Scala环境变量 (1)设置

scala

键值对操作(什么叫键值对)

?₂₀₀₁₁₁₀₁ ?₂₀₀₁₁₁₀₁ 发表于2024-05-31 浏览4981 评论0
1 Pair RDD 键值对RDD是Spark中许多操作所需要的常见数据类型。spark为包含键值对类型的RDD提供了一些专有的操作,这些RDD被称为pair RDD。比如,pair RDD提供reduceByKey()方法,可以分别归约每个键对应的数据。 在spark中有很多种创建pair RDD的方式,比如很多存储键值对的数据格式会在读取时直接返回由其健值对数据组成的pair RDD。此外,当需要把一个普通的RDD转为pair RDD时,可以调用map()函数来实现,传递的函数需

scala

明翰大数据Spark与机器学习笔记V0.1(持续更新)(大数据处理spark)

马斯 马斯 发表于2024-05-31 浏览4246 评论0
Spark https://spark.apache.org/docs Apache Spark as a central tool for mining and analytics in big data. Spark使用DAG(有向无环图)模型作为其执行模型, 并且主要使用内存计算的方式进行任务计算。 Spark基于一套统一的数据模型(RDD)和编程模型(Transformation/Action)。 Spark是Apache软件基金会的顶级项目, 在Hadoop Ma

scala

Spark下载与入门(spark下载教程)

hello hello 发表于2024-05-31 浏览6404 评论0
1 下载Spark 下载和解压缩,首选下载预编译版本的Spark,访问:Spark download,选择包类型为:“Pre-built for Apache Hadoop 3.2 and later",然后直接下载Spark包:spark-3.1.2-bin-hadoop3.2.tgz。下载好后,对包进行解压缩,并且进入到spark目录中: cd ~ tar -xf spark-3.1.2-bin-hadoop3.2.tgz cd spark-3.1.2-bin-hadoop3.

scala

SparkStreaming业务逻辑处理的一些高级算子

田小会 田小会 发表于2024-05-31 浏览4641 评论0
1、reduceByKey   reduceByKey 是按key进行计算,操作的数据是每个批次内的数据(一个采集周期),不能跨批次计算。如果需要实现对历史数据的跨批次统计累加,则需要使用updateStateByKey算子或者mapWithState算子。 package com.sparkscala.streaming import org.apache.log4j.{Level, Logger} import org.apache.spark.streaming.dstream.{

scala

zeppelin安装和配置(保姆级教程)

Langhing Langhing 发表于2024-05-30 浏览8752 评论0
zeppelin简单介绍: Zeppelin是一个基于Web的notebook,提供交互数据分析和可视化。支持多种数据引擎,如hive、spark等。还支持多种编程语言,如python、Scala等。 zeppelin安装前的准备工作: 1、虚拟机安装配置好jdk,如果不会安装可以跳转到脚本安装jdk保姆级教程 2、虚拟机安装配置好Hadoop,如果不会配置安装可以跳转到Hadoop配置保姆级教程 3、虚拟机安装配置好Hive,如果不会安装可以跳转到脚本安装hive保姆级教程 4、下载

scala

Spark 之 RDD行动算子(spark rdd的常用算子)

田小会 田小会 发表于2024-05-30 浏览5768 评论0
前言 本文介绍Spark三大数据结构之一的RDD的行动算子,通过配合案例使读者更加深刻的了解各大行动算子的作用及其使用方法; Spark 知识系列文章    此处罗列了有关Spark相关知识的其他文章,有需要的可以进行点击查阅。    Spark 之 Spark框架及部署    Spark 之Spark三大数据结构    Spark 之 RDD转换算子    Spark 之 SparkSQL    Spark 之 SparkStreaming 一

scala

大数据之Scala 流程控制完整使用(第四章)(scala流程控制结构)

timeduoduoba timeduoduoba 发表于2024-05-30 浏览4223 评论0
一、 分支控制 if-else 让程序有选择的的执行,分支控制有三种:单分支、双分支、多分支 1、(单)分支 1)基本语法 if (条件表达式) { 执行代码块 } 说明:当条件表达式为 ture 时,就会执行{ }的代码。 2)案例实操 package chapter04 import scala.io.StdIn object Test01_IfElse { def main(args: Array[String]): Unit = {