×

scala

scala的至简原则(scala定义方法)

dfgdg dfgdg 发表于2024-05-22 浏览4994 评论0
1)至简原则细节 (1)return可以省略,Scala会使用函数体的最后一行代码作为返回值 (2)如果函数体只有一行代码,可以省略花括号 (3)返回值类型如果能够推断出来,那么可以省略(:和返回值类型一起省略) (4)如果有return,则不能省略返回值类型,必须指定 (5)如果函数明确声明unit,那么即使函数体中使用return关键字也不起作用 (6)Scala如果期望是无返回值类型,可以省略等号 (7)如果函数无参,但是声明了参数列表,那么调用时,小括号,可加可不加 (8

scala

spark java集合转scala_将List转换为dataframe spark scala

渲之你 渲之你 发表于2024-05-22 浏览4155 评论0
List(“a”,“b”,“c”,“d”)表示具有一个字段的记录,因此结果集在每行中显示一个元素. 要获得预期的输出,该行应该包含四个字段/元素.因此,我们将列表包装为List((“a”,“b”,“c”,“d”)),它代表一行,包含四个字段. 以类似的方式,具有两行的列表作为List((“a1”,“b1”,“c1”,“d1”),(“a2”,“b2”,“c2”,“d2”)) scala> val list = sc.parallelize(List(("a", "b", "c",

scala

创建项目并初始化业务数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(六)

和煦的糖果风 和煦的糖果风 发表于2024-05-22 浏览6275 评论0
系列文章目录 初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一) 利用用户行为数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(二) 项目主要效果展示——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(三) 项目体系架构设计——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(四) 基础环境搭建——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(五) 创建项目并初始化业务数据——基于Spark平台的协同过滤实时电影推荐

scala

详细讲解RDD概念以及核心结构(简述RDD概念)

雪先生 雪先生 发表于2024-05-21 浏览4793 评论0
前言 本期将介绍 Spark 中一个抽象的概念——RDD,要学习 Spark 就必须对 RDD 有一个清晰的认知,RDD是 Spark 中最基本的数据抽象,代表一个不可变、可分区、元素可并行计算的集合。 本期学习目标 RDD 的概念 RDD 的特点 RDD 的核心结构 RDD的概念 RRD全称叫做弹性分布式数据集(Resilient Distributed Dataset),从它的名字中可以拆解出三个概念。 Resilient :弹性的,包括存储和计算

scala

Spark05:【案例】单词计数:Scala代码和Java代码实现以及任务提交的几种方式

?俊码 ?俊码 发表于2024-05-21 浏览4910 评论0
一、单词计数 首先看来一个快速入门案例,单词计数 这个需求就是类似于我们在学习MapReduce的时候写的案例 需求这样的:读取文件中的所有内容,计算每个单词出现的次数 这个需求就没什么好分析的了,咱们之前在学习MapReduce的已经分析过了,接下来就来看一下使用Spark需要如何实现。 注意:由于Spark支持Java、Scala这些语言,目前在企业中大部分公司都是使用Scala语言进行开发,个别公司会使用java进行开发,为了加深大家对Spark的理解,也满足java老程序员的需

scala

Scala,spark,Kafka,storm配置(1+x)

行者 行者 发表于2024-05-21 浏览5655 评论0
目录 Scala与spark部署 Kafka部署 Storm部署 Scala与spark部署 配置环境变量       解压文件 改名       生效环境变量       检验Scala是否能使用       按CTRL+C退出       配置spark文件       新建文件并写入       分发环境变量,并到另外两台机器使环境变量生效       分发文件       三台机器启动z

scala

源码解析Spark各个ShuffleWriter的实现机制(四)——UnsafeShuffleWriter

?? ?? 发表于2024-05-21 浏览4990 评论0
基于3.2源码。 UnsafeShuffleWriter的应用场景 它用在对序列化数据直接排序的场景,避免了将数据反序列化后排序,再序列化的开销。它是对数据的分区id进行排序,并不会对数据的key排序。 这个shuffle方式大量使用到了sun.misc.Unsafe来与操作系统打交道,直接操作内存。 实现 整体流程 UnsafeShuffleWriter的实现封装地看起来十分简单: // UnsafeShuffleWriter public void write(scala

scala

spark配置(spark配置参数详解)

UPARK UPARK 发表于2024-05-21 浏览5674 评论0
前提:关闭防火墙 禁止下次开机启动, 并不会关闭防火墙 命令 : chkconfig iptables off 关闭防火墙 命令 : service iptables stop contos7 关闭防火墙命令 sudo systemctl stop firewalld.service 一、上传 scala-2.10.4.zip 和 spark-2.0.2-bin-hadoop2.6.tgz 包 并解压 目录:D:\java\1笔记资料及资源\大数据Ha