×

scala

spark读取hdfs路径下的数据_项目实战从0到1之Spark(2)Spark读取和存储HDFS上的数据...

hello hello 发表于2024-05-10 浏览3791 评论0
本篇来介绍一下通过Spark来读取和HDFS上的数据,主要包含四方面的内容:将RDD写入HDFS、读取HDFS上的文件、将HDFS上的文件添加到Driver、判断HDFS上文件路径是否存在。 1、启动Hadoop 首先启动咱们的Hadoop,在hadoop的目录下执行下面的命令: 查看是否启动成功: 2、将RDD写入HDFS 先创建一个SparkSession: 将RDD写入HDFS使用的函数是saveAsTextFile: 接下来,我们查看一下是否保存成功: 可以看