×

后端

HDFS的读写流程步骤(附图文解析)(HDFS读写流程)

森宇 森宇 发表于2024-05-31 浏览15628 评论0
1、HDFS的写入流程: 详细步骤: client 发起文件上传请求,通过 RPC 与 NameNode 建立通讯,NameNode 检查目标文件是否已存在,父目录是否存在,返回是否可以上传; client 请求第一个 block 该传输到哪些 DataNode 服务器上; NameNode 根据配置文件中指定的备份数量及副本放置策略进行文件分配,返回可用的 DataNode 的地址,如:A,B,C; client 请求3台 DataNode 中的一台A上传数据(本质上是一个 RPC

架构

【深入浅出 Yarn 架构与实现】2-3 Yarn 基础库 - 服务库与事件库(yarn基本架构)

曜杨 曜杨 发表于2024-05-31 浏览4761 评论0
一个庞大的分布式系统,各个组件间是如何协调工作的?组件是如何解耦的?线程运行如何更高效,减少阻塞带来的低效问题?本节将对 Yarn 的服务库和事件库进行介绍,看看 Yarn 是如何解决这些问题的。 一、服务库 一)简介 对于生命周期较长的对象,Yarn 采用基于服务的模型对其进行管理,有以下几个特点: 基于状态管理:分为 4 个状态:NOTINITED(被创建)、INITED(已初始化)、 STARTED(已启动)、STOPPED(已停止)。 服务状态的变化会触发其他的操作。 可通

scala

Windows下Pycharm的Spark、Hadoop、Scala安装及常见报错(graphframes避坑、jupyter的文件位置更换、conda环境建立)

品胜河南永城门店 品胜河南永城门店 发表于2024-05-31 浏览4652 评论0
目录 软件安装 1、jdk安装 2、Anaconda安装 3、scala安装 4、Hadoop安装 5、Spark安装 6、安装sbt  包安装 1、安装py4j 2、安装pyspark 接下来是新建python项目 1、项目配置 2、使用graphframes库 项目环境 jdk1.8.0_333 python3.7.13 scala2.11.8 hadoop2.7.1 spark2.4.3-bin-hadoop2.7 我参考过的博客   wi

scala

zeppelin安装和配置(保姆级教程)

Langhing Langhing 发表于2024-05-30 浏览8752 评论0
zeppelin简单介绍: Zeppelin是一个基于Web的notebook,提供交互数据分析和可视化。支持多种数据引擎,如hive、spark等。还支持多种编程语言,如python、Scala等。 zeppelin安装前的准备工作: 1、虚拟机安装配置好jdk,如果不会安装可以跳转到脚本安装jdk保姆级教程 2、虚拟机安装配置好Hadoop,如果不会配置安装可以跳转到Hadoop配置保姆级教程 3、虚拟机安装配置好Hive,如果不会安装可以跳转到脚本安装hive保姆级教程 4、下载

分布式

配置hadoop集群常见报错汇总(配置hadoop集群常见报错汇总)

闲鱼之家 闲鱼之家 发表于2024-05-30 浏览6276 评论0
配置hadoop集群常见报错汇总1、使用hdfs namenode -format 格式化报错找不到JAVAHOME 该问题只需在对应的窗口导入JAVAHOME即可,注意,此处为对应环境安装的JDK路径,笔者为/usr/local/java [hadoop@hadoop0 var]$ export JAVA_HOME=/usr/local/java 鉴于每次执行都要导入,建议直接在对应的/XXX/hadoop-xxx/etc/hadoop/hadoop-env.sh 添加如下语句,可以免去这个麻

MYSQL教程

sqoop把hive中的数据导入mysql(sqoop导入数据到hive)

AB模板网 AB模板网 发表于2024-05-30 浏览6478 评论0
使用sqoop将hive中的数据导入mysql中 记录简单案例 首先开启集群: start-all.sh 在hive中建库建表,并插入一条数据来为自己做实验: 验证一下,是否插入成功: 在mysql中建表,并且要与hive中传过来的数据字段相对应: 建表后为空: 用sqoop将hive中的数据传到mysql中: export 导出数据, –connect 连接数据库的参数, –username root 是指用户名为root, test mysql中使用的数据库的库名, –

scala

3. 安装Scala并搭建spark(安装Scala)

站长资讯网友投稿帖 站长资讯网友投稿帖 发表于2024-05-30 浏览5583 评论0
目录 一、 配置Scala环境 1. 下载解压 2. 配置环境变量 3. 验证是否安装成功 二、 安装Spark 1. 下载解压spark-3.0.1-bin-without-hadoop.tgz 2. 配置环境变量 3. 配置文件 3.1 先复制一份spark-env.sh文件 3.2 编辑spark-env.sh 3.3 配置slaves文件(节点信息) 4. 向各节点发放配置 5. 启动Spark 6. 验证是否启动成功 6.1 查看进程 6.2 通过exa

架构

Hive架构简述及工作原理(hive原理与架构)

只沾花不惹草 只沾花不惹草 发表于2024-05-30 浏览6086 评论0
一、什么是Hive?   Hive是基于Hadoop的一个数据仓库管理工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL(HQL)查询功能。本质是将SQL转换为MapReduce程序(默认)。   直接使用Hadoop MapReduce处理数据所面临的问题: 学习成本高,MapReduce实现复杂查询功能开发难度大,使用Hive接口采用类SQL语法,提供快速开发的能力避免了去写MapReduce,减少开发人员的学习成本功能。 二、Hive架构及组件 用户接口:包括

scala

大数据中台架构以及建设全流程一(Paas层设计)(数据中台 架构)

来客神灯 来客神灯 发表于2024-05-30 浏览9228 评论0
目录 设计背景         问题点 中台目标            复用,赋能,降本增效  中台整体架构 Pass层技术选型         实时存储平台----------->KAFKA(未来pulsar也不错)         离线存储平台(Hadoop系列)               Hadoop选型   机架感知                硬件选型(PB级) 内存配置     资源计算 关键参数 存储平台常见故障 调度系统(Yarn) 管