大数据

大数据计算资源基础知识,以及5个核心技术讲解(hadoop、mapreduce、hive、spark、flink)

大数据计算资源基础知识 大数据处理基本背景大数据处理面临的主要挑战是数据量太大,无法在单台机器上高效处理。因此,需要分布式系统将数据和计算任务分散到多台机器上协同完成。根据处理方式和应用场景的不同,发展出了不同类型的计算资源。 批处理计算资源背景:最早的大数据处理方式,主要处理已经存储好的大量历史数据。 MapReduce&

RabbitMQ 进阶

文章目录 一、发送者的可靠性 1.1 生产者重试机制: 1.2 生产者确认机制: 1.2.1 开启生产者确认: 1.2.2 定义 ReturnCallback: 1.2.3 定义 ConfirmCallback: 二、MQ 的可靠性 2.1 数据

Hadoop完全分布式集群搭建

一、修改主机名在Centos7中直接使用root用户执行hostnamectl命令修改,重启(reboot)后永久生效。之后重启mobaXterm二、修改连接会话的名称选中对应的连接——单击鼠标右键——rename session——输入会话的新名称即可三、关闭防火墙1.查看防火墙状态2.停止防火墙但是注意,这个命令只是暂时关闭防火墙&#xf

Hive数据仓库的远程连接

大家都知道Hive数据仓库如果能用远程连接工具进行连接操作的话,会方便很多,那么今天咱们就来聊一聊Hive数据仓库的远程连接。一、前期准备工作Hive数据仓库要远程连接,需要对个别文件进行修改配置。远程连接的hiveserver2服务和metastore服务,我会放在后面重点说。1、hive-site.xml文件(hive/co

Java 大视界 -- 基于 Java 的大数据实时流处理在金融高频交易数据分析中的应用(234)

       💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也期待你毫无保留地分享独特见解,愿我们于此携手成长,共赴新程&#xff

头歌-Spark SQL 多数据源操作(Scala)

第1关:加载与保存操作编程要求 打开右侧代码文件窗口,在 Begin 至 End 区域补充代码,完善程序。读取本地文件 file:///data/bigfiles/demo.json,根据年龄字段 age 设置降序,输出结果。demo.json 文件内容如下所示:{"name": "zhan

Hadoop•HDFS的Java API操作

听说这是目录哦 上传文件到HDFS🌈 一、下载Windows版本的JDK和Hadoop 二、配置物理机环境变量 三、创建项目 四 、添加依赖 五、新建java类 六、创建文件 七、打开集群 八、选中、运行 从HDFS下载文件🪐 一、写代码 二、HDFS要个文件 三、物理机要个文件夹(目录) 四、运行代码

一文搞懂Flink 的 Materialized Table:简化数据管道的利器

你好,我是 shengjk1,多年大厂经验,努力构建 通俗易懂的、好玩的编程语言教程。 欢迎关注!你会有如下收益: 了解大厂经验 拥有和大厂相匹配的技术等 希望看什么,评论或者私信告诉我! 文章目录 一、背景 二、Materialized Table 优势 (一&#xff

RabbitMQ如何保证消息不丢失?

在 RabbitMQ 中保证消息不丢失需要从 ​生产者端、Broker端 和 ​消费者端 三个环节进行可靠性设计,以下是具体方案及实现方法:​我们使用RabbitMQ来确保MySQL和Redis间数据双写的一致性,这要求我们实现消息的高可用性,具体措施包括: 开启生产者确认机制,确保消息能被送达队列&#xff0c