大数据

头歌-Spark SQL 多数据源操作(Scala)

第1关:加载与保存操作编程要求 打开右侧代码文件窗口,在 Begin 至 End 区域补充代码,完善程序。读取本地文件 file:///data/bigfiles/demo.json,根据年龄字段 age 设置降序,输出结果。demo.json 文件内容如下所示:{"name": "zhan

Java 大视界 -- 基于 Java 的大数据实时流处理在金融高频交易数据分析中的应用(234)

       💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也期待你毫无保留地分享独特见解,愿我们于此携手成长,共赴新程&#xff

Hive数据仓库的远程连接

大家都知道Hive数据仓库如果能用远程连接工具进行连接操作的话,会方便很多,那么今天咱们就来聊一聊Hive数据仓库的远程连接。一、前期准备工作Hive数据仓库要远程连接,需要对个别文件进行修改配置。远程连接的hiveserver2服务和metastore服务,我会放在后面重点说。1、hive-site.xml文件(hive/co

Hadoop完全分布式集群搭建

一、修改主机名在Centos7中直接使用root用户执行hostnamectl命令修改,重启(reboot)后永久生效。之后重启mobaXterm二、修改连接会话的名称选中对应的连接——单击鼠标右键——rename session——输入会话的新名称即可三、关闭防火墙1.查看防火墙状态2.停止防火墙但是注意,这个命令只是暂时关闭防火墙&#xf

RabbitMQ 进阶

文章目录 一、发送者的可靠性 1.1 生产者重试机制: 1.2 生产者确认机制: 1.2.1 开启生产者确认: 1.2.2 定义 ReturnCallback: 1.2.3 定义 ConfirmCallback: 二、MQ 的可靠性 2.1 数据

大数据计算资源基础知识,以及5个核心技术讲解(hadoop、mapreduce、hive、spark、flink)

大数据计算资源基础知识 大数据处理基本背景大数据处理面临的主要挑战是数据量太大,无法在单台机器上高效处理。因此,需要分布式系统将数据和计算任务分散到多台机器上协同完成。根据处理方式和应用场景的不同,发展出了不同类型的计算资源。 批处理计算资源背景:最早的大数据处理方式,主要处理已经存储好的大量历史数据。 MapReduce&

FlinkSql入门与实践

一、为什么需要 Flink SQL? 传统 SQL 是面向静态数据的查询语言,而现代实时业务要求对动态数据流进行即时分析。Flink SQL 应运而生,它让开发者无需编写复杂的状态管理代码,就能实现实时ETL、复杂事件处理(CEP)、实时报表等场景。其核心优势在于: 统一流批接口:同

Text2SQL在Spark NLP中的实现与应用:将自然语言问题转换为SQL查询的技术解析

概述SQL 仍然是当前行业中最受欢迎的技能之一免责声明:Spark NLP 中的 Text2SQL 注释器在 v3.x(2021 年 3 月)中已被弃用,不再使用。如果您想测试该模块,请使用 Spark NLP for Healthcare 的早期版本。自新千年伊始,每日产生的数据量呈指数级增长。其中大部分数据存

Kafka 和 Flink的讲解

一、Kafka:分布式消息队列1. 核心概念 ​​角色​​:Kafka 是一个分布式、高吞吐量的​​消息队列​​(Pub-Sub 模型),用于实时传输数据流。 ​​关键术语​​: ​​Producer​​(生产者):发送数据的客户端(如传感器、应用日志)。 ​​Consumer​​(消费者):接收和处理数据的客户端(如 Flink、Spark)。 ​​Broker​​

kafka支持内外网访问

一、需求描述本次搭建单机版Kafka与Kafka集群,每台机器中有内网+外网 单机版 Kafka服务地址:192.168.1.52:9093,外网地址:2.186.2.86:9092 zookeeper服务地址:192.168.1.52:2181,外网地址:2.186.2.86:2181 集