大数据

ZooKeeper 单机模式至多集群模式安装配置实战指南 + 核心架构解析

肖哥弹架构 跟大家“弹弹” Zookeeper 设计与实战应用,需要代码关注 欢迎 关注,点赞,留言。 关注公号Solomon肖哥弹架构获取更多精彩内容 历史热点文章 MyCat应用实战:分布式数据库中间件的实践与优化(篇幅一) 图解深度剖析:MyCat 架构设计与组件协同 &#xf

一文说清楚Hive中常用的聚合函数[collect_list]

collect_list(col)是Hive中常用的聚合函数,用于将分组内的某列值(col)收集到一个数组中。它的核心作用是将多行数据合并为单行的数组结构,常用于数据重组或复杂分析场景。以下是详细说明和示例: 一、函数特点 分组聚合:需配合GROUP BY使用,将每个分组内的col值收集为数组。

Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理

摘要:本文整理自阿里云的高级技术专家、Apache Flink PMC 成员李麟老师在 Flink Forward Asia 2025 新加坡[1]站 —— 实时 AI 专场中的分享。将带来关于 Flink 2.1 版本中 SQL 在实时数据处理和 AI 方面进展的话题。 Tips:点击「阅读原文」跳转阿里云实时计算 Flink~ Flink

【Java-ZooKeeper】ZooKeeper 是如何实现分布式事务的?

ZooKeeper 如何实现分布式事务? 1. 核心机制:ZAB 协议(ZooKeeper Atomic Broadcast) ZooKeeper 通过 ZAB 协议保证分布式事务的原子性和一致性。ZAB 协议类似于两阶段提交(2PC),但更高效: Leader 选举:

深入探索【Hadoop】生态系统:Hive、Pig、HBase及更多关键组件(上)

🐇明明跟你说过:个人主页🏅个人专栏:《大数据前沿:技术与应用并进》🏅🔖行路有良友,便是天堂🔖目录一、引言1、Hadoop简介2、Hadoop生态系统的构成概览 3、Hadoop在大数据处理中的应用价值二、Hive:SQL on Hadoop1、Hiv

一、Spark专栏开篇:它从何而来,为何而生,凭何而强?

作者:IvanCodes 日期:2025年7月18日 专栏:Spark教程 在大数据的世界里,如果说 Hadoop 是一位力大无穷但步履稳健的巨人,那么 Apache Spark 就是一位身手敏捷、快如闪电的超级英雄。凭借其惊人的速度、一专多能的本领和简单易用的操作,Spark 迅速成为了处理海量数据的明星

Hive 常见配置类报错与解决方案速查手册

Hive 常见配置类报错与解决方案速查手册 前言在使用 Hive 处理数据时,我们常常会因为数据规模、SQL 复杂度或集群环境的差异,遇到各种各样的报错。其中,很大一部分问题并非 SQL 逻辑错误,而是与 Hive 的执行配置息息相关。这些配置决定了 Hive 如何分配资源、如何优化 SQL、以及如何执行任务。本文档根据常见的配置类报错信息

详解RabbitMQ多机多节点搭建集群

目录RabbitMQ多机多节点搭建集群安装RabbitMQ配置hosts文件配置Erlang Cookie构建集群查看集群状态常见问题RabbitMQ多机多节点搭建集群安装RabbitMQ安装RabbitMQ的步骤可参考之前的博客文章。安装好RabbitMQ之后,使用如下命令确定节点状态: rabbitmqctl status    #确认节点状态 可以查看到节点