大数据

标签计算引擎(Flink/Spark)选型

海量标签计算在实际业务落地中面临多重核心难点,直接决定了分布式计算引擎的选型方向。其一,数据规模与并发压力大,标签计算需处理TB/PB级海量用户、商品、设备数据,且包含高并发实时流数据(如峰值时段用户行为日志)与海量静态历史数据,对引擎的吞吐量和并发处理能力提出极高要求。其二,延迟与准确

探索大数据领域Spark的分布式计算性能提升方法

Spark分布式计算性能调优全攻略:从原理到实践的12个关键方法副标题:解决Shuffle慢、资源浪费、任务倾斜的实战指南 摘要/引言你有没有遇到过这样的场景? 写好的Spark任务跑到一半卡住,盯着日志看“Shuffle Read”进度半天不动; 明明给了10个Executor,却只有2个在干活,

NIFI【应用 02】1.28.1版本使用实例分享(GetFile、SplitText、ExtractText、PublishKafkaRecord_2_6)配置使用及模板分享(txt文件解析)

Apache NIFI 安装过程可参考《一篇学会部署NIFI》中文文档地址 内容很是详细,大家可以参考。没有中文文档的可查看官方文档 NIFI 新手,一些配置或者处理器本身的使用可能存在一些问题,发现的小伙伴儿请不吝赐教。 txt文件解析实例

RabbitMQ与Celery深度集成:构建高性能Python异步任务系统

目录摘要1 引言:为什么现代Python项目需要消息队列1.1 消息队列的核心价值1.2 RabbitMQ与Celery的协同优势2 RabbitMQ核心原理深度解析2.1 AMQP协议与消息模型2.1.1 Exchange类型与路由机制2.1.2 消息持久化与可靠性2.2 高级消息模式2.2.1 死信队列与延迟消息2.2.2 优先级队列3 Celery架构与核心机制3.1 Cele

基于 Kafka 的医嘱事件架构

一:为什么要用事件总线 解耦:把 HIS 的业务事实(医嘱、执行、记账)解耦为事件,病案、计费、质控、DRG 等系统通过消费同一条事实构建各自视图 可回放 / 恢复:事件可以持久化并重放,用于补录、补算或回放历史 高吞吐与扩展:Kafka 能天然横向扩展&#xff0c

Java 大视界 -- Java 大数据在智慧交通停车场智能管理与车位预测中的应用实践

Java 大视界 -- Java 大数据在智慧交通停车场智能管理与车位预测中的应用实践 引言: 正文: 一、智慧交通停车场现状与挑战 1.1 停车场管理现状 1.2 车位预测挑战 二、Java 大数据在停车场智能管理中的应用 2.1 数据采集与整合 2.2 智能收费系统 2.3 车位引导系统 三、Ja

【大数据】Hadoop 2.X和1.X升级优化对比

目录1.前言2.hadoop 1.X的缺点和优化方向3.解决NameNode的局限性3.1.Hadoop HA3.2.Haddop federation4.yarn5.周边组件1.前言本文是作者大数据系列中的一文,专栏地址:#前文中我们从大数据的概论入手、分别聊了分布式文件系统的鼻祖GFS、分布式数据库的鼻祖Big Table、hadoop中的分布式文件系统HDFS、计

Spark 4.0的VariantType 类型以及内部存储

背景本文基于Spark 4.0 总结Spark中的 VariantType 类型,用尽量少的字节来存储Json的格式化数据 分析这里主要介绍 Variant 的存储,我们从VariantBuilder.buildJson方法(把对应的json数据存储为VariantType类型)开始:public static Variant parseJson(Jso

2026时序数据库选型全指南:大数据场景下的国产最优解,IoTDB实力领跑

在数字化转型全面深化的今天,工业物联网、智慧城市、智能电网、新能源监测等领域产生的时序数据呈现指数级爆发式增长。这类数据具备实时性强、产生频率高、数据量大、结构稳定且侧重时序查询的核心特征,传统关系型数据库早已无法承载其存储、查询与分析需求,时序数据库(Time-Series Database) 成为大数据架构中不可或缺的

Hadoop3.3.5伪分布式集群搭建(Ubuntu系统)

环境准备 系统要求:Ubuntu 20.04/22.04 LTS 软件版本: Hadoop 3.3.5 JDK 8 硬件要求:至少4GB内存,20GB磁盘空间 详细步骤1.安装Vim编辑器后续需要更改一些配置文件,我比较喜欢用的是 vim(vi增强版,基本用法相同&#xf