大数据

Flink【基础知识 01】简介+核心架构+分层API+集群架构+应用场景+特点优势(一篇即可大概了解Flink)

目前比较流行的大数据混合处理引擎 Spark【基于内存】,基本上已经取代了Hadoop 的 MapReduce 【基于IO】成为当前大数据处理的标准。Spark-Streaming 的流计算本质上还是批(微批)计算,Flink 是近年来在开源社区不断发展的技术中的能够同时支持高吞吐、低延迟、高性能的纯实时的分布式处理框架【Flink的开窗函数

Apache Spark vs Flink vs Airflow,谁才是数据湖ETL的终极利器?

第一章:Apache Spark vs Flink vs Airflow,谁才是数据湖ETL的终极利器?在构建现代数据湖架构时,ETL(提取、转换、加载)流程的选择直接决定了系统的实时性、可扩展性和运维复杂度。Apache Spark、Flink 和 Airflow 各自代表了不同的处理范式:Spar

带你对比三大主流消息队列RabbitMQ、RocketMQ以及Kafka

目录一、三大MQ该如何进行技术选型?二、三大MQ的吞吐量对比?三、三大MQ的低延迟对比?四、三大MQ的消息可靠性对比?五、三大MQ都是如何保障消息有序性的?六、三大MQ都是如何保障事务一致性的?七、三大MQ都是如何保障消费幂等性的?八、三大MQ都是如何处理消息积压问题的?九、三大MQ都是

OCR与大数据:CRNN处理海量文档的策略

OCR与大数据:CRNN处理海量文档的策略📖 技术背景:OCR文字识别在大数据场景下的挑战随着企业数字化进程加速,海量纸质文档、扫描件、发票、合同等非结构化数据亟需转化为可分析的文本信息。光学字符识别(OCR) 作为连接物理世界与数字世界的桥梁,已成为大数据预处理链路中的关键一环。传统OCR方案在面

仿 RabbitMQ 消息队列项目实战(一):入门必懂的 RabbitMQ 核心知识

前言:一、消息队列的背景 技术基础:由阻塞队列(BlockingQueue)封装而来,核心用于实现生产者消费者模型。 模型价值: 解耦合:降低系统模块间的依赖 削峰填谷:缓冲流量波动,保障系统稳定性 分布式场景适配:跨主机通信的常见需求&#xf

Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用

Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用 引言: 正文: 一、智能医疗影像数据的「三重困境」 1.1 数据洪流:存储成本的指数级增长 1.2 实时枷锁:远程医疗的传输瓶颈 1.3 质量红线:压缩与保真的矛盾 二、Java 大数据&#

RabbitMQ高级特性----生产者确认机制

题记:在Java微服务开发中,对于一个功能需要调用另一个服务下的功能才能实现的情况,我们通常会使用异步调用取代同步调用,进而实现增强业务的可拓展性和实现故障隔离以及流量削峰填谷的目的。而消息队列就是异步调用的解决方案之一。不过在使用消息队列实现异步调用的时候,可能会出现消息无法传递到位进而导致业务信息出现差异的情况&#xff0c

Kafka-King:重塑数据流管理的智能化革命

Kafka-King:重塑数据流管理的智能化革命 【免费下载链接】Kafka-King A modern and practical kafka GUI client 项目地址: 在数据驱动的时代,Kafka已经成为企业数据流处理的基石,但传统命令行工具

深入探索Hadoop:大数据时代的核心技术解析

起源故事Hadoop的诞生可以追溯到2002年,当时Apache Nutch项目的创始人Doug Cutting和Mike Cafarella正在构建一个开源的网络搜索引擎。他们面临的最大挑战就是如何存储和处理数十亿的网页数据。恰在此时,Google发表了关于Google文件系统(GFS)和MapReduce编程模型的两篇开创性论文&#xff

克服Flink SQL限制的混合API方法

克服Flink SQL限制的混合API方法 作者:Gal Krispel 翻译:黄鹏程 阿里云实时计算 Flink 版产品负责人 阅读时间:11分钟 · 2025年10月19日 译者注: 本博客文章探讨了 Apache Flink 中的混合 API 方法如何帮助克服 Flink SQL 的一些固有限制,特别是在与 Apache