大数据 - 小智博客

Pyspark学习一：概述

PySpark 介绍 & 为什么使用 PySpark 官方文档： 1. PySpark 是什么？ PySpark 是 Apache Spark 的 Python API，提供了大规模分布式计算能力，用于处理大数据。 Spark 本身是

大数据 2025年04月17日 157 点赞 0 评论 10184 浏览

Flink 1.14.6 版本 lib 目录依赖Jar包资源

Flink 1.14.6 版本 lib 目录依赖Jar包资源【下载地址】Flink1.14.6版本lib目录依赖Jar包资源该项目为 Flink 1.14.6 版本提供了完整的 lib 目录依赖 Jar 包资源，涵盖了数据库连接器、SQL 连接器、分布式计算及模拟数据生成等核心功能。包括 flink-connector-jdbc、flink-doris-connector、f

大数据 2025年05月23日 175 点赞 0 评论 10140 浏览

标签计算引擎（Flink/Spark）选型

海量标签计算在实际业务落地中面临多重核心难点，直接决定了分布式计算引擎的选型方向。其一，数据规模与并发压力大，标签计算需处理TB/PB级海量用户、商品、设备数据，且包含高并发实时流数据（如峰值时段用户行为日志）与海量静态历史数据，对引擎的吞吐量和并发处理能力提出极高要求。其二，延迟与准确

大数据 2026年04月11日 157 点赞 0 评论 10125 浏览

NIFI【应用 02】1.28.1版本使用实例分享（GetFile、SplitText、ExtractText、PublishKafkaRecord_2_6）配置使用及模板分享（txt文件解析）

Apache NIFI 安装过程可参考《一篇学会部署NIFI》中文文档地址内容很是详细，大家可以参考。没有中文文档的可查看官方文档 NIFI 新手，一些配置或者处理器本身的使用可能存在一些问题，发现的小伙伴儿请不吝赐教。 txt文件解析实例

大数据 2025年11月23日 115 点赞 0 评论 10045 浏览

探索大数据领域Spark的分布式计算性能提升方法

Spark分布式计算性能调优全攻略：从原理到实践的12个关键方法副标题：解决Shuffle慢、资源浪费、任务倾斜的实战指南摘要/引言你有没有遇到过这样的场景？ 写好的Spark任务跑到一半卡住，盯着日志看“Shuffle Read”进度半天不动； 明明给了10个Executor，却只有2个在干活，

大数据 2025年12月14日 125 点赞 0 评论 10026 浏览

基于 Kafka 的医嘱事件架构

一：为什么要用事件总线解耦：把 HIS 的业务事实（医嘱、执行、记账）解耦为事件，病案、计费、质控、DRG 等系统通过消费同一条事实构建各自视图可回放 / 恢复：事件可以持久化并重放，用于补录、补算或回放历史高吞吐与扩展：Kafka 能天然横向扩展&#xff0c

大数据 2026年03月23日 138 点赞 0 评论 9957 浏览

RabbitMQ与Celery深度集成：构建高性能Python异步任务系统

目录摘要1 引言：为什么现代Python项目需要消息队列1.1 消息队列的核心价值1.2 RabbitMQ与Celery的协同优势2 RabbitMQ核心原理深度解析2.1 AMQP协议与消息模型2.1.1 Exchange类型与路由机制2.1.2 消息持久化与可靠性2.2 高级消息模式2.2.1 死信队列与延迟消息2.2.2 优先级队列3 Celery架构与核心机制3.1 Cele

大数据 2026年02月04日 76 点赞 0 评论 9954 浏览

【大数据】Hadoop 2.X和1.X升级优化对比

目录1.前言2.hadoop 1.X的缺点和优化方向3.解决NameNode的局限性3.1.Hadoop HA3.2.Haddop federation4.yarn5.周边组件1.前言本文是作者大数据系列中的一文，专栏地址：#前文中我们从大数据的概论入手、分别聊了分布式文件系统的鼻祖GFS、分布式数据库的鼻祖Big Table、hadoop中的分布式文件系统HDFS、计

大数据 2025年11月26日 100 点赞 0 评论 9877 浏览

Java 大视界 -- Java 大数据在智慧交通停车场智能管理与车位预测中的应用实践

Java 大视界 -- Java 大数据在智慧交通停车场智能管理与车位预测中的应用实践引言： 正文： 一、智慧交通停车场现状与挑战 1.1 停车场管理现状 1.2 车位预测挑战二、Java 大数据在停车场智能管理中的应用 2.1 数据采集与整合 2.2 智能收费系统 2.3 车位引导系统三、Ja

大数据 2025年11月17日 111 点赞 0 评论 9877 浏览

掌握大数据领域数据架构，开启数据新征程

掌握大数据领域数据架构，开启数据新征程关键词：大数据架构、数据湖、数据仓库、数据治理、湖仓一体、元数据管理、实时处理摘要：在数据爆炸的时代，数据架构是企业挖掘数据价值的“地基”。本文将用超市管理货物的故事类比，从数据架构的核心概念讲起，逐步拆解数据湖、数据仓库、数据治理等关键组件的关系，结合电商实战案例和代码示例，帮你掌握设计高效数据架构的方法，开启数据价值挖掘的新征程。背

大数据 2026年05月21日 88 点赞 0 评论 9854 浏览

大数据

首页

IT互联网

大数据

列表

默认

浏览次数

发布时间