大数据 - 小智博客

17-HadoopYARN-2

1.如何理解资源调度器Scheduler RM Resource Manager ２.三种调度器2.1 先进先出调度器 FIFO Scheduler 先提交的应用先运行优势： 无需配置先到先得易于执行坏处： 任务的优先级不会变高,高优先级的作业也需要等待不适合集群共享 2.2 容量调度器 Capacity

大数据 2026年03月03日 57 点赞 0 评论 1364 浏览

大数据领域分布式存储的语言数据存储与处理

大数据领域分布式存储的语言数据存储与处理关键词：大数据、分布式存储、语言数据处理、Hadoop、Spark、NoSQL、数据分片摘要：本文深入探讨了大数据领域中语言数据的分布式存储与处理技术。我们将从基础概念出发，分析分布式存储系统的架构原理，详细讲解语言数据处理的特殊挑战和解决方案，并通过实际代码示例展示如何高效地存储和处理大规模语言数据。文章还将介绍当前主流的技术框架和工具，

大数据 2026年03月03日 195 点赞 0 评论 5374 浏览

大数据领域：数据清洗助力数据质量提升

大数据领域：数据清洗助力数据质量提升关键词：数据清洗、数据质量、缺失值处理、异常值检测、重复数据、噪声数据、数据标准化摘要：在大数据时代，“数据是新石油"的说法已深入人心，但未经处理的原始数据更像"未提炼的原油”——混杂着杂质，无法直接使用。本文将以"数据清洗"为核心&#xf

大数据 2026年03月03日 71 点赞 0 评论 10917 浏览

大数据数据服务中的连接池优化

大数据数据服务中的连接池优化关键词：大数据、连接池、性能优化、资源管理、并发控制、连接泄漏、连接复用摘要：本文将深入探讨大数据环境中连接池的关键作用及其优化策略。我们将从基础概念出发，逐步分析连接池的工作原理，探讨如何通过合理配置和优化连接池来提升大数据服务的性能和可靠性。文章包含实际代码示例、性能调优技巧和最佳实践，帮

大数据 2026年03月03日 92 点赞 0 评论 6808 浏览

Flink Checkpoints 深入解读存储选型、目录结构与“保留检查点”实战

1. Checkpoint 是什么：状态 + 位点的一致性快照开启 checkpointing 后，Flink 会周期性触发快照： 把 managed state 持久化同时记录对应的 stream positions（例如 Kafka offset） 恢复时： Job 从最新成功 checkpoint

大数据 2026年03月02日 112 点赞 0 评论 3405 浏览

全新软件与模型优化为 NVIDIA DGX Spark 注入强大动力

作者：Allen Bourgoyne自发布以来，NVIDIA 通过持续的软件优化以及与软件合作伙伴和开源社区的紧密协作，不断提升基于 Grace Blackwell 架构的 DGX Spark 的性能。这些举措在推理、训练和创意工作流方面都取得了显著的成效。在 CES 2026 上，全新的 DGX Spark 软件版本结合新的模型更新和开源库

大数据 2026年03月02日 63 点赞 0 评论 19096 浏览

计算机毕业设计hadoop+spark+hive旅游推荐系统旅游可视化系统地方旅游网站旅游爬虫旅游管理系统大数据毕业设计机器学习深度学习知识图谱

温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 技术范围：SpringBoot、Vue、爬虫、数据可视化、小程序、安卓APP、大数

大数据 2026年03月02日 68 点赞 0 评论 17640 浏览

Hadoop学习心得

【Hadoop 深度学习】拆解分布式存储与计算的底层逻辑（作为大数据技术栈的 “基石”，Hadoop 的核心组件（HDFS、MapReduce、YARN）是课程的重中之重。经过近两周的理论学习 + 集群实操，我终于从 “只会敲命令” 进阶到 “理解底层逻辑”，这篇心得带你从原理→实操→避坑全方位吃透 Had

大数据 2026年03月02日 200 点赞 0 评论 17637 浏览

ZAB 协议深度解析：ZooKeeper 分布式一致性的核心

目录一、背景：ZooKeeper 需要什么样的一致性？二、ZAB 的架构基础2.1 集群角色2.2 两种工作模式2.3 核心数据结构：zxid三、崩溃恢复模式：Leader 选举3.1 选举触发条件3.2 FastLeaderElection 算法3.3 防止脑裂四、崩溃恢复模式：数据同步4.1 同步前的准备：确定

大数据 2026年03月02日 146 点赞 0 评论 15202 浏览

大数据存算分离架构下的资源调度优化策略

大数据存算分离架构下的资源调度优化策略关键词：存算分离、资源调度、弹性扩展、数据本地化、负载均衡、智能调度、分布式系统摘要：随着大数据技术的普及，存算分离架构因其高灵活性和成本效益成为主流选择。本文深入剖析存算分离架构下资源调度的核心挑战，系统阐述基于数据本地化、负载均衡、弹性扩展的优化策略。通过数学建模、算法实现和实战案例&#xff

大数据 2026年02月28日 169 点赞 0 评论 12825 浏览

大数据

首页

IT互联网

大数据

列表

默认

浏览次数

发布时间