人工智能

Apache Doris vs Clickhouse vs Greenplum

架构比对 Apache Doris、Clickhouse 、Greenplum都是基于MPP架构的实现的可用于数仓分析的数据库管理系统。下边通过具体的架构设计分析三者的区别。 Apache Dodis 官网描述 Apache Doris是一个现代化的MPP分析型数据库产品。 架构图 主从架构 架构描述 1. 高可靠 Apache Doris 使用了主从架构进行设计。通过Fronted

265. 【数据库运维】hdfs,10T硬盘被撑爆

最近遇到一个很坑,我一个 6 节点的分布式数据库,一个节点 10T 的硬盘,经过一层又一层的手动翻 hdfs 本地目录去找大文件,终于找到源头,一个 dncp-block-verification.log.curr 占了 5.6T,心中一个个问号冒出来时,非常义愤填膺:这玩意也能撑这么大?比我数据文件还要大? image.png 今天才假期第二天,客户那边就来催了,“解决方案商量好了吗

R可视化——图形绘制过程中如何实现局部放大?

数据及基础图形的绘制 1、数据——以R自带数据集iris为例 df<-iris image.png 2、基于ggplot2包绘制散点图 #加载绘图包 library(ggplot2) library(ggthemes) #绘图 p<-ggplot(df, aes(Sepal.Length, Sepal.Width, color = Species)) + geom_p

华为十年架构师实战经验总结:大规模分布式系统架构与设计实战

前言 本篇是从程序员到首席架构师十多年职业生涯的实战经验总结,系统讲解构建大规模分布式系统的核心技术与实现方法,包含开源的Fourinone系统的设计与实现过程,手把手教你掌握分布式技术。 通过学习这个系统的实现方法与相关的理论,读者可快速掌握分布式系统的理论并设计自己的分布式系统。 image.png 本篇从分布式计算的基本概念开始,解剖了众多流行概念的本质,深入讲解分布式系统的基本

72、重要的事情

苏菲想知道,周青子接下来还会说些什么? 苏菲仔细的想了想周青子和自己的关系,觉得自己还是有必要的将她的信件在看看······想知道周青子还会说出什么样让自己不痛快的话来。 因为已经受过了一次的好朋友的打击,再次重新的阅读这封信的前半部分的时候,苏菲的心里已经没有一开始那么难受了,但是心里还会有些堵得慌,忍耐着继续的看下去。 接下来的内容,周青子没有在说苏菲的不是,而是将宋韩和那个女生的故事,当然是

数据倾斜导致子任务积压

业务背景: 一个流程中,有两个重要子任务:一是数据迁移,将kafka实时数据落Es,二是将kafka数据做窗口聚合落hbase,两个子任务接的是同一个Topic GroupId。上游Topic的 tps高峰达到5-6w。 问题描述: 给 24个 TaskManager(CPU) 都会出现来不及消费的情况。 问题原因: 做窗口聚合的任务的分组字段,分组粒度太小,hash不能打散,数据倾斜严重,导致少

突破网页数据集获取难题:Web Unlocker API 助力 AI 训练与微调数据集全方位解决方案

突破网页数据集获取难题:Web Unlocker API 助力 AI 训练与微调数据集全方位解决方案 背景随着AI技术的飞速发展,诸如DeepSeek R1、千问QWQ32、文小言、元宝等AI大模型迅速崛起。在AI大模型训练和微调、AI知识库建设中,数据集的获取已成为不可或缺的基础。尤其是在面对各式各样的网页数据结构时,将其整理成可用的数据

2022-06-15 斯坦福大学计算机公开课资源

① CS 103 计算的数学基础 计算能力的理论极限是什么?计算机能解决哪些问题?哪些不能?我们如何以数学上的确定性来推理这些问题的答案?本课程探讨这些问题的答案,并作为离散数学、可计算性理论和复杂性理论的介绍。课程完成后,学生将能够轻松编写数学证明、推理离散结构、阅读和编写一阶逻辑语句,以及使用计算设备的数学模型。 学习地址: ② CS106a 编程