spark数据倾斜以及解决方案 对 Spark/Hadoop 这样的分布式大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。 对于分布式系统而言,理想情况下,随着系统规模(节点数量)的增加,应用整体耗时线性下降。如果一台机器处理一批大量数据需要120分钟,当机器数量增加到3台时,理想的耗时为120 / 3 = 40分钟。但是,想做到分布式情况下每台机器执行时间是单机时的1 / N,就必须保证每台机器的任务量相等。不幸的是,很多 人工智能 2025年05月29日 142 点赞 0 评论 10602 浏览
机器学习入门总结和各类常用神经网络汇总(第一篇) 这里总结了李宏毅老师的机器学习的课程。首先我们将会了解到机器学习的概念,但是课程的主要观点将会聚焦到Deep Learning。进行了解之后我们会学习到监督学习( supervised learning )的相关网络,还有自监督学习(self- supervised learning)的相关知识,包括生成对抗网络(GAN),BERT,Tansformer等。后面还会讲到强化学习(Reinforce 人工智能 2025年04月27日 153 点赞 0 评论 10627 浏览
Qt Creator牵手DeepSeek,开启AI开发新征程 一、引言在当今软件开发的快速发展进程中,人工智能(AI)技术正以惊人的速度融入各个环节,为开发者带来了前所未有的便利和效率提升。从代码自动补全到智能错误检测,AI 的应用让软件开发过程变得更加智能、高效 。其中,大语言模型如 DeepSeek 的出现,更是为开发者提供了强大的智能助手,能 人工智能 2025年04月21日 182 点赞 0 评论 10671 浏览
Elasticsearch-聚合 零、本文纲要 一、聚合 1、常见的聚合类型 2、参与聚合的字段类型 二、聚合DSL 1、桶(Bucket)聚合 ① 桶聚合结果排序 ② 限定桶聚合范围 2、度量(Metric)聚合 三、RestClient实现聚合 1、编写DSL语句 2、解析聚合结果 tips:Ctrl + F快速定位所需内容进行阅读吧。 一、聚合 官方文档:Aggregations。 聚合(aggregations)可以实 人工智能 2025年06月15日 157 点赞 0 评论 10702 浏览
VSCode CLine 插件(Claude dev)自定义配置使用 Opneai GPT模型 或 Claude 3.5 模型进行 AI 开发 简介本教程将指导您如何在 Visual Studio Code (VSCode) 中安装和自定义配置 CLine 插件,并使用 Claude 3.5 模型进行 AI 开发。通过本教程,您将能够高效地利用 AI 助手提升开发效率。重点注意事项 重点:无论是用 Openai GPT系列模型还是 Claude系列模型,都是选择 Openai 兼 人工智能 2025年04月24日 200 点赞 0 评论 10718 浏览
只取一瓢饮 61 三体问题 科幻作家刘慈欣在科幻小说《三体》中虚构了一个“三体世界”,向公众科普了牛顿1687年提出的这个著名的“三体问题”。曾经拜读过他的《地球往事》、《死神永生》、《黑暗森林》三部杰作,我被刘慈欣超凡的想象力所折服。 小说中,“三体人”生活的行星在一个由三颗恒星组成的三体系统中运行,这三颗恒星的运动毫无规律,“三体人”的天空时常同时出现二个、三个太阳或者一个太阳也没有,导致“三体人”的星球不定期 人工智能 2025年06月19日 85 点赞 0 评论 10739 浏览
一文了解 NebulaGraph 上的 Spark 项目 本文首发于 Nebula Graph Community 公众号 最近我试着搭建了方便大家一键试玩的 Nebula Graph 中的 Spark 相关的项目,今天就把它们整理成文分享给大家。而且,我趟出来了 PySpark 下的 Nebula Spark Connector 的使用方式,后边也会一并贡献到文档里。 NebulaGraph 的三个 Spark 子项目 我曾经围绕 NebulaGr 人工智能 2024年11月22日 58 点赞 0 评论 10757 浏览
Hbase——运行原理 一、Hbase的架构 架构角色 Region Server Region Server 为 Region 的管理者,其实现类为 HRegionServer,主要作用如下: 对于数据的操作:get, put, delete; 对于 Region 的操作:splitRegion、compactRegion。 Master Master 是所有 Region Se 人工智能 2025年04月18日 50 点赞 0 评论 10768 浏览