人工智能

大师兄的数据分析学习笔记(二十四):回归树与提升树

大师兄的数据分析学习笔记(二十三):人工神经网络 大师兄的数据分析学习笔记(二十五):聚类(一) 一、回归树 回归树是决策树的一种算法,但回归的值是连续值。 与分类树不同,回归树的每个节点(包括叶子节点和中间节点),都会得到预测值。 一般这个预测值就是这些连续标注的平均值。 对特征进行分类,切分属性的依据不再是熵或基尼系数,而是最小方差。 也就是说在根据某一个属性切分后,

大数据之Flink

1、流计算的基本概念 1.1 批处理与流处理 在大数据处理领域,批处理与流处理一般被认为是两种截然不同的任务,一个大数据框架一般会被设计为只能处理其中一种任务。比如,Storm 只支持流处理任务,而 MapReduce、Spark 只支持批处理任务。 通过灵活的执行引擎,Flink 能够同时支持批处理任务与流处理任务。在执行引擎层级,流处理系统与批处理系统最大的不同在于节点间的数据传输方式。 如下

IO部分落盘,文件数据损坏

转载自华为服务支持的IO部分落盘,文件数据损坏 和避免文件系统损坏的关键参数。 问题描述 存储断链后,部分文件数据错误。 原因分析 更新一个文件,按照落盘顺序分为: 数据、JBD2日志、元数据。 需要说明的是,日志和元数据下发会等数据IO流程结束, 但是并没有要求数据IO一定下发成功。 IO闪断情况下,可能存在以下场景: 数据下发失败, 日志和元数据下发成功,从而表现出文件内容损坏的现象。 解决办

还在手动绘图?这5款AI工具帮你瞬间生成专业流程图!

一张清晰的流程图,有时胜过千言万语。无论是梳理业务流程、展示产品逻辑,还是进行团队协作,一张结构清晰、逻辑严谨的流程图,总能让沟通更加高效。但说到绘制流程图,过程确实有些繁琐——要一边理清思路,一边拖拉箭头、调整布局,稍不注意就需要重复修改。好在,AI已经改变了这一现状,只

数据中台的数据清理

本来我想是根据现在流程的模式建立数据中台,但是我发现同样的目的下也许有一个其他方案 首先在数据采集和数据清洗上,由于数据源是多种多样,现在是需要导入的大数据平台中,然后进行清洗。但是,现在的数据源很多是excel,需要先导入到Mysql中,在导入的大数据平台平台上,一方面通过开发工具支持excel解析很慢,另一方面目前也没有大数据平台,等到建立起ODS层还不知道猴年马月呢。 今天看了Tableau