人工智能

如何给 HDFS 「减肥」之数据清理

Hadoop 平台运行至今,前期处于放任自由的状态,后期才开始稍加管控,指定相关数据使用规范。日积月累,数据规模越来越大,元数据暴增,Namenode rpc 频繁超时告警,Namenode HA 切换也较为频繁。 企业的预算不可能无限增加,所以一个良好的平台规范以及定时数据清理机制,对平台的来说至关重要,属于非常实在的降本增效工作。 这里记录下我们组的近期制定的 HDFS「瘦身计划」。 1.

可视化:和弦图

  和弦图(chord Diagram),是一种显示数据间相互关系的可视化方法,节点数据沿圆周径向排列 (节点的权重决定了节点的大小),节点之间使用带权重 (越大条带越宽) 的弧线 (也可以带有方向性) 链接。 绘图   circlize包专门用于绘制圆圈图的R包,和弦图算是其中的一个类型,该包也有一个专门用于绘制和弦图的函数chordDiagram,用起来还是挺方便的。该函数接受的数据格式可以是

Spark入门及环境搭建

一、Spark是什么 Spark是Apache下的一个用于大规模数据处理的统一分析引擎,Unified engine for large-scale data analytics. Spark还是一个支持多语言的(Python、SQL、Scala、Java、R),可以在单节点或者集群上用作数据工程、数据科学和机器学习的内存计算引擎。 Spark借鉴了MapReduce的思想发展而来,保留了其分布式

多重检验矫正p值

因为P值的阈值是人为规定的,无论是多小的P值,也仅仅能代表结果的低假阳性,而非保证结果为真。如果检验一次,犯错的概率是5%;检测10000次,犯错的次数就是500次,即额外多出了500次差异的结论(即使实际没有差异)。即使P值已经很小(比如0.05),也会被检验的总次数无限放大。比如检验10000次,得到假阳性结果的次数就会达到 5%*10000=500次。 这时候我们就需要引入多重检验来进行校正

《教育心理学》学习2-3

位置法 如果说图像法是一种帮助编码记忆材料的方法,那么“位置法”(method of loci,MOL)就是一种帮助检索材料的“线索”。许多人在记忆时往往会结合图像法和位置法进行记忆。位置法是目前最主要的记忆术之一,相传是古希腊诗人西蒙尼停斯(Simonides of Ceos)首先提出的。如今很多一流的记忆大师(例如世界记忆冠军王峰等)或多或少都会使用这种方法。 想象一条你熟悉的路线,比如从

深入剖析 AI 大模型的反向传播原理

深入剖析 AI 大模型的反向传播原理:从理论到源码实现 本人掘金号,欢迎点击关注:掘金号地址 本人公众号,欢迎点击关注:公众号地址 一、引言在当今人工智能领域,大型语言模型如 GPT - 3、BERT 等取得了令人瞩目的成果。这些模型在自然语言处理、图像识别等众多任务中展现出强大的能力。而在训练这些大模型的过

扩散模型

常见的生成模型(Generative Models)如 GAN、VAE 和基于流( Flow-based )的模型。他们在生成高质量样本方面取得了巨大成功,但每个都有其自身的局限性。 GAN 因其对抗性训练性质,其训练过程难以收敛以及生成多样性欠佳。 VAE 依赖于替代损失(surrogate loss)。流模型必须使用专门的架构来构建可逆变换。 扩散模型( Diffusion Models )

从零开始强化学习(四)——策略梯度

四. 策略梯度(Policy Gradient) 4.1 期望奖励(Expected Reward) 在强化学习中有3个组成部分:演员(actor),环境(environment)和奖励函数(reward function) 演员就是一个网络,输入状态,输出动作 环境就是一个函数,输入状态和动作,输出状态。环境是基于规则的规则,是确定不变的 奖励是在某一个状态下采取某个动作能够获得的分数。环境是