人工智能

scanpy数据整合批次效应去除原理

引用:葬花朴 1.scanpy.external.pp.mnn_correct** 第一步:将表达量按细胞进行归一化,计算细胞之间归一化后的Euclidean距离。 第二步:识别MNN(mutual nearest neighbors, 相互最近的邻居):假设两个batch,寻找batch1中每一个细胞的在batch2中最近的k个细胞(knn1),对batch2进行相同操作(knn2),knn1和

R语言宏基因组学统计分析学习笔记

3.4 微生物数据组成分析 早在1897年,皮尔逊就警告说,在器官测量中使用两个绝对测量值的比值,可能会形成“伪相关”。自1920s以来,地质学的研究人员已经知道,使用标准的统计方法来分析成分数据可能会使结果无法解释。Aitchison认识到关于组成成分的每一个陈述都可以用成分的比率来表述,并开发出一套基本原理、各种方法、操作和工具来进行成分数据分析。其中,对数比变换方法被地质学、生态学等领域的统

现代数据栈,谁主沉浮?

欢迎访问我的博客: 2022年已经没有人谈大数据这个概念,不是它失败了,恰恰是因为它成功了。成功技术的吊诡之处在于,它最终会被认为是理所当然,消失在背景音中。 从最近的新闻热点里,我们不难看到大数据的身影,例如大数据加持的金税四期,疫情防控下的大数据时空伴随者等等…… 随着SaaS的普及和深入,数据驱动成为共识,云计算以及云端数据仓库的发展,逐渐有了

数据质量问题初探

当前系统出现了一些数据质量问题, 现象 例如在合同关闭后,仍然缺乏预计交货时间,虽然一开始签订的时候可以不存在。还有就是 部分必要字段为空。 数据明细的条目丢失 原因分析 用户在录入时缺乏必要的校验 数据在多系统传输时,缺乏逻辑校验 系统在数据导出时,缺乏条目数据的校验 在导入数据前缺乏数据正确性的校验 解决思路 通过卡点方式对数据进行逻辑校验,例如在消费应用中,对导入的数据进行逻辑合规性验证。

第一章 理解高性能程序(3) 流水线

流水线         另一个可以提升CPU速度的方法是指令级并发(ILP instruction level parallelism),也被称为超标量计算(superscalar computation)。         CPU指令的处理在CPU内部被分为几个阶段,如取指、解码、执行、写回。在Intel 486处理器之前,每条指令必须在下一条指令开始前结束。使用流水线技术,每一条指令的第一

第一章Scala简介

1.scala介绍 scala是运行在 JVM 上的多范式编程语言,同时支持面向对象和面向函数编程。 多范式:就是包含多种编程思想。目前主流的编程思想有4中,即面向对象、面向过程、面向函数、以及泛型 面向函数一句话形容:函数也是一个对象,可以作为参数进行传递。 也就是: 面向对象 :传递的参数是具体的对象或者值 函数式编程:传递的参数可以是一个函数(处理逻辑) Scala 是 Scalable

Apache Flink——侧输出流(side output)

前言 flink处理数据流时,经常会遇到这样的情况:处理一个数据源时,往往需要将该源中的不同类型的数据做分割(分流)处理,假如使用 filter算子对数据源进行筛选分割的话,势必会造成数据流的多次复制,造成不必要的性能浪费; flink中的侧输出,就是将数据流进行分割,而不对流进行复制的一种分流机制。flink的侧输出的另一个作用就是对延时迟到的数据进行处理,这样就可以不必丢弃迟到的数据; 简单理

遍历并输出Map集合中的value值

import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class HashMapTest { public static void main(String[] args) { Map&lt

265. 【数据库运维】hdfs,10T硬盘被撑爆

最近遇到一个很坑,我一个 6 节点的分布式数据库,一个节点 10T 的硬盘,经过一层又一层的手动翻 hdfs 本地目录去找大文件,终于找到源头,一个 dncp-block-verification.log.curr 占了 5.6T,心中一个个问号冒出来时,非常义愤填膺:这玩意也能撑这么大?比我数据文件还要大? image.png 今天才假期第二天,客户那边就来催了,“解决方案商量好了吗