人工智能

Scissor:联合表型数据,Bulk-seq和scRNA(2)

前面一个帖子讲了scissor的原理以及paper中的一些应用实例。几天我们来测试这个工具。 ========安装======== devtools::install_github('sunduanchen/Scissor') devtools::install_github("jinworks/scAB") 注:因为我们还要用到scAB工具中的例子,所以顺便安装一下。 library(Sciss

2、最优化理论的简介

1、最优化模型及其分类    最优化的数学模型一般表示为 其中及都是定义在上的实值连续函数,且至少有一个是非线性的。如果,则问题被称为无约束优化问题。如果是正整数,则问题被称为约束优化问题。其中,称为目标函数,称为约束函数。如果都是线性函数,则问题就是线性规划。如果和存在一个非线性函数,则问题就是非线性规划。特别地,若为二次函数,为线性函数,则问题是二次规划问题。    2、求解无约束优化问题的

265. 【数据库运维】hdfs,10T硬盘被撑爆

最近遇到一个很坑,我一个 6 节点的分布式数据库,一个节点 10T 的硬盘,经过一层又一层的手动翻 hdfs 本地目录去找大文件,终于找到源头,一个 dncp-block-verification.log.curr 占了 5.6T,心中一个个问号冒出来时,非常义愤填膺:这玩意也能撑这么大?比我数据文件还要大? image.png 今天才假期第二天,客户那边就来催了,“解决方案商量好了吗

Apache Flink——侧输出流(side output)

前言 flink处理数据流时,经常会遇到这样的情况:处理一个数据源时,往往需要将该源中的不同类型的数据做分割(分流)处理,假如使用 filter算子对数据源进行筛选分割的话,势必会造成数据流的多次复制,造成不必要的性能浪费; flink中的侧输出,就是将数据流进行分割,而不对流进行复制的一种分流机制。flink的侧输出的另一个作用就是对延时迟到的数据进行处理,这样就可以不必丢弃迟到的数据; 简单理

遍历并输出Map集合中的value值

import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class HashMapTest { public static void main(String[] args) { Map&lt

第一章Scala简介

1.scala介绍 scala是运行在 JVM 上的多范式编程语言,同时支持面向对象和面向函数编程。 多范式:就是包含多种编程思想。目前主流的编程思想有4中,即面向对象、面向过程、面向函数、以及泛型 面向函数一句话形容:函数也是一个对象,可以作为参数进行传递。 也就是: 面向对象 :传递的参数是具体的对象或者值 函数式编程:传递的参数可以是一个函数(处理逻辑) Scala 是 Scalable

第一章 理解高性能程序(3) 流水线

流水线         另一个可以提升CPU速度的方法是指令级并发(ILP instruction level parallelism),也被称为超标量计算(superscalar computation)。         CPU指令的处理在CPU内部被分为几个阶段,如取指、解码、执行、写回。在Intel 486处理器之前,每条指令必须在下一条指令开始前结束。使用流水线技术,每一条指令的第一

数据质量问题初探

当前系统出现了一些数据质量问题, 现象 例如在合同关闭后,仍然缺乏预计交货时间,虽然一开始签订的时候可以不存在。还有就是 部分必要字段为空。 数据明细的条目丢失 原因分析 用户在录入时缺乏必要的校验 数据在多系统传输时,缺乏逻辑校验 系统在数据导出时,缺乏条目数据的校验 在导入数据前缺乏数据正确性的校验 解决思路 通过卡点方式对数据进行逻辑校验,例如在消费应用中,对导入的数据进行逻辑合规性验证。

现代数据栈,谁主沉浮?

欢迎访问我的博客: 2022年已经没有人谈大数据这个概念,不是它失败了,恰恰是因为它成功了。成功技术的吊诡之处在于,它最终会被认为是理所当然,消失在背景音中。 从最近的新闻热点里,我们不难看到大数据的身影,例如大数据加持的金税四期,疫情防控下的大数据时空伴随者等等…… 随着SaaS的普及和深入,数据驱动成为共识,云计算以及云端数据仓库的发展,逐渐有了

R语言宏基因组学统计分析学习笔记

3.4 微生物数据组成分析 早在1897年,皮尔逊就警告说,在器官测量中使用两个绝对测量值的比值,可能会形成“伪相关”。自1920s以来,地质学的研究人员已经知道,使用标准的统计方法来分析成分数据可能会使结果无法解释。Aitchison认识到关于组成成分的每一个陈述都可以用成分的比率来表述,并开发出一套基本原理、各种方法、操作和工具来进行成分数据分析。其中,对数比变换方法被地质学、生态学等领域的统