人工智能

scanpy数据整合批次效应去除原理

引用:葬花朴 1.scanpy.external.pp.mnn_correct** 第一步:将表达量按细胞进行归一化,计算细胞之间归一化后的Euclidean距离。 第二步:识别MNN(mutual nearest neighbors, 相互最近的邻居):假设两个batch,寻找batch1中每一个细胞的在batch2中最近的k个细胞(knn1),对batch2进行相同操作(knn2),knn1和

大数据之Spark

1、Spark与Hadoop Hadoop 已经成了大数据技术的事实标准,Hadoop MapReduce 也非常适合于对大规模数据集合进行批处理操作,但是其本身还存在一些缺陷。特别是 MapReduce 存在的延迟过高,无法胜任实时、快速计算需求的问题,使得需要进行多路计算和迭代算法的作业过程十分低效。 根据 Hadoop MapReduce 的工作流程,可以分析出 Hadoop MapRedc

Apache Pulsar——Function 轻量级计算框架

一、Function背景介绍 当我们进行流式处理的时候,很多情况下,我们的需求可能只是下面这些简单的操作:简单的ETL 操作\聚合计算操作等相关服务。 但为了实现这些功能,我们不得不去部署一整套 SPE 服务。部署成功后才发现需要的仅是SPE(流处理引擎)服务中的一小部分功能,部署 SPE 的成本可能比用户开发这个功能本身更困难。由于SPE 本身API 的复杂性,我们需要了解这些算子的使用场景,明

R语言是一门统计语言

R语言是一门统计语言,在数据分析领域优势是非常明显的。 R是一种为统计计算和绘图而生的语言和环境,它是一套开源的数据分析解决方案。 R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。 R语言将在数据分析

Todis 中分布式 Compact 是怎么工作的?

你看到的Todis(外存版 Redis) 性能优势,主要来自底层的ToplingDB存储引擎! ToplingDBfork 自 RocksDB,增加了很多改进,也修改了不少 bug,其中有几十个修改也给上游 RocksDB 发了 Pull Request。 目前 Todis 仍在邀请内测中,可通过7分钟视频教程快速开始 ToplingDB 相对于 RocksDB 做了很多改进,不过题主问的是分布式

Apache IoTDB 查询引擎源码阅读——DataNode 上 DriverTask 调度与执行

背景 Apache IoTDB 查询引擎目前采用 MPP 架构,一条查询 SQL 大致会经历下图几个阶段: image FragmentInstance 是分布式计划被拆分后实际分发到各个节点进行执行的实例。由于每个节点会同时接收来自于多个并发 Query 的多个 FragmentInstance,这些 FragmentInstance 在执行时可能由于等待上游数据而处于阻塞状态、或者

不试图预测只努力创造

我的朋友,你学习《易经》,因为很多老师推荐,这是一本智慧的书,从中可以懂得世界缘由、未来趋势。 听过很多次课,却缺乏深度掌握。上课环顾左右,同学大多比我认真,能理解老师讲解。一个同学被叫上讲台,对卦象详细分析,得出结论,让人惊讶。开始到结束,我表示了配合姿态,但确实没有真正懂得,后续可能会深入研究。 原因之一,学习之初有一种感受,从实践工作中,得到未来愿景,不应预测,规划计划不是应

详解Java NIO,IO与NIO的区别

一、概念 NIO即New IO,这个库是在JDK1.4中才引入的。NIO和IO有相同的作用和目的,但实现方式不同,NIO主要用到的是块,所以NIO的效率要比IO高很多。在Java API中提供了两套NIO,一套是针对标准输入输出NIO,另一套就是网络编程NIO。 二、NIO和IO的主要区别 下表总结了Java IO和NIO之间的主要区别: 1、面向流与面向缓冲 Java IO和NIO