人工智能

第一章 理解高性能程序(3) 流水线

流水线         另一个可以提升CPU速度的方法是指令级并发(ILP instruction level parallelism),也被称为超标量计算(superscalar computation)。         CPU指令的处理在CPU内部被分为几个阶段,如取指、解码、执行、写回。在Intel 486处理器之前,每条指令必须在下一条指令开始前结束。使用流水线技术,每一条指令的第一

数据质量问题初探

当前系统出现了一些数据质量问题, 现象 例如在合同关闭后,仍然缺乏预计交货时间,虽然一开始签订的时候可以不存在。还有就是 部分必要字段为空。 数据明细的条目丢失 原因分析 用户在录入时缺乏必要的校验 数据在多系统传输时,缺乏逻辑校验 系统在数据导出时,缺乏条目数据的校验 在导入数据前缺乏数据正确性的校验 解决思路 通过卡点方式对数据进行逻辑校验,例如在消费应用中,对导入的数据进行逻辑合规性验证。

现代数据栈,谁主沉浮?

欢迎访问我的博客: 2022年已经没有人谈大数据这个概念,不是它失败了,恰恰是因为它成功了。成功技术的吊诡之处在于,它最终会被认为是理所当然,消失在背景音中。 从最近的新闻热点里,我们不难看到大数据的身影,例如大数据加持的金税四期,疫情防控下的大数据时空伴随者等等…… 随着SaaS的普及和深入,数据驱动成为共识,云计算以及云端数据仓库的发展,逐渐有了

R语言宏基因组学统计分析学习笔记

3.4 微生物数据组成分析 早在1897年,皮尔逊就警告说,在器官测量中使用两个绝对测量值的比值,可能会形成“伪相关”。自1920s以来,地质学的研究人员已经知道,使用标准的统计方法来分析成分数据可能会使结果无法解释。Aitchison认识到关于组成成分的每一个陈述都可以用成分的比率来表述,并开发出一套基本原理、各种方法、操作和工具来进行成分数据分析。其中,对数比变换方法被地质学、生态学等领域的统

scanpy数据整合批次效应去除原理

引用:葬花朴 1.scanpy.external.pp.mnn_correct** 第一步:将表达量按细胞进行归一化,计算细胞之间归一化后的Euclidean距离。 第二步:识别MNN(mutual nearest neighbors, 相互最近的邻居):假设两个batch,寻找batch1中每一个细胞的在batch2中最近的k个细胞(knn1),对batch2进行相同操作(knn2),knn1和

大数据之Spark

1、Spark与Hadoop Hadoop 已经成了大数据技术的事实标准,Hadoop MapReduce 也非常适合于对大规模数据集合进行批处理操作,但是其本身还存在一些缺陷。特别是 MapReduce 存在的延迟过高,无法胜任实时、快速计算需求的问题,使得需要进行多路计算和迭代算法的作业过程十分低效。 根据 Hadoop MapReduce 的工作流程,可以分析出 Hadoop MapRedc

Apache Pulsar——Function 轻量级计算框架

一、Function背景介绍 当我们进行流式处理的时候,很多情况下,我们的需求可能只是下面这些简单的操作:简单的ETL 操作\聚合计算操作等相关服务。 但为了实现这些功能,我们不得不去部署一整套 SPE 服务。部署成功后才发现需要的仅是SPE(流处理引擎)服务中的一小部分功能,部署 SPE 的成本可能比用户开发这个功能本身更困难。由于SPE 本身API 的复杂性,我们需要了解这些算子的使用场景,明

R语言是一门统计语言

R语言是一门统计语言,在数据分析领域优势是非常明显的。 R是一种为统计计算和绘图而生的语言和环境,它是一套开源的数据分析解决方案。 R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。 R语言将在数据分析