人工智能

Fastp

Fastp简介 fastp是一款数据质控过滤软件,作者是陈实富,来自深圳海普洛斯公司。该软件可以实现fastqc-Trimmomatic-fastqc一条龙,操作简单,快速。不仅适用于illumina测序平台,还支持Pacbio和Ion torrent的测序数据。 1 Fastp功能介绍 1.1 过滤 fastp可以对低质量序列,较多N(empty base)的序列进行过滤。该功能默认是启用的,可

数据仓库(13)大数据数仓经典最值得阅读书籍推荐

从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。 书籍推荐 《数据仓库工具箱(第3版)——维度建模权威指南》 本书会介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各

遗传算法:启发自真实现象

书名:代码本色:用编程模拟自然系统 作者:Daniel Shiffman 译者:周晗彬 ISBN:978-7-115-36947-5 第9章目录 9.1 遗传算法:启发自真实现象 1、目标 我们的目标不是深入研究遗传和进化的科学原理,我们不会研究旁氏表、核苷酸、蛋白质合成、RNA和其他生物进化相关的话题。 相反,我们只讨论达尔文进化论背后的核心原理,并根据这个原理开发出一套算法。 我们并不在

Apache Flink——任务(Tasks)和任务槽(Task Slots)

一、任务槽(Task Slots) Flink 中每一个 worker(也就是 TaskManager)都是一个 JVM进程,它可以启动多个独立的线程,来并行执行多个子任务(subtask)。 TaskManager 的计算资源是有限的,并不是所有任务都可以放在一个TaskManager上并行执行。并行的任务越多,每个线程的资源就会越少。为了控制并发量,我们需要在 TaskManager 上对每个

Java_24_IO流_1

输入(input): 读取外部数据(硬盘、磁盘、光盘等存储设备的数据)到程序中(内存)中。 输出(output): 将程序中的数据(内存)输入到硬盘光盘等存储设备中。 流的分类 1.按操作数据单位不同分为:字节流(8 bit),字符流(16 bit) 字节流 ——》 视频、图片 字符流 ——》 文本 2.按数据流的流向不同分为:输入流(Reader)和输出流(Writer) 3.按流的角色的不

写给数据产品经理新人的工作笔记|06 不同的工具解决不同的问题 S2

数据治理工具:维表、数据质量管理 1.维表工具 在业务运营的过程当中,会不停地增加新的维度和维度值。 此类工具需要给出明确的填写规则和审核流程,避免因误录入而造成数据异常。 2.数据质量管理 做ETL、数据运营、数据分析师或者算法工程师,每个人都无数次踩进过“数据质量”这个深“坑”。 在数据治理的框架下,保证数据质量和数据安全是核心目标,而元数据是核心工具。 元数据是用于描述数据、内容、业务流程、

Linux 下多线程和多进程程序的优缺点,各自适合什么样的业务场景?

简单说,对于需要资源隔离的场景,多进程能解决,但多线程无法解决,在这里,讲一个我们的小故事,先说下背景: 我是 Terark 和 Topling 的创始人,ToplingDB(兼容 RocksDB)是我们的核心产品。 ToplingDB 的一个重要功能是 分布式 Compact,去年我们实现了 托管 Todis 的 分布式 Compact 支持。最近我们正在实现 MySQL 的 分布式 Compa

我为 Netty 贡献源码 | 且看 Netty 如何应对 TCP 连接的正常关闭,异常关闭,半关闭场景(上)

本系列Netty源码解析文章基于 4.1.56.Final版本 写在前面..... 本文是笔者肉眼盯 Bug 系列的第三弹,前两弹分别是: 抓到Netty一个Bug,顺带来透彻地聊一下Netty是如何高效接收网络连接的 ,在这篇文章中盯出了一个在 Netty 接收网络连接时,影响吞吐量的一个 Bug。 抓到Netty一个隐藏很深的内存泄露Bug | 详解Recycler对象池的精妙设计与实现