人工智能

写给数据产品经理新人的工作笔记|06 不同的工具解决不同的问题 S2

数据治理工具:维表、数据质量管理 1.维表工具 在业务运营的过程当中,会不停地增加新的维度和维度值。 此类工具需要给出明确的填写规则和审核流程,避免因误录入而造成数据异常。 2.数据质量管理 做ETL、数据运营、数据分析师或者算法工程师,每个人都无数次踩进过“数据质量”这个深“坑”。 在数据治理的框架下,保证数据质量和数据安全是核心目标,而元数据是核心工具。 元数据是用于描述数据、内容、业务流程、

Linux 下多线程和多进程程序的优缺点,各自适合什么样的业务场景?

简单说,对于需要资源隔离的场景,多进程能解决,但多线程无法解决,在这里,讲一个我们的小故事,先说下背景: 我是 Terark 和 Topling 的创始人,ToplingDB(兼容 RocksDB)是我们的核心产品。 ToplingDB 的一个重要功能是 分布式 Compact,去年我们实现了 托管 Todis 的 分布式 Compact 支持。最近我们正在实现 MySQL 的 分布式 Compa

我为 Netty 贡献源码 | 且看 Netty 如何应对 TCP 连接的正常关闭,异常关闭,半关闭场景(上)

本系列Netty源码解析文章基于 4.1.56.Final版本 写在前面..... 本文是笔者肉眼盯 Bug 系列的第三弹,前两弹分别是: 抓到Netty一个Bug,顺带来透彻地聊一下Netty是如何高效接收网络连接的 ,在这篇文章中盯出了一个在 Netty 接收网络连接时,影响吞吐量的一个 Bug。 抓到Netty一个隐藏很深的内存泄露Bug | 详解Recycler对象池的精妙设计与实现

Apache Flink——DataStream算子汇总

Transformation 数据流转换算子 Map map可以理解为映射,对每个元素进行一定的变换后,映射为另一个元素。 FlatMap flatmap可以理解为将元素摊平,每个元素可以变为0个、1个、或者多个元素。 Filter filter是进行筛选 为每个元素评估一个布尔函数,并保留该函数返回true的布尔函数。过滤出零值的过滤器。 KeyBy 逻辑上将Stream根据指定的

笔记:商业洞察的3个剑法

商业洞察有3个剑法,储备模型、不断追问、打比方。 1,什么是储备模型? 储备模型好比乐高积木,大件套小件才能出作品。 模型多的好处就像你想搭个机器人,现在有手的部件和图纸了,你不用再想办法拼手了,手的部件中有手指的部件和图纸了,你不用再拼手指了。 2,为什么要不断追问? 不断追问就是在不断寻找逻辑推导的大前提。推导到极致叫第一性原理。 遇到问题的你就如同在森林中迷路,你有不断追问这个斧头,往一个

HLA分型工具-HLA-HD

在203年还在更新的一款软件 官方文档写的非常清楚,安装和使用的过程并没有遇到什么问题,所以这里只做一些记录。 安装 需要提前安装bowtie2 sudo apt install bowtie2 下载安装包,解压, sh install.sh 安装完成。 export PATH=$PATH:/path_to