人工智能

Enterprise Data At HUAWEI(三)

基于数据特性的分类管理框架 华为根据数据特性及治理方法的不同对数据进行了分类定义:内部数据和外部数据、结构化数据和非结构化数据、元数据 以统一语言为核心的结构化数据管理 基础数据治理 基础数据用于对其他数据进行分类,在业界也称作参考数据。基础数据通常是静态的(如国家、币种),一般在业务事件发生之前就已经预先定义。它的可选值数量有限,可以用作业务或IT的开关和判断条件。当基础数据的取值发生变化的时候

初等细胞自动机

书名:代码本色:用编程模拟自然系统 作者:Daniel Shiffman 译者:周晗彬 ISBN:978-7-115-36947-5 第7章目录 7.2 初等细胞自动机   本章将从Wolfram理论的模拟开始,为了理解Wolfram提出的初等CA模型,我们要先问自己几个问题:“你能想象到的最简单的细胞自动机是什么?”   问这个问题的意义在于:即使在最简单的CA模型中,我们也能看到复杂系统的

亿万级海量数据去重软方法,spark/hive/flink/mr通用

一、场景描述: 小强作为一名数据工程师,给予hadoop生态,经常会接到类似uv的去重统计。对于这种需求,一般的数据工程师撸起袖子直接干!一般情况下不会有问题。某一天,你公司突然业务发展发展起来,数据量慢慢暴涨,你会突然发现之前的count distinct去重经常oom或是龟速出数据。上来一股脑加内存!加!果断加!某一天你老板要你在原来按天的uv加一个月uv、年uv,这时你慌了。只会说“老板!加

【知识】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼

1. 摘要 对于数据仓库,大数据集成类应用,通常会采用ETL工具辅助完成。ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多,以下对开源的Sqoop、dataX、

GEO数据高速下载工具ascp的安装及使用

ascp/aspera对于生信中较大数据的下载上传是非常快速的,谁用谁知道!像NCBI(GEO/sra)就是在用,总之两个字:真香!。今天来教大家如何安装ascp以及如何利用ascp从GEO下载数据。在这里呢,我已经给大家下载好了,在下面网盘中下载就行了,设置的永久有效哦。 链接: 提取码:eyvb

一文学好部署安装p8s operator

概述 为了在Kubernetes中能够方便管理和部署Prometheus,我们使用ConfigMap管理Prometheus配置文件。 promethuse中间也刚好8个字符,我们也称为p8s. p8s Operator架构原理 从概念上来讲Operator就是针对管理特定应用程序的,在Kubernetes基本的Resource和Controller的概念上,以扩展Kubernetes api的形

理解Apache Pulsar工作原理

Apache Pulsar 是灵活的发布-订阅消息系统(Flexible Pub/Sub messaging),采用分层分片架构。 发布-订阅消息系统 关于发布-订阅模型的概念,主要从多租户、灵活的消息系统、云原生构架、分片的流(Segmented Streams)等方面来强调 Apache Pulsar 的功能和特性。 多租户 租户和命名空间(namespace)是 Pulsar 支持多租户的两