人工智能

Apache Flink——任务(Tasks)和任务槽(Task Slots)

一、任务槽(Task Slots) Flink 中每一个 worker(也就是 TaskManager)都是一个 JVM进程,它可以启动多个独立的线程,来并行执行多个子任务(subtask)。 TaskManager 的计算资源是有限的,并不是所有任务都可以放在一个TaskManager上并行执行。并行的任务越多,每个线程的资源就会越少。为了控制并发量,我们需要在 TaskManager 上对每个

Java_24_IO流_1

输入(input): 读取外部数据(硬盘、磁盘、光盘等存储设备的数据)到程序中(内存)中。 输出(output): 将程序中的数据(内存)输入到硬盘光盘等存储设备中。 流的分类 1.按操作数据单位不同分为:字节流(8 bit),字符流(16 bit) 字节流 ——》 视频、图片 字符流 ——》 文本 2.按数据流的流向不同分为:输入流(Reader)和输出流(Writer) 3.按流的角色的不

写给数据产品经理新人的工作笔记|06 不同的工具解决不同的问题 S2

数据治理工具:维表、数据质量管理 1.维表工具 在业务运营的过程当中,会不停地增加新的维度和维度值。 此类工具需要给出明确的填写规则和审核流程,避免因误录入而造成数据异常。 2.数据质量管理 做ETL、数据运营、数据分析师或者算法工程师,每个人都无数次踩进过“数据质量”这个深“坑”。 在数据治理的框架下,保证数据质量和数据安全是核心目标,而元数据是核心工具。 元数据是用于描述数据、内容、业务流程、

Linux 下多线程和多进程程序的优缺点,各自适合什么样的业务场景?

简单说,对于需要资源隔离的场景,多进程能解决,但多线程无法解决,在这里,讲一个我们的小故事,先说下背景: 我是 Terark 和 Topling 的创始人,ToplingDB(兼容 RocksDB)是我们的核心产品。 ToplingDB 的一个重要功能是 分布式 Compact,去年我们实现了 托管 Todis 的 分布式 Compact 支持。最近我们正在实现 MySQL 的 分布式 Compa

我为 Netty 贡献源码 | 且看 Netty 如何应对 TCP 连接的正常关闭,异常关闭,半关闭场景(上)

本系列Netty源码解析文章基于 4.1.56.Final版本 写在前面..... 本文是笔者肉眼盯 Bug 系列的第三弹,前两弹分别是: 抓到Netty一个Bug,顺带来透彻地聊一下Netty是如何高效接收网络连接的 ,在这篇文章中盯出了一个在 Netty 接收网络连接时,影响吞吐量的一个 Bug。 抓到Netty一个隐藏很深的内存泄露Bug | 详解Recycler对象池的精妙设计与实现

Apache Flink——DataStream算子汇总

Transformation 数据流转换算子 Map map可以理解为映射,对每个元素进行一定的变换后,映射为另一个元素。 FlatMap flatmap可以理解为将元素摊平,每个元素可以变为0个、1个、或者多个元素。 Filter filter是进行筛选 为每个元素评估一个布尔函数,并保留该函数返回true的布尔函数。过滤出零值的过滤器。 KeyBy 逻辑上将Stream根据指定的