人工智能

Dispather - 任务调度系统方案设计

1. 概述 计算平台的一个核心功能,是任务调度,包含任务之间的依赖处理、任务之间传参、任务的执行等。 本文重点分析和介绍任务调度的需求总结、数据库设计与架构设计。 2. 需求总结 2.1. 术语介绍 术语 Pipeline,即管线,这里指实际的药物研发管线,例如plk1、zinc Job,或Workflow,即任务流,是一系列Task的有向无环图,包含所属Pipeline、创建人、描述、定时配置

flink - 实时 - UV统计 - 布隆过滤器实现

1.知识点 scala输入输出样例类 keyBy并行度为1计算UV的技巧 map(data => ("uv", data.userId))..keyBy(_._1) keyBy并行度>1 计算UV的技巧 自定义MapFunction,随机自定义key+"uv" Random.nextString(10) + "uv" WindowedStream.trigger的使用

时间平方根法、时间对数法笔记

规范求取固结系数的方法有时间平方根法和时间对数法,基本原理都是利用理论曲线和试验曲线的形状相似性,配合经验,找某一固结度下(时间平方根法选的是90%固结度,时间对数法选的是50%固结度)理论曲线上时间因数相当于试验曲线上的某一时间值。时间平方根法步骤如下:先根据试验数据绘制变形与时间平方根的关系曲线,然后找到曲线上初始阶段的直线段,延长交与纵轴,交点叫做理论零点,再过理论零点做一条直线,新直线是老

训练深度学习模型的技巧

最核心的技巧:数据集足够大且标记良好,就可以在不更改模型或训练设置的情况下获得良好的结果 但是,获得大量标记良好的数据集是有很高成本的,当数据集达不到上述要求时,可以遵循下面的技巧。 第一:先使用默认设置获得一个基准性能(baseline performance),找出需要改进的地方。借助wandb/tensorboard等工具,查看:train losses, val losses, mAP,P

Kotlin Flow 背压和线程切换竟然如此相似

前言 上篇分析了Kotlin Flow原理,大部分操作符实现比较简单,相较而言背压和线程切换比较复杂,遗憾的是,纵观网上大部分文章,关于Flow背压和协程切换这块的原理说得比较少,语焉不详,鉴于此,本篇重点分析两者的原理及使用。 通过本篇文章,你将了解到: 什么是背压? 如何处理背压? Flow buffer的原理 Flow 线程切换的使用 Flow 线程切换的原理 1. 什么是背压? 先

nlp-parser:一个用于依存句法分析的小工具-conll格式-支持sql做更复杂的分析

项目功能 分析中文文本的依存关系, 生成 conll 格式的中间文件, 以及本地 sqlite3 数据库文件, 方便统计各种 词, 词性 之间的不同依存关系频次 主要功能: 把中文文本解析为依存关系 包含分词,词性标注 结果存储为 conllu 文本和 sqlite3: 生成的 sqlite 文件方便用 sql 做各种统计分析 支持自定义正则对文本按行预处理: 命中正则的字符串将会删除 项目源

Enterprise Data At HUAWEI(六)

基于PDCA的数据质量管理框架 什么是数据质量 华为数据质量指“数据满足应用的可信程度”,有以下6个维度 完整性:数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。 及时性:及时记录和传递相关数据,满足业务对信息获取的时间要求。数据交付要及时,抽取要及时,展现要及时;数据交付时间过长可能导致分析结论失去参考意义。 准确性:真实、准确地记录原始数据,无虚假数

NoSql_HBase-存储原理

存储设计 Hbase是一个基于Hdfs的分布式列式存储nosql大表数据库 拥有实时读写,和及时查询以及大表存储等功能 HBase内部是存在 namespace 和 table表的概念的的 Table逻辑对象 逻辑层面,让用户去逻辑操作,存储在元数据的一个概念 默认每张表至少一个 region分区 Region:Hbase中数据负载均衡的最小单元 一张表按照行进行分区,实现分布式存储,物理存在

扩散模型

常见的生成模型(Generative Models)如 GAN、VAE 和基于流( Flow-based )的模型。他们在生成高质量样本方面取得了巨大成功,但每个都有其自身的局限性。 GAN 因其对抗性训练性质,其训练过程难以收敛以及生成多样性欠佳。 VAE 依赖于替代损失(surrogate loss)。流模型必须使用专门的架构来构建可逆变换。 扩散模型( Diffusion Models )