人工智能

【R画图学习15】哑铃图

哑铃图,又叫做棒棒糖图。因其形状和棒棒糖相似而得名,具体来看实际上是一个散点和一条线段的组合。棒棒糖图是散点图的一种变体,又与柱状图非常相似,但其在清晰展示数据的同时,减少了图形量,使得读者能够更加关注于数据本身而非图形。棒棒糖图能够帮助将数值与类别对齐,非常适合比较多个类别的值之间的差异。  下面两张图就是柱状图展示和棒棒图的差别。可以看出用哑铃图或者棒棒图展示会比柱状图清晰很多,大大减少了图形

7.一文搞懂Flink中窗口的概念

1.前言 在上一篇文章当中说了,如果需要进行双流join操作,可以选择在窗口的范围内进行,join操作会以窗口范围内的所有数据做inner join,然后将匹配到的所有数据交给计算函数进行处理,这就是窗口join的执行方式,但是这里也有一个之前没有提到过的概念,那就是“窗口”。 窗口在数据计算的过程中很常见,它要做的实际上就是在没有尽头的数据流中切割出一段一段的范围区间,然后对这个区间的数据进行相

8款国内外免费AI生成视频工具对比实测!我们真的可以做到“一人搞定一部影视作品“吗?

AI生成视频工具的不断普及,其竞争赛道愈发激烈。产品宣发中的精美AI视频更是铺天盖地而来。宣传必不可少,但实际生成AI视频效果如果和宣传差距太大,会大大降低用户的期待值,浪费用户的时间成本,资金成本。因此本文将从AI生成速度、一次可生成视频内容时长、视频呈现效果、文本指令理解,长视频制作等维度对国内外热门AI视频生

遗传算法:启发自真实现象

书名:代码本色:用编程模拟自然系统 作者:Daniel Shiffman 译者:周晗彬 ISBN:978-7-115-36947-5 第9章目录 9.1 遗传算法:启发自真实现象 1、目标 我们的目标不是深入研究遗传和进化的科学原理,我们不会研究旁氏表、核苷酸、蛋白质合成、RNA和其他生物进化相关的话题。 相反,我们只讨论达尔文进化论背后的核心原理,并根据这个原理开发出一套算法。 我们并不在

数据批处理速度慢?不妨试试这个

业务系统产生的明细数据通常要经过加工处理,按照一定逻辑计算成需要的结果,用以支持企业的经营活动。这类数据加工任务一般会有很多个,需要批量完成计算,在银行和保险行业常常被称为跑批,其它像石油、电力等行业也经常会有跑批的需求。 大部分业务统计都会要求以某日作为截止点,而且为了不影响生产系统的运行,跑批任务一般会在夜间进行,这时候才能将生产系统当天产生的新明细数据导出来,送到专门的数据库或数据仓库完成跑

Hadoop-MapReduce运行机制

    MapRduce是hadoop中的一个分布式计算工具,分为map阶段和reduce阶段其采用了一个分而治之的思想      以下一个例子作为演示,假设有一个涉及300M的文件(1.txt200m 2.txt 100m) 进行计算,求每个单词所占的个数 image.png mapreduce_流程.png Map阶段 image.png 1.首先进行逻辑

「碎语杂记」有些东西,可能不是那样

昨天,闲聊,谈到了数学问题,说得更具体一些,是概率问题。 最简单的抛硬币问题。 正面朝上和反面朝上的概率应该是一样的,各占50%。 抛两次硬币,应该有三种结果,两次全是正面朝上,两次全是反面朝上,正面反面各占一次,概率分别是25%、25%和50%。 于是,有些同志以为,如果第一次是反面朝上,那么第二次正面朝上的概率就应该比反面朝上的概率大。 其实不是那回事儿。 每一次抛硬币,正面朝上

模糊的记忆——脑的本质

这部分是以进化论为前提的,如果你不相信进化论,信服力可能会打折扣。但是,为了了解本章的内容,信不信的问题暂且搁置。 因为人脑有很多与维持生命没有直接关系的高级能力,这些能力会掩盖脑的本质,为了研究脑的本质,本章研究了动物脑,动物脑的大部分能力与维持生命有直接关系。这里研究的是狗脑。 狗是一种非常聪明的动物,可以学会很多复杂的指令。通过研究狗脑可以探索脑的本质。下面的实验使用美食来激励狗子。 实验是

大数据数仓经典最值得阅读书籍推荐

从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。 书籍推荐 《数据仓库工具箱(第3版)——维度建模权威指南》 数据仓库工具箱 本书会介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容

数据仓库(06)数仓分层设计

  目前主流的数据仓库分层大多为四层,也有五层的架构,这里介绍基本的四层架构。 分别为数据贴源层(ods)、数据仓库明细层(dw)、多维明细层(dws)和数据集市层(dm)。   下面是架构图: 数据仓库分层设计   数据分层的目的是:减少重复计算,避免烟囱式开发,节省计算资源,靠上层次,越对应用友好,也对用户友好,希望大部分(80%以上)的需求,都用DWS,DW的表来支持就行,所以