人工智能

测量与误差定律 —— 读《醉汉的脚步》(八)

这一章实际讲的是测量一定有误差;在误差没有朝着特定一个方向偏离的情况下,得到的是正态分布(钟形曲线): 在揭示钟形曲线重要性的3个人中,其发现者分到的功劳却是最少。亚伯拉罕·棣莫弗(Abraham De Moivre)的突破产生于1733年,当时他正是65岁左右的年纪,而直到5年后他的《机率论》(Doctrine of Chances)第二版出版,人们才知道了这个突破。棣莫弗要找的,是那个被我们在

可视化:density与ridgeline

  今天我们来谈谈生信分析中的常规图形 -- 密度图与山脊图 (density,ridgeline)。为什么要把这个两图一起介绍呢?因为这两个图关系非常亲密,本质上呈现的意义是相同的。密度图,常用于展示一组变量的取值分布。而山脊图则常用于展示多分组时某一变量在各分组中的取值分布。这么看来,山脊图就像是密度图的团购形式。下面我们就一起来见证一下吧! density   首先,我们先绘制密度图看看,使

【Dify + Bright Data MCP】:零代码构建AI社媒分析师,自动采集YouTube/TikTok/Instagram数据并生成商业洞察

声明:非广告 一、引言:为什么打造一个AI社媒分析师?作为一名自动化RPA工程师或AI产品经理,可能经常面临这样的困境: 想监控TikTok上新兴的AI工具达人?每天手动翻页、截图、记录,耗时3–5小时/周; 想分析YouTube热门视频的评论情绪?但反爬机制让你的脚本三

书籍1 实战大数据(Hadoop+spark+Flink)2

第二章是搭建IDEA开发环境和Linux虚拟机 这章的内容较少,但需要花费的时间较长,毕竟都是实操部分 首先是搭建IDEA开发环境 每一个IT开发人员都得有一个合适的开发工具,IDEA是大数据开发的首选,在Windows上安装IDEA,然后构建Maven项目。 最首先的还是安装JDK,因为大数据开发的很多地方都是得需要用到Java的。 具体的安装和环境配置这里不再说明。 Maven的安装与配置

空间转录组---seurat

空间转录组是2022生命科学十大创新产品名单,因此将来会在生物学领域有非常大的应用空间,目前植物类的相关文章较少,我也是在慢慢的学习中。我们测试数据选取兰花的空转数据:Spatiotemporal atlas of organogenesis in development of orchid flowers(这篇文章我前面也分享过),与单细胞的数据结构基本一致,多了spatial这个文件夹,主要包

数据仓库(13)大数据数仓经典最值得阅读书籍推荐

从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。 书籍推荐 《数据仓库工具箱(第3版)——维度建模权威指南》 本书会介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各

Apache Sedona 流数据处理入门

Apache Flink介绍     Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。 Apache Sedona介绍     Apache Sedona(孵化中)是一个用于处理大规模空间数据的集群计算系统。Se

ELK

1. ELK简介 ELK是什么? ELK是Elasticsearch Logstash Kibana三者的缩写,原来称为ELK Stack ,现在称为Elastic Stack,加入了beats来优化Logstash。 ELK的主要用途是什么? 大型分布式系统的日志集中分析。 为什么要做日志集中分析? 在生产系统中出现问题,我们通过查看日志定位问题,在大型的分布式系统中,若出现问题,你该如何查看