人工智能

大数据:HDFS知识体系(知其然,知其所以然)

前言 HDFS是Hadoop体系的基础,不知道各位怎么对待HDFS。反正我更多的关注一些应用层的东西,对于HDFS多有忽视。 但是每次面试的时候都要重新去背面经,我觉得这样的情况不太正常,因此耗时两天半整理了HDFS的知识体系,力求知其然也要知其所以然。 文章中有不少个人思考,希望能让各位更好的理解HDFS. 一、HDFS特性 高容错性:HDFS认为硬件总是不可靠的。 高吞吐量:HDFS为大量

市场洞察所需要的“数据”,是如何搜集的呢?

市场洞察所需要的“数据”,是如何搜集的呢? 一、传统的数据收集方法 1.1一手数据 一手数据,也称之为原始数据,是指通过人员访谈、询问、问卷、测定等方式,直接获得的新数据。 收集方法:定性调查与定量调查。 定性调查:主要通过一对一“深度访谈”,例如焦点座谈会。 定量调查:主要通过向消费者发送一个结构化的调查问卷获取数据。 两者可以结合使用,先定性调查挖掘未知、深度,然后定量调查实现数

【知识】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼

1. 摘要 对于数据仓库,大数据集成类应用,通常会采用ETL工具辅助完成。ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多,以下对开源的Sqoop、dataX、

GeNets:发表在nature上的基因组分析网站平台工具

2018年6月Nature Methods上发表了一篇关于机器学习分析特定基因集内部关系工具的文章,简单来说就是,通常我们做了差异基因分析得到一个基因集合,然后会用GO/KEGG富集进行进一步分析,但是该工具给我们提供了另一种可能,通过对差异基因集进行机器学习训练最终得到部分关键的基因以及基因间相互作用。该工具以网站的形式方便大家使用,目前只支持人的基因集输入,笔者输入数据后的运行结果如下图所示,

一文搞懂池化层!Pooling详解(魔改篇)

一. Overlapping Pooling(重叠池化) 重叠池化正如其名字所说的,相邻池化窗口之间会有重叠区域,此时sizeX > stride 提出于ImageNet Classification with Deep Convolutional Neural Networks 相对于传统的no-overlapping pooling,采用Overlapping Pooling不仅可

Apache Hudi - 初步了解

知乎上看到的这个文章,视野开阔,转载一下。 URL: ?utm_source=com.ucmobile 自己关于 Apache Hudi 的一些简单的了解和想法。 背景 Hudi 是 Uber 主导开发的开源数据湖框架。所以大部分的出发点都来源于 Uber 自身场景,比如司机数据和乘客数据通过订单 Id 来做 Join

《噪声》全书总结

1.偏差和噪声,即系统性偏差和随机分散,是误差的不同组成成分。偏差和噪声是独立的。 2.可将“判断”描述为使用人类大脑作为工具的一种测量。决策需要预测性判断和评估性判断。 3.噪声的分类:水平噪声/模式噪声/情境噪声。情绪是情境噪声的源头。 4.明智的简单规则比人类的判断要好很多。 5.理解现实的过程是回溯性的。理解就是描述因果关系,而预测能力就是衡量这一因果关系是否成立的指标。 6.替代偏差导致

从人类到 AI:意群阅读的奥秘与英语学习的高效技巧

一、人类的英语阅读理解:意群如何加速大脑处理? 1.1 什么是意群(Chunking):自然语义单元意群,顾名思义,就是将语言中具有内在联系的部分组合在一起,形成一个相对独立且完整的语义单元。举个简单的例子,在句子“I love reading books in the

机器能做科学家吗?一场关于开放式科研的 AI 革命

目录一、引言:AI 能否成为真正的“科学家”?二、背景综述:构建“自动科研”的基础模块(一)大语言模型(LLMs):AI 科学家的“大脑”(二)LLM 代理框架(Agent Frameworks):让模型“做事”的方式