人工智能

学会分享才会学得更好

    有一种学习方法叫“教授他人”,可以让你学得更好。要想给别人讲明白,自己得先弄明白。这个经验有没有经过科学实证验证?   科学家做了大量科学研究,结果表明,当教授他人时,会获得显著的学习收益,这在研究中称之为“从教中学”。学习有三种结果。   第一种:无效学习,既没有学到知识,也不能迁移应用,什么都没有学到。比如,听了一堂课,啥也没记住。第二种:机械学习,能记住相关信息,但不理解也不能运

spark数据倾斜以及解决方案

对 Spark/Hadoop 这样的分布式大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。 对于分布式系统而言,理想情况下,随着系统规模(节点数量)的增加,应用整体耗时线性下降。如果一台机器处理一批大量数据需要120分钟,当机器数量增加到3台时,理想的耗时为120 / 3 = 40分钟。但是,想做到分布式情况下每台机器执行时间是单机时的1 / N,就必须保证每台机器的任务量相等。不幸的是,很多

【分布式】系统学习分布式系统

分布式是什么? 分布式其实就是将相同或相关的程序运行在多台计算机上,从而实现特定目标的一种计算方式。 从这个定义来看,数据并行、任务并行其实都可以算作是分布式的一种形态。 从这些计算方式的演变中不难看出,产生分布式的最主要驱动力量,是我们对于性能、可用性及可扩展性的不懈追求。 按照业务的架构层次栈,自底向上按照资源、通信、数据与计算的维度,梳理出了 4 个技术层次:分布式资源池化、分布式通信、分布

机器学习入门总结和各类常用神经网络汇总(第一篇)

这里总结了李宏毅老师的机器学习的课程。首先我们将会了解到机器学习的概念,但是课程的主要观点将会聚焦到Deep Learning。进行了解之后我们会学习到监督学习( supervised learning )的相关网络,还有自监督学习(self- supervised learning)的相关知识,包括生成对抗网络(GAN),BERT,Tansformer等。后面还会讲到强化学习(Reinforce

一文了解 NebulaGraph 上的 Spark 项目

本文首发于 Nebula Graph Community 公众号 最近我试着搭建了方便大家一键试玩的 Nebula Graph 中的 Spark 相关的项目,今天就把它们整理成文分享给大家。而且,我趟出来了 PySpark 下的 Nebula Spark Connector 的使用方式,后边也会一并贡献到文档里。 NebulaGraph 的三个 Spark 子项目 我曾经围绕 NebulaGr

Qt Creator牵手DeepSeek,开启AI开发新征程

一、引言在当今软件开发的快速发展进程中,人工智能(AI)技术正以惊人的速度融入各个环节,为开发者带来了前所未有的便利和效率提升。从代码自动补全到智能错误检测,AI 的应用让软件开发过程变得更加智能、高效 。其中,大语言模型如 DeepSeek 的出现,更是为开发者提供了强大的智能助手,能

关于AI威胁论

chatgpt和上世纪的电脑不一样。当时的电脑虽然大而笨重,但是它是一种全新的制造,只是配件太拉胯,需要不断迭代。 而chatgpt是当代的金字塔,当代的秦始皇陵墓,是一种器官。它的内核依然是上世纪的神经网络,用了点创新的迭代方法,但不够颠覆。它完全是人力物力财力堆叠出来的。 1750亿个参数的大模型,100万美元的每月电费,45TB的训练数据量,每一次训练就要花费的450万美元,以及21年整个互

2024 年 6 个开源 AI 网页爬虫框架对比评测:功能解读、应用场景分析

这是本系列的第三篇文章,重点介绍如何从网络抓取数据以丰富大模型的上下文。无论是个人使用的 AI 搜索引擎,还是企业级的知识库应用,获取实时网络数据都是关键功能,特别是网页信息的更新,有助于提高大模型回答的准确性和时效性。关于本地文档(尤其是 PDF 文件、扫描印影件、图像等)的处理方法&#xff