【推荐系统】深度学习训练框架(十五):特征工程——PySpark DataFrame数据处理核心指南
📚 一、DataFrame核心概念
1.1 什么是DataFrame?本质:PySpark DataFrame是一个分布式、不可变、基于命名列的数据集合,类似于关系型数据库表或Pandas DataFrame,但底层是RDD的封装。关键特性:
分布式处理:数据自动分区在集群节点上并行处理
惰性
