我试图了解考拉的内部运作。我使用的每个教程都向我展示了三个概念
- 火花数据框
- 内部框架
- 考拉数据框
据我了解,spark dataframe是典型的分布式spark dataframe。现在,这个 spark 数据框需要以 pandas 数据框的形式呈现,以使概念更加清晰,这就是内部框架概念的来源。内部框架保留了诸如 spark 列名 --> pandas 列名和有关信息的映射。指数等
看起来 koalas 数据帧只是一个逻辑概念,人们可以将其理解为 spark 数据帧的解析输出,内部帧提供解析器。它是 spark 数据帧的抽象层,有助于使 spark 数据帧适合 koalas API(熊猫风格)
对 koalas 数据帧的每个 API 调用都会创建一个新的内部帧,并且会创建或不创建新的 spark 数据帧。
但是,我也看到了这样的图像:
这就是我的困惑所在。创建或不创建新的考拉数据框是什么意思?考拉数据框到底是什么?以第一张图片的具体示例为例,在应用诸如此类的操作时,在更改内部框架和 spark 数据帧的同时保持考拉数据帧相同是什么意思kdf.dropna(...,inplace=True)
?