类似于Spark - Group by Key 然后 Count by Value 的东西可以让我df.series.value_counts()
在 Spark 中模拟 Pandas 的功能:
结果对象将按降序排列,因此第一个元素是最常出现的元素。默认情况下排除 NA 值。(http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html)
我很好奇这对于 Spark 中的数据帧是否不能更好/更简单地实现。