给定 CSV 文件,我使用如下代码转换为 Dataframe。
raw_df = spark.read.csv(input_data, header=True)
创建的数据框看起来像这样:
| Name |
========
| 23 |
| hi2 |
| me3 |
| do |
我想将此列转换为仅包含数字。最终结果应该类似于 wherehi
和me
are removed:
| Name |
========
| 23 |
| 2 |
| 3 |
| do |
我想清理这些值并确保它只包含数字。但我不确定在 Spark 中是否可行。