0

我可以通过手动提供列名和值来创建数据框并将其传递给生产代码以检查 palantir 代工厂代码存储库中所有转换后的字段值来编写 pytest 函数。

我不想手动传递列名及其各自的值,而是将所有必需的数据存储在数据集中,并将该数据集导入 pytest 函数以获取所有必需的值并传递给生产代码以检查所有转换后的字段值。

无论如何接受数据集作为planatir代码存储库中的测试函数的输入。

4

1 回答 1

2

您可能可以执行以下操作:

假设您将 csv 放在fixtures/测试旁边的文件夹中。

test_yourtest.py
fixtures/yourfilename.csv

您可以直接读取它并将其传递以创建一个新的数据框。我没有测试这段代码,但它应该类似于:

def load_file(spark_context):
    filename = "yourfilename.csv"
    file_path = os.path.join(Path(__file__).parent,  "fixtures", filename)

    return open(file_path).read()

现在您可以加载 CSV,只需将其加载到数据框并将其传递到您要测试的 pyspark 逻辑中。获取 CSV 到 Spark 数据框

于 2020-11-05T10:30:15.447 回答