我一直在填写使用 Great_Expectations 'BasicSuiteBuilderProfiler' 创建轻量级数据配置文件的指南 以下段落描述了如何使用 Great_Expectations 数据分析器
分析与远大期望有何关系?
您可能已经或可能尚未使用 Great Expectations 附带的内置分析功能,特别是在运行套件脚手架命令时。这会使用我们的 BasicSuiteBuilderProfiler 加载一个样板笔记本,它会根据一些轻量级分析自动生成一个 Expectation Suite。例如,如果我们的分析器发现一个列没有 NULL 值,它将创建一个 expect_column_values_to_not_be_null 期望。或者,如果它确定一列只包含来自特定值集的字符串,比如“apple”、“pear”、“orange”,它将创建一个相应的值集期望: expect_column_values_to_be_in_set(column=”fruit”, values=( “苹果”、“梨”、“橙”))。知道了?
但是,当我在我的 Apache Spark 平台上使用探查器时,如下所示:
expectation_suite, validation_result2 = BasicDatasetProfiler.profile(ge_df)
当我运行代码时,validation_result2
我得到以下输出格式:
"result": {
"element_count": 5,
"missing_count": 0,
"missing_percent": 0.0,
"unexpected_count": 5,
"unexpected_percent": 100.0,
"unexpected_percent_total": 100.0,
"unexpected_percent_nonmissing": 100.0,
"partial_unexpected_list": [
101,
104,
107,
103,
101
],
"partial_unexpected_index_list": null,
"partial_unexpected_counts": [
{
"value": 101,
"count": 2
},
{
"value": 103,
"count": 1
},
{
"value": 104,
"count": 1
},
{
"value": 107,
"count": 1
}
]
},
"exception_info": {
"raised_exception": false,
"exception_message": null,
"exception_traceback": null
},
"meta": {},
"success": false,
"expectation_config": {
"kwargs": {
"column": "Feed_id",
"value_set": [],
"result_format": "SUMMARY"
},
"expectation_type": "expect_column_values_to_be_in_set",
"meta": {
"BasicDatasetProfiler": {
"confidence": "very low"
}
}
}
},
我希望探查器生成
expect_column_values_to_be_in_set(column=”Feed_id”, values=(“101”,
“103”, “104”,“104”,“107”))
有人可以让我知道我错在哪里吗?