问题标签 [json-normalize]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
74 浏览

python - 如何从字典列表中创建 FusionCharts 热图?

我想在 python 中使用 FusionCharts 热图显示以下数据:

但我在 FusionCharts 网站上找不到这方面的指南。我怎样才能使用python做到这一点?

0 投票
4 回答
1085 浏览

python - Pandas 子字符串 DataFrame 列

我有一个 pandas DataFrame,其中有一列名为positions,其中包含具有以下示例语法的字符串值:

我想在我的 pandas DataFrame 中创建四个新列,它们y_start是仅提取数字的列。x_starty_endx_end

例如,对于第一行的示例,我的新列将具有以下值:

y_start= 49
x_start= 44
y_end= 78
x_end= 31

总而言之,我希望仅提取第一次、第二次、第三次和第四次出现的数字并将它们保存到单独的列中。

0 投票
2 回答
86 浏览

python - 如何将json数据更改为数据框?

我需要帮助将 json 数据转换为数据框。你能帮我怎么做吗?

例子:

JSON数据

理想的输出:

0 投票
2 回答
347 浏览

python - 为什么是pandas.read_json,修改长整数的值?

我不知道为什么打印时id_1 & id_2的原始内容会发生变化。

我有一个名为test_data.json的 json 文件

输出

我的名为test_data.py的代码是

我该如何解决这个问题,以便正确解释数值?

0 投票
2 回答
1645 浏览

python - 如何在不丢失记录的情况下使用空列表对熊猫中的列进行 json_normalize

我正在使用将此数据pd.json_normalize中的字段展平"sections"为行。"sections"除了是空列表的行之外,它工作正常。

此 ID 被完全忽略,并且在最终展平的数据框中丢失。我需要确保数据中每个唯一 ID 至少有一行(某些 ID 可能有很多行,每个唯一 ID、每个唯一 ID 最多一行section_idquestion_id并且answer_id当我在数据中取消嵌套更多字段时):

样本数据:

测试:

在这一点上,我现在缺少我仍然需要的 ID“5f48f708fe22ca4d15fb3b55”行。

我可以以某种方式更改它以确保每个 ID 至少有一行吗?我正在处理数百万条记录,并且不想稍后意识到我的最终数据中缺少一些 ID。我能想到的唯一解决方案是将每个数据帧标准化,然后再次将其加入原始数据帧。

0 投票
1 回答
110 浏览

python - 展平熊猫中的嵌套json

我收到了 JSON 格式的天气观测数据,我想将其展平。

一份全记录

  • 第一个位置包含 25 个报告,Rep位于'Period'

JSON 的结构如下所示,其中每个周期有两个报告:

所需的输出将是位置、期间和报告值被展平的表格。

我已经设法让位置变平

所以现在我的数据看起来像

展平 Period 列的最佳方法是什么?有没有更好的方法来达到预期的结果?

谢谢你。

PS 完整的 json 文件位于https://wetransfer.com/downloads/5dd39d51e640d94a87e04297bfa1db3d20200909162616/c41164

0 投票
1 回答
222 浏览

pandas - Pandas Dataframe 将具有 dict 值的列拆分为列

我正在尝试将带有字典值列表的熊猫数据框中的列拆分并转换为新列。使用将 Pandas 列中的字典/列表拆分为单独的列作为参考,事情似乎失败了,因为其中一些值是 NaN。当遇到这些行时,会引发错误,无法迭代浮点数,如果我fillna使用 None 错误将更改为str相关错误。

我试图首先使用:

我这样做是为了本质上将字典列表更改为字典。

以 ehf 第一行为例,我希望实现:

我从 开始explode,这一步非常有效。

但是,我没有尝试使用reset_index(). 它pd.concat()是失败的,我认为它要么与 要么NaN列表中实际上有多个字典有关。例如,在explode()ie之后{}, {}, {}

0 投票
1 回答
2306 浏览

python - 如何使用 NaN 对列进行 json_normalize

  • 此问题特定于 a 中的数据列pandas.DataFrame
  • 这个问题取决于列中的值是strdict还是list类型。
  • 这个问题解决了在不是有效选项时处理NaN值的问题。df.dropna().reset_index(drop=True)

情况1

  • 使用strtype 的列,必须将列中的值转换为dicttype , with ast.literal_eval,然后使用.json_normalize

错误:

案例2

  • 具有dict类型的列,pandas.json_normalize用于将键转换为列标题,将值转换为行

错误:

案例3

  • str类型的列中,dict内部带有list.
  • 规范化列
    • apply literal_eval,因为 explode 不适用于str类型
    • 分解列dicts以分隔行
    • 规范化列

错误:

0 投票
1 回答
207 浏览

python - 如何从嵌套的 JSON 中提取和计算值?

我正在尝试遍历 json 列表并从每个 json 返回的字典字典中提取一些信息。大约 99% 的时间,每个 json 字典的第三层包含 5 个 'name' 值,其中 2 个是 xml 文件名。但是,文件不是每次都以相同的顺序出现,并且选择几次,只有一个xml文件。

在代码进入第二个循环之前,我构建了一个循环来使用搜索字符串计算 xml 文件的数量。这可确保xml_dict我在每个循环中创建的值具有正确数量的值 (2)。

“预计数器”有效,但确实减慢了执行速度。有没有办法更好地结合 xml 计数器来提高性能?另外,我不知道我是否需要'else: continue'。

示例 json 链接:https ://www.sec.gov/Archives/edgar/data/1736260/000173626020000004/index.json

0 投票
1 回答
306 浏览

python - 如何将一列字典转换为熊猫中的单独列?

鉴于以下字典创建自df['statistics'].head().to_dict()

有没有办法将字典键/值对扩展为它们自己的列,并在这些列前面加上原始列的名称,即 statisistics.executions.total 会变成 statistics_executions_total 甚至是 executions_total?

我已经证明我可以使用以下内容创建列:

pd.concat([df.drop(['statistics'], axis=1), df['statistics'].apply(pd.Series)], axis=1) 但是,您会注意到这些新创建的列中的每一个都有一个重复的名称“total”。

我; 但是,还没有找到一种方法来为新创建的列添加原始列名前缀,即 executions_total。

为了获得更多洞察力,统计数据将扩展到执行和缺陷,执行将扩展到通过 | 失败 | 跳过 | 总数和缺陷将扩展为automation_bug | 系统问题 | 调查 | 产品错误 | 无缺陷。后者将扩展为总 | **001 列,其中总计重复了多次。

非常感谢任何想法。-谢谢!