几天前,我发布了一个关于“如何使 pandas HDFStore 'put' 操作更快”的问题,感谢 Jeff 的回答,我找到了一种更有效的方法来从 db 中提取数据并将它们存储到 hdf5 文件中。
但是通过这种方式,我必须根据它们的类型为每一列填充缺失的数据,并在每一个表上做这些工作(在大多数情况下,这项工作是重复的)。否则,当我将数据帧放入 hdf5 文件时,数据帧中的 None 对象会导致性能问题。
有没有更好的方法来完成这项工作?
我刚刚阅读了这个问题“ENH:sql to provide NaN/NaT conversions”
- NaT 可以与其他类型一起使用吗?(datetime64 除外)
- 在将数据帧存储到 hdf5 文件时,我可以使用它替换数据帧中的所有 None 对象而不用担心性能问题吗?
更新1
- PD。版本:0.10.1
- 我现在正在使用 np.nan 来填充缺失的数据。但是我遇到了两个问题。
- 同时具有 np.nan 和 datetime.datetime objs 的列不能转换为 'datetime64[ns]' 类型,并且在将它们放入 hdfstore 时会引发异常。
在 [155] 中:len(df_bugs.lastdiffed[df_bugs.lastdiffed.isnull()])
输出[155]:150
在 [156] 中:len(df_bugs.lastdiffed)
出[156]:1003387
在 [158] 中:df_bugs.lastdiffed.astype(df_bugs.creation_ts.dtype)
-------------------------------------------------- -------------------------
ValueError Traceback(最近一次调用最后一次)
在 ()
----> 1 df_bugs.lastdiffed.astype(df_bugs.creation_ts.dtype)
/usr/local/lib/python2.6/dist-packages/pandas-0.10.1-py2.6-linux-x86_64.egg/pandas/core/series.pyc in astype(self, dtype)
第777章
第778章
--> 779 铸造 = com._astype_nansafe(self.values, dtype)
第780章
781
/usr/local/lib/python2.6/dist-packages/pandas-0.10.1-py2.6-linux-x86_64.egg/pandas/core/common.pyc in _astype_nansafe(arr, dtype)
第1047章
1048 # 解决 NumPy 损坏问题,#1987
-> 1049 返回 lib.astype_intsafe(arr.ravel(), dtype).reshape(arr.shape)
1050
第1051章
/usr/local/lib/python2.6/dist-packages/pandas-0.10.1-py2.6-linux-x86_64.egg/pandas/lib.so 在 pandas.lib.astype_intsafe (pandas/lib.c:11886 )()
/usr/local/lib/python2.6/dist-packages/pandas-0.10.1-py2.6-linux-x86_64.egg/pandas/lib.so in util.set_value_at (pandas/lib.c:44436)( )
ValueError:必须是 datetime.date 或 datetime.datetime 对象
# df_bugs_sample1 = df_bugs.ix[:10000]
在 [147] 中:%prun store.put('df_bugs_sample1', df_bugs_sample1, table=True)
/usr/local/lib/python2.6/dist-packages/pandas-0.10.1-py2.6-linux-x86_64.egg/pandas/io/pytables.pyc in put(self, key, value, table, append , **kwargs)
456表
第457章
--> 458 self._write_to_group(key, value, table=table, append=append, **kwargs)
459
460 def删除(自我,键,其中=无,开始=无,停止=无):
/usr/local/lib/python2.6/dist-packages/pandas-0.10.1-py2.6-linux-x86_64.egg/pandas/io/pytables.pyc in _write_to_group(self, key, value, index, table , 附加, complib, **kwargs)
786 raise ValueError('非表不支持压缩')
787
--> 788 s.write(obj = value, append=append, complib=complib, **kwargs)
789 如果 s.is_table 和索引:
790 s.create_index(列=索引)
/usr/local/lib/python2.6/dist-packages/pandas-0.10.1-py2.6-linux-x86_64.egg/pandas/io/pytables.pyc in write(self, obj, axes, append, complib , complevel, fletcher32, min_itemsize, chunksize, expectedrows, **kwargs)
第2489章
第2490章
-> 2491 min_itemsize=min_itemsize, **kwargs)
2492
2493 如果不是 self.is_exists:
/usr/local/lib/python2.6/dist-packages/pandas-0.10.1-py2.6-linux-x86_64.egg/pandas/io/pytables.pyc in create_axes(self,axes,obj,validate,nan_rep , data_columns, min_itemsize, **kwargs)
第2252章
2253 除外(例外),详细信息:
-> 2254 raise Exception("找不到正确的原子类型 -> [dtype->%s,items->%s] %s" % (b.dtype.name, b.items, str(detail)))
2255 j += 1
2256
例外:找不到正确的原子类型 -> [dtype->object,items->Index([bug_file_loc, bug_severity, bug_status, cf_branch, cf_bug_source, cf_eta, cf_public_severity, cf_public_summary, cf_regression, cf_reported_by, cf_type, guest_op_sys, host_op_sys, 关键字, lastdiffed, priority, rep_platform, resolution, short_desc, status_whiteboard, target_milestone], dtype=object)] 'datetime.datetime' 类型的对象没有 len()
- 而另一个 df 似乎不能完全放入数据框中,如下例所示,条目数为13742515,但在我将数据框放入 hdfstore 并取出后,条目数变为1041998。这很奇怪~
在 [123]:df_bugs_activity
出[123]:
Int64Index:13742515 个条目,0 到 13742514
数据列:
添加了 13111366 个非空值
attach_id 1041998 非空值
bug_id 13742515 非空值
bug_when 13742515 非空值
fieldid 13742515 非空值
id 13742515 非空值
删除了 13612258 个非空值
谁 13742515 个非空值
数据类型:datetime64[ns](1)、float64(1)、int64(4)、object(2)
在 [121] 中:%time store.put('df_bugs_activity2', df_bugs_activity, table=True)
CPU 时间:用户 35.31 秒,系统:4.23 秒,总计:39.54 秒
挂壁时间:39.65 秒
在 [122] 中:%time store.get('df_bugs_activity2')
CPU 时间:用户 7.56 秒,系统:0.26 秒,总计:7.82 秒
挂壁时间:7.84 秒
输出[122]:
Int64Index:1041998 个条目,2012 到 13354656
数据列:
添加了 1041981 个非空值
attach_id 1041998 非空值
bug_id 1041998 非空值
bug_when 1041998 非空值
fieldid 1041998 非空值
id 1041998 非空值
删除了 1041991 个非空值
谁 1041998 个非空值
数据类型:datetime64[ns](1)、float64(1)、int64(4)、object(2)
更新 2
- 创建数据框的代码:
def grab_data(table_name, size_of_page=20000):
'''
从 db 表中获取数据
size_of_page:sql的limit子类的第二个参数
'''
cur.execute('select count(*) from %s' % table_name)
records_number = cur.fetchone()[0]
loop_number = records_number / size_of_page + 1
print '****\nStart Grab %s\n****\nrecords_number: %s\nloop_number: %s' % (table_name, records_number, loop_number)
开始位置 = 0
df = DataFrame() # 警告:这个数据框对象将包含一个表的所有记录,所以要小心内存使用!
对于我在范围内(0,loop_number):
sql_export = 'select * from %s limit %s, %s' % (table_name, start_position, size_of_page)
df = df.append(psql.read_frame(sql_export, conn), verify_integrity=False, ignore_index=True)
start_position += size_of_page
打印 'start_position: %s' % start_position
返回df
df_bugs = grab_data('错误')
df_bugs = df_bugs.fillna(np.nan)
df_bugs = df_bugs.convert_objects()
- df_bugs 的结构:
Int64Index:1003387 个条目,0 到 1003386 数据列: 别名 0 非空值 assign_to 1003387 个非空值 bug_file_loc 498160 非空值 bug_id 1003387 非空值 bug_severity 1003387 非空值 bug_status 1003387 非空值 category_id 1003387 非空值 cclist_accessible 1003387 非空值 cf_attempted 102160 个非空值 cf_branch 691834 非空值 cf_bug_source 1003387 非空值 cf_build 357920 非空值 cf_change 324933 非空值 cf_doc_impact 1003387 非空值 cf_eta 7223 非空值 cf_failed 102123 非空值 cf_i18n_impact 1003387 非空值 cf_on_hold 1003387 非空值 cf_public_severity 1003387 非空值 cf_public_summary 587944 非空值 cf_regression 1003387 非空值 cf_reported_by 1003387 非空值 cf_reviewer 1003387 非空值 cf_security 1003387 非空值 cf_test_id 13475 个非空值 cf_type 1003387 非空值 cf_viss 1423 个非空值 component_id 1003387 非空值 creation_ts 1003387 非空值 截止日期 0 非空值 delta_ts 1003387 个非空值 估计时间 1003387 个非空值 everconfirmed 1003387 个非空值 found_in_phase_id 1003387 非空值 found_in_product_id 1003387 非空值 found_in_version_id 1003387 非空值 guest_op_sys 1003387 非空值 host_op_sys 1003387 非空值 关键字 1003387 个非空值 lastdiffed 1003237 个非空值 优先级 1003387 非空值 product_id 1003387 非空值 qa_contact 1003387 非空值 剩余时间 1003387 个非空值 rep_platform 1003387 非空值 记者 1003387 非空值 report_accessible 1003387 非空值 分辨率 1003387 非空值 short_desc 1003387 非空值 status_whiteboard 1003387 非空值 target_milestone 1003387 非空值 投票 1003387 个非空值 数据类型:datetime64[ns](2)、float64(10)、int64(19)、object(21)
更新 3
- 写入 csv 并从 csv 读取:
在 [184] 中:df_bugs.to_csv('df_bugs.sv')
在 [185] 中:df_bugs_from_scv = pd.read_csv('df_bugs.sv')
在 [186] 中:df_bugs_from_scv
出[186]:
Int64Index:1003387 个条目,0 到 1003386
数据列:
未命名:0 1003387 个非空值
别名 0 非空值
assign_to 1003387 个非空值
bug_file_loc 0 个非空值
bug_id 1003387 非空值
bug_severity 1003387 非空值
bug_status 1003387 非空值
category_id 1003387 非空值
cclist_accessible 1003387 非空值
cf_attempted 102160 个非空值
cf_branch 345133 非空值
cf_bug_source 1003387 非空值
cf_build 357920 非空值
cf_change 324933 非空值
cf_doc_impact 1003387 非空值
cf_eta 7223 非空值
cf_failed 102123 非空值
cf_i18n_impact 1003387 非空值
cf_on_hold 1003387 非空值
cf_public_severity 1003387 非空值
cf_public_summary 588 个非空值
cf_regression 1003387 非空值
cf_reported_by 1003387 非空值
cf_reviewer 1003387 非空值
cf_security 1003387 非空值
cf_test_id 13475 个非空值
cf_type 1003387 非空值
cf_viss 1423 个非空值
component_id 1003387 非空值
creation_ts 1003387 非空值
截止日期 0 非空值
delta_ts 1003387 个非空值
估计时间 1003387 个非空值
everconfirmed 1003387 个非空值
found_in_phase_id 1003387 非空值
found_in_product_id 1003387 非空值
found_in_version_id 1003387 非空值
guest_op_sys 805088 非空值
host_op_sys 806344 非空值
关键字 532941 个非空值
lastdiffed 1003237 个非空值
优先级 1003387 非空值
product_id 1003387 非空值
qa_contact 1003387 非空值
剩余时间 1003387 个非空值
rep_platform 424213 非空值
记者 1003387 非空值
report_accessible 1003387 非空值
分辨率 922282 非空值
short_desc 1003287 非空值
status_whiteboard 0 个非空值
target_milestone 423276 个非空值
投票 1003387 个非空值
数据类型:float64(12)、int64(20)、object(21)