我有一个带有布尔条目的熊猫系列。我想获取值所在的索引列表True。
例如输入pd.Series([True, False, True, True, False, False, False, True])
应该产生输出[0,2,3,7]。
我可以通过列表理解来做到这一点,但是有没有更干净或更快的东西?
我有一个带有布尔条目的熊猫系列。我想获取值所在的索引列表True。
例如输入pd.Series([True, False, True, True, False, False, False, True])
应该产生输出[0,2,3,7]。
我可以通过列表理解来做到这一点,但是有没有更干净或更快的东西?
Boolean Indexing>>> s = pd.Series([True, False, True, True, False, False, False, True])
>>> s[s].index
Int64Index([0, 2, 3, 7], dtype='int64')
如果需要np.array对象,请获取.values
>>> s[s].index.values
array([0, 2, 3, 7])
np.nonzero>>> np.nonzero(s)
(array([0, 2, 3, 7]),)
np.flatnonzero>>> np.flatnonzero(s)
array([0, 2, 3, 7])
np.where>>> np.where(s)[0]
array([0, 2, 3, 7])
np.argwhere>>> np.argwhere(s).ravel()
array([0, 2, 3, 7])
pd.Series.index>>> s.index[s]
array([0, 2, 3, 7])
filter>>> [*filter(s.get, s.index)]
[0, 2, 3, 7]
list comprehension>>> [i for i in s.index if s[i]]
[0, 2, 3, 7]
作为rafaelc 答案的补充,以下是以下设置的相应时间(从最快到最慢)
import numpy as np
import pandas as pd
s = pd.Series([x > 0.5 for x in np.random.random(size=1000)])
np.where>>> timeit np.where(s)[0]
12.7 µs ± 77.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
np.flatnonzero>>> timeit np.flatnonzero(s)
18 µs ± 508 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
pd.Series.index布尔索引的时间差让我感到非常惊讶,因为布尔索引通常更常用。
>>> timeit s.index[s]
82.2 µs ± 38.9 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
Boolean Indexing>>> timeit s[s].index
1.75 ms ± 2.16 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
如果您需要一个np.array对象,请获取.values
>>> timeit s[s].index.values
1.76 ms ± 3.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
如果您需要更易于阅读的版本<-不在原始答案中
>>> timeit s[s==True].index
1.89 ms ± 3.52 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
pd.Series.where<-- 不在原始答案中>>> timeit s.where(s).dropna().index
2.22 ms ± 3.32 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
>>> timeit s.where(s == True).dropna().index
2.37 ms ± 2.19 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
pd.Series.mask<-- 不在原始答案中>>> timeit s.mask(s).dropna().index
2.29 ms ± 1.43 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
>>> timeit s.mask(s == True).dropna().index
2.44 ms ± 5.82 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
list comprehension>>> timeit [i for i in s.index if s[i]]
13.7 ms ± 40.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
filter>>> timeit [*filter(s.get, s.index)]
14.2 ms ± 28.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
np.nonzero<-- 对我来说不是开箱即用的>>> timeit np.nonzero(s)
ValueError: Length of passed values is 1, index implies 1000.
np.argwhere<-- 对我来说不是开箱即用的>>> timeit np.argwhere(s).ravel()
ValueError: Length of passed values is 1, index implies 1000.
也适用:
s.where(lambda x: x).dropna().index,它的优点是易于链接管道 - 如果您的系列是动态计算的,则无需将其分配给变量。
请注意,如果是从:s计算的,那么
您也可以使用:。rs = cond(r)r.where(lambda x: cond(x)).dropna().index