Ik moet het aantal niet-NaN-elementen in een numpy ndarray-matrix berekenen. Hoe zou men dit efficiënt doen in Python? Hier is mijn eenvoudige code om dit te bereiken:

import numpy as np
def numberOfNonNans(data):
    count = 0
    for i in data:
        if not np.isnan(i):
            count += 1
    return count

Is hier een ingebouwde functie voor in numpy? Efficiëntie is belangrijk omdat ik Big Data-analyse doe.

Thnx voor alle hulp!

Antwoord 1, autoriteit 100%

np.count_nonzero(~np.isnan(data))

~keert de booleaanse matrix om die wordt geretourneerd door np.isnan.

np.count_nonzerotelt waarden die niet 0\false zijn. .sumzou hetzelfde resultaat moeten geven. Maar misschien duidelijker om count_nonzero

te gebruiken

Testsnelheid:

In [23]: data = np.random.random((10000,10000))
In [24]: data[[np.random.random_integers(0,10000, 100)],:][:, [np.random.random_integers(0,99, 100)]] = np.nan
In [25]: %timeit data.size - np.count_nonzero(np.isnan(data))
1 loops, best of 3: 309 ms per loop
In [26]: %timeit np.count_nonzero(~np.isnan(data))
1 loops, best of 3: 345 ms per loop
In [27]: %timeit data.size - np.isnan(data).sum()
1 loops, best of 3: 339 ms per loop

data.size - np.count_nonzero(np.isnan(data))lijkt hier nauwelijks de snelste te zijn. andere gegevens kunnen andere relatieve snelheidsresultaten opleveren.

Antwoord 2, autoriteit 8%

Snel te schrijven alternatief

Ook al is dit niet de snelste keuze, als prestatie geen probleem is, kun je het volgende gebruiken:

sum(~np.isnan(data)).

Prestaties:

In [7]: %timeit data.size - np.count_nonzero(np.isnan(data))
10 loops, best of 3: 67.5 ms per loop
In [8]: %timeit sum(~np.isnan(data))
10 loops, best of 3: 154 ms per loop
In [9]: %timeit np.sum(~np.isnan(data))
10 loops, best of 3: 140 ms per loop

Antwoord 3, autoriteit 2%

Een alternatief, maar een wat langzamer alternatief is om het via indexering te doen.

np.isnan(data)[np.isnan(data) == False].size
In [30]: %timeit np.isnan(data)[np.isnan(data) == False].size
1 loops, best of 3: 498 ms per loop

Het dubbele gebruik van np.isnan(data)en de ==operator is misschien een beetje overdreven en daarom heb ik het antwoord alleen voor de volledigheid gepost.

Antwoord 4

Om te bepalen of de array schaars is, kan het helpen om een deel van de nan-waarden te krijgen

np.isnan(ndarr).sum() / ndarr.size

Als dat aandeel een drempel overschrijdt, gebruik dan een schaarse array, b.v.
– https://sparse.pydata.org/en/latest/

Het aantal niet-NaN-elementen tellen in een numpy ndarray in Python

Antwoord 1, autoriteit 100%

Antwoord 2, autoriteit 8%

Snel te schrijven alternatief

Prestaties:

Antwoord 3, autoriteit 2%

Antwoord 4

Other episodes

Het aantal niet-NaN-elementen tellen in een numpy ndarray in Python

Antwoord 1, autoriteit 100%

Antwoord 2, autoriteit 8%

Snel te schrijven alternatief

Prestaties:

Antwoord 3, autoriteit 2%

Antwoord 4

Other episodes

Verschillen tussen numpy.random.rand en numpy.random.randn in Python

Bewerken van specifieke regel in tekstbestand in Python

Single Sign On (SSO) implementeren met Django

hoe sorteer ik op lengte van string gevolgd door alfabetische volgorde?

LabelEncoder: TypeError: ‘>’ niet ondersteund tussen instanties van ‘float’ en ‘str’

Lxml-module installeren in python

`staticmethod` en `abc.abstractmethod`: gaat het samensmelten?