Pandas DataFrame Groupby twee kolommen en krijg tellingen

November 16, 2021

Ik heb een panda-dataframe in de volgende indeling:

df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8], ['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w'],['1','3','3','2','4','2','5','3','6','3','5','1','1','1']]).T
df.columns = ['col1','col2','col3','col4','col5']

df:

  col1 col2 col3     col4 col5
0   1.1    A  1.1    x/y/z    1
1   1.1    A  1.7      x/y    3
2   1.1    A  2.5  x/y/z/n    3
3   2.6    B  2.6      x/u    2
4   2.5    B  3.3        x    4
5   3.4    B  3.8    x/u/v    2
6   2.6    B    4    x/y/z    5
7   2.6    A  4.2        x    3
8   3.4    B  4.3  x/u/v/b    6
9   3.4    C  4.5        -    3
10  2.6    B  4.6      x/y    5
11  1.1    D  4.7    x/y/z    1
12  1.1    D  4.7        x    1
13  3.3    D  4.8  x/u/v/w    1

Nu wil ik dit groeperen in twee kolommen, zoals de volgende:

df.groupby(['col5','col2']).reset_index()

Uitvoer:

            index col1 col2 col3     col4 col5
col5 col2                                      
1    A    0      0  1.1    A  1.1    x/y/z    1
     D    0     11  1.1    D  4.7    x/y/z    1
          1     12  1.1    D  4.7        x    1
          2     13  3.3    D  4.8  x/u/v/w    1
2    B    0      3  2.6    B  2.6      x/u    2
          1      5  3.4    B  3.8    x/u/v    2
3    A    0      1  1.1    A  1.7      x/y    3
          1      2  1.1    A  2.5  x/y/z/n    3
          2      7  2.6    A  4.2        x    3
     C    0      9  3.4    C  4.5        -    3
4    B    0      4  2.5    B  3.3        x    4
5    B    0      6  2.6    B    4    x/y/z    5
          1     10  2.6    B  4.6      x/y    5
6    B    0      8  3.4    B  4.3  x/u/v/b    6

Ik wil de telling van elke rij als volgt halen.
Verwachte output:

col5 col2 count
1    A      1
     D      3
2    B      2
etc...

Hoe krijg je mijn verwachte output? En ik wil het grootste aantal vinden voor elke ‘Col2’-waarde?

Antwoord 1, Autoriteit 100%

gevolgd door het antwoord van @ andy, kunt u volgen om uw tweede vraag op te lossen:

In [56]: df.groupby(['col5','col2']).size().reset_index().groupby('col2')[[0]].max()
Out[56]: 
      0
col2   
A     3
B     2
C     1
D     3

Antwoord 2, Autoriteit 109%

U zoekt size:

In [11]: df.groupby(['col5', 'col2']).size()
Out[11]:
col5  col2
1     A       1
      D       3
2     B       2
3     A       3
      C       1
4     B       1
5     B       2
6     B       1
dtype: int64

Om hetzelfde antwoord te krijgen als wachttekuo (de “tweede vraag”), maar enigszins schoner, is om het niveau te groeperen:

In [12]: df.groupby(['col5', 'col2']).size().groupby(level=1).max()
Out[12]:
col2
A       3
B       2
C       1
D       3
dtype: int64

Antwoord 3, Autoriteit 18%

gegevensinvoegen in een panda-dataframe en kolomnaam opgeven.

import pandas as pd
df = pd.DataFrame([['A','C','A','B','C','A','B','B','A','A'], ['ONE','TWO','ONE','ONE','ONE','TWO','ONE','TWO','ONE','THREE']]).T
df.columns = [['Alphabet','Words']]
print(df)   #printing dataframe.

Dit zijn onze gedrukte gegevens:

Voor het maken van een groep dataframes in panda’s en counter,
U moet nog een kolom opgeven die de groepering telt, laten we die kolom noemen als, “COUNTER”in dataframe.

Zoals dit:

df['COUNTER'] =1       #initially, set that counter to 1.
group_data = df.groupby(['Alphabet','Words'])['COUNTER'].sum() #sum function
print(group_data)

OUTPUT:

Antwoord 4, autoriteit 18%

Idiomatische oplossing die slechts één groupby gebruikt

(df.groupby(['col5', 'col2']).size() 
   .sort_values(ascending=False) 
   .reset_index(name='count') 
   .drop_duplicates(subset='col2'))
  col5 col2  count
0    3    A      3
1    1    D      3
2    5    B      2
6    3    C      1

Uitleg

Het resultaat van de groupby sizemethode is een Series met col5en col2in de index. Vanaf hier kun je een andere groupby-methode gebruiken om de maximale waarde van elke waarde in col2te vinden, maar dat is niet nodig. U kunt alle waarden eenvoudig aflopend sorteren en dan alleen de rijen behouden waarin col2voor het eerst voorkomt met de drop_duplicates-methode.

Antwoord 5, autoriteit 3%

Moet je een nieuwe kolom (zeg ‘count_column’) met de groepsaantallen aan het dataframe toevoegen:

df.count_column=df.groupby(['col5','col2']).col5.transform('count')

(Ik heb ‘col5’ gekozen omdat het geen nan bevat)

Antwoord 6

U kunt gewoon de ingebouwde functietelling gebruiken, gevolgd door de groupby-functie

df.groupby(['col5','col2']).count()

Previous articleHoe importeer ik een SQL-bestand met de opdrachtregel in MySQL?

Next articleHoe kan ik logboekregistratie van Assembly-bindingen inschakelen?

Pandas DataFrame Groupby twee kolommen en krijg tellingen

Antwoord 1, Autoriteit 100%

Antwoord 2, Autoriteit 109%

Antwoord 3, Autoriteit 18%

Antwoord 4, autoriteit 18%

Idiomatische oplossing die slechts één groupby gebruikt

Antwoord 5, autoriteit 3%

Antwoord 6

Other episodes

Verschillen tussen numpy.random.rand en numpy.random.randn in Python

Bewerken van specifieke regel in tekstbestand in Python

Single Sign On (SSO) implementeren met Django

hoe sorteer ik op lengte van string gevolgd door alfabetische volgorde?

LabelEncoder: TypeError: ‘>’ niet ondersteund tussen instanties van ‘float’ en ‘str’

Lxml-module installeren in python

`staticmethod` en `abc.abstractmethod`: gaat het samensmelten?