Een Pandas-dataframe maken van een Numpy-array: hoe specificeer ik de indexkolom en kolomkoppen?

November 25, 2021

Ik heb een Numpy-array die bestaat uit een lijst met lijsten, die een tweedimensionale array voorstelt met rijlabels en kolomnamen zoals hieronder weergegeven:

data = array([['','Col1','Col2'],['Row1',1,2],['Row2',3,4]])

Ik wil dat het resulterende DataFrame Row1 en Row2 als indexwaarden heeft, en Col1, Col2 als headerwaarden

Ik kan de index als volgt specificeren:

df = pd.DataFrame(data,index=data[:,0]),

Ik weet echter niet hoe ik kolomkoppen het beste kan toewijzen.

Antwoord 1, autoriteit 100%

U moet data, indexen columnsspecificeren voor DataFrame-constructor, zoals in:

>>> pd.DataFrame(data=data[1:,1:],    # values
...              index=data[1:,0],    # 1st column as index
...              columns=data[0,1:])  # 1st row as the column names

bewerken: zoals in de @joris-opmerking, moet u mogelijk hierboven wijzigen in np.int_(data[1:,1:])om correcte gegevens te hebben typ.

Antwoord 2, autoriteit 36%

Hier is een gemakkelijk te begrijpen oplossing

import numpy as np
import pandas as pd
# Creating a 2 dimensional numpy array
>>> data = np.array([[5.8, 2.8], [6.0, 2.2]])
>>> print(data)
>>> data
array([[5.8, 2.8],
       [6. , 2.2]])
# Creating pandas dataframe from numpy array
>>> dataset = pd.DataFrame({'Column1': data[:, 0], 'Column2': data[:, 1]})
>>> print(dataset)
   Column1  Column2
0      5.8      2.8
1      6.0      2.2

Antwoord 3, autoriteit 7%

Ik ben het met Joris eens; het lijkt erop dat je dit anders zou moeten doen, zoals met numpy recordarrays. Als u “optie 2” wijzigt van dit geweldige antwoord, kunt u het als volgt doen:

import pandas
import numpy
dtype = [('Col1','int32'), ('Col2','float32'), ('Col3','float32')]
values = numpy.zeros(20, dtype=dtype)
index = ['Row'+str(i) for i in range(1, len(values)+1)]
df = pandas.DataFrame(values, index=index)

Antwoord 4, autoriteit 5%

Dit kan eenvoudig worden gedaan door from_records of pandas DataFrame te gebruiken

import numpy as np
import pandas as pd
# Creating a numpy array
x = np.arange(1,10,1).reshape(-1,1)
dataframe = pd.DataFrame.from_records(x)

Antwoord 5, autoriteit 5%

   >>import pandas as pd
    >>import numpy as np
    >>data.shape
    (480,193)
    >>type(data)
    numpy.ndarray
    >>df=pd.DataFrame(data=data[0:,0:],
    ...        index=[i for i in range(data.shape[0])],
    ...        columns=['f'+str(i) for i in range(data.shape[1])])
    >>df.head()
    [![array to dataframe][1]][1]

Antwoord 6, autoriteit 2%

Toevoegen aan het antwoord van @behzad.nouri – we kunnen een hulproutine maken om dit veelvoorkomende scenario aan te pakken:

def csvDf(dat,**kwargs): 
  from numpy import array
  data = array(dat)
  if data is None or len(data)==0 or len(data[0])==0:
    return None
  else:
    return pd.DataFrame(data[1:,1:],index=data[1:,0],columns=data[0,1:],**kwargs)

Laten we het uitproberen:

data = [['','a','b','c'],['row1','row1cola','row1colb','row1colc'],
     ['row2','row2cola','row2colb','row2colc'],['row3','row3cola','row3colb','row3colc']]
csvDf(data)
In [61]: csvDf(data)
Out[61]:
             a         b         c
row1  row1cola  row1colb  row1colc
row2  row2cola  row2colb  row2colc
row3  row3cola  row3colb  row3colc

Antwoord 7, autoriteit 2%

Hier een eenvoudig voorbeeld om een panda-dataframe te maken met behulp van een numpy-array.

import numpy as np
import pandas as pd
# create an array 
var1  = np.arange(start=1, stop=21, step=1).reshape(-1)
var2 = np.random.rand(20,1).reshape(-1)
print(var1.shape)
print(var2.shape)
dataset = pd.DataFrame()
dataset['col1'] = var1
dataset['col2'] = var2
dataset.head()

Antwoord 8, autoriteit 2%

Ik denk dat dit een eenvoudige en intuïtieve methode is:

data = np.array([[0, 0], [0, 1] , [1, 0] , [1, 1]])
reward = np.array([1,0,1,0])
dataset = pd.DataFrame()
dataset['StateAttributes'] = data.tolist()
dataset['reward'] = reward.tolist()
dataset

retourneert:

Maar er zijn prestatie-implicaties die hier worden beschreven:

Instellen de waarde van een panda-kolom als lijst

Antwoord 9

Het is niet zo kort, maar kan je misschien helpen.

Array maken

import numpy as np
import pandas as pd
data = np.array([['col1', 'col2'], [4.8, 2.8], [7.0, 1.2]])
>>> data
array([['col1', 'col2'],
       ['4.8', '2.8'],
       ['7.0', '1.2']], dtype='<U4')

Dataframe maken

df = pd.DataFrame(i for i in data).transpose()
df.drop(0, axis=1, inplace=True)
df.columns = data[0]
df
>>> df
  col1 col2
0  4.8  7.0
1  2.8  1.2

Previous articleHoe sluit ik het huidige tabblad in een browservenster?

Next article3D poolcoördinaten converteren naar cartesiaanse coördinaten

Een Pandas-dataframe maken van een Numpy-array: hoe specificeer ik de indexkolom en kolomkoppen?

Antwoord 1, autoriteit 100%

Antwoord 2, autoriteit 36%

Antwoord 3, autoriteit 7%

Antwoord 4, autoriteit 5%

Antwoord 5, autoriteit 5%

Antwoord 6, autoriteit 2%

Antwoord 7, autoriteit 2%

Antwoord 8, autoriteit 2%

Antwoord 9

Other episodes

Verschillen tussen numpy.random.rand en numpy.random.randn in Python

Bewerken van specifieke regel in tekstbestand in Python

Single Sign On (SSO) implementeren met Django

hoe sorteer ik op lengte van string gevolgd door alfabetische volgorde?

LabelEncoder: TypeError: ‘>’ niet ondersteund tussen instanties van ‘float’ en ‘str’

Lxml-module installeren in python

`staticmethod` en `abc.abstractmethod`: gaat het samensmelten?