Hoe een .data bestandsextensie te openen

Ik werk aan nevenactiviteiten waarbij de verstrekte gegevens in een .data-bestand staan. Hoe open ik een .data-bestand om te zien hoe de gegevens eruit zien en hoe lees ik programmatisch via python uit een .data-bestand? Ik heb Mac OSX

OPMERKING:de gegevens waarmee ik werk zijn voor een van de KDD cup challenges


Antwoord 1, autoriteit 100%

Probeer alstublieft Kladblok of Gedit te gebruiken om scheidingstekens in het bestand te controleren (.data-bestanden zijn ook tekstbestanden). Nadat je dit hebt bevestigd, kun je de methode read_csvgebruiken in de Pandas-bibliotheek in python.

import pandas as pd
file_path = "~/AI/datasets/wine/wine.data"
# above .data file is comma delimited
wine_data = pd.read_csv(file_path, delimiter=",")

Antwoord 2, autoriteit 50%

Het hangt sterk af van wat erin zit. Het kan een binair bestand zijn of een tekstbestand.

Als het een tekstbestand is, kunt u het op dezelfde manier openen als een ander bestand (f=open(bestandsnaam,”r”))

Als het een binair bestand is, kun je gewoon een “b” toevoegen aan het open-commando (open(bestandsnaam,”rb”)). Hier is een voorbeeld:

Binair bestand lezen in Python en elke byte doorlopen

Afhankelijk van het type gegevens daarin, kunt u proberen deze door een csv-lezer (csv python-module) of een xml-parseerbibliotheek (een voorbeeld hiervan is lxml) te geven

Na verder van bovenaf en kijkend naar de pagina is het formaat:

Gegevensindeling
De datasets gebruiken een formaat dat vergelijkbaar is met dat van het tekstexportformaat van relationele databases:

Eén kopregel met de namen van de variabelen
Eén regel per instantie
Separatortabel tussen de waarden
Er ontbreken waarden (opeenvolgende tabellen)

Zie daarom dit antwoord:

een door tabs gescheiden bestand in Python ontleden

Ik zou adviseren om één regel tegelijk te verwerken in plaats van het hele bestand te laden, maar als je de ram hebt, waarom niet…

Ik vermoed dat het niet subliem opent omdat het bestand enorm is, maar dat is slechts een gok.


Antwoord 3

Om een snel overzicht te krijgen van de inhoud van het bestand, kunt u dit in een terminal doen, met behulp van stringsof cat, bijvoorbeeld:

$ strings file.data

of

$ cat -v file.data

In het geval dat u vergeet de optie -vdoor te geven aan cat en als het een binair bestand is, kunt u uw terminal verknoeien en moet u deze daarom opnieuw instellen:

$ reset

Antwoord 4

Ik was net zelf met dit probleem bezig, dus ik dacht dat ik mijn antwoord zou delen. Ik heb een .data-bestand en kon het niet openen door er gewoon met de rechtermuisknop op te klikken. MACOS raadde aan om het te openen met Xcode, dus ik probeerde het, maar het werkte niet.

Vervolgens probeerde ik het te openen met een programma genaamd “Brackets”. Het is een tekstbewerkingsprogramma dat voornamelijk wordt gebruikt voor HTML en CSS. Beugels werkten.

Ik heb PyCharm ook geprobeerd omdat ik een Python-programmeur ben. Pycharm werkte ook en ik kon ook uit het bestand lezen met behulp van de volgende regels code:

inf = open("processed-1.cleveland.data", "r")
lines = inf.readlines()
for line in lines:
    print(line, end="")

Antwoord 5

Het werkt voor mij.

import pandas as pd
# define your file path here
your_data = pd.read_csv(file_path, sep=',')
your_data.head()

Ik bedoel, neem het gewoon als een csv-bestand als het gescheiden is met ‘,’.
oplossing van @mustious.

Other episodes