python - Hoe kan ik pdf in python lezen?

Hoe kan ik pdf in python lezen?
Ik ken een manier om het naar tekst te converteren, maar ik wil de inhoud rechtstreeks uit pdf lezen.

Kan iemand uitleggen welke module in python het beste is voor pdf-extractie

Antwoord 1, autoriteit 100%

U kunt het PyPDF2-pakket GEBRUIKEN

#install pyDF2
pip install PyPDF2
# importing all the required modules
import PyPDF2
# creating an object 
file = open('example.pdf', 'rb')
# creating a pdf reader object
fileReader = PyPDF2.PdfFileReader(file)
# print the number of pages in pdf file
print(fileReader.numPages)

Volg deze documentatie http://pythonhosted.org/PyPDF2/

Antwoord 2, autoriteit 20%

Je kunt de textract-module gebruiken in python

Textract

voor installatie

pip install textract

voor lees pdf

import textract
text = textract.process('path/to/pdf/file', method='pdfminer')

Voor details Textract

Antwoord 3, autoriteit 18%

Probeer PyPDF2.

Er is hier een goede tutorial: https://automatetheboringstuff.com/chapter13/

Hoe kan ik pdf in python lezen?

Antwoord 1, autoriteit 100%

Antwoord 2, autoriteit 20%

Antwoord 3, autoriteit 18%

Other episodes

Verschillen tussen numpy.random.rand en numpy.random.randn in Python

Bewerken van specifieke regel in tekstbestand in Python

Single Sign On (SSO) implementeren met Django

hoe sorteer ik op lengte van string gevolgd door alfabetische volgorde?

LabelEncoder: TypeError: ‘>’ niet ondersteund tussen instanties van ‘float’ en ‘str’

Lxml-module installeren in python

`staticmethod` en `abc.abstractmethod`: gaat het samensmelten?