Evilnapsis

Programming, Hacking and More

Python

Leer un archivo PDF con Python y PyPdf2

Leer archivos PDF en Python es util para saber el contenidos de los archivos y también si queremos buscar un texto en especifico dentro de uno o mas archivos PDF, vamos a usar la librería PyPDF2 para leer archivos pdf en python.

La librería que vamos a usar se llama PyPDF2 y para instalarla solo tenemos que usar el comando PIP de la siguiente manera.

pip install PyPDF2

Una vez que se descarguen los archivos y se instale la libreria, ahora si ya la podremos usar en nuestros codigos python.

Leer un archivo con PyPDF2

Para leer un archivo simplemente usaremos el siguiente codigo.

# Importar los modulos requeridos
import PyPDF2

# Crear un Objeto de PdfReader
reader = PyPDF2.PdfReader('14552306.pdf')

# Imprimir el numero de paginas en el archivo
print(len(reader.pages))

# Mostrar el texto de la primera pagina
print(reader.pages[0].extract_text())

El codigo que use arriba ya tiene comentarios para poder entenderle mejor.

En la primera linea hacemos el import de la libreria PyPDF2.

Lo importante es la segunda parte donde creamos el objeto PDFReader que debe llevar como parametro el nombre del archivo en mi caso se llama 14552306.py y como resultado nos da el contenido del archivo PDF.

Resultado

A continuación este seria el resultado al ejecutar el script.

Agustin Ramos

Desarrollador de Software

Leave a Reply