Leer archivos PDF en Python es util para saber el contenidos de los archivos y también si queremos buscar un texto en especifico dentro de uno o mas archivos PDF, vamos a usar la librería PyPDF2 para leer archivos pdf en python.
La librería que vamos a usar se llama PyPDF2 y para instalarla solo tenemos que usar el comando PIP de la siguiente manera.
pip install PyPDF2
Una vez que se descarguen los archivos y se instale la libreria, ahora si ya la podremos usar en nuestros codigos python.
Leer un archivo con PyPDF2
Para leer un archivo simplemente usaremos el siguiente codigo.
# Importar los modulos requeridos import PyPDF2 # Crear un Objeto de PdfReader reader = PyPDF2.PdfReader('14552306.pdf') # Imprimir el numero de paginas en el archivo print(len(reader.pages)) # Mostrar el texto de la primera pagina print(reader.pages[0].extract_text())
El codigo que use arriba ya tiene comentarios para poder entenderle mejor.
En la primera linea hacemos el import de la libreria PyPDF2.
Lo importante es la segunda parte donde creamos el objeto PDFReader que debe llevar como parametro el nombre del archivo en mi caso se llama 14552306.py y como resultado nos da el contenido del archivo PDF.
Resultado
A continuación este seria el resultado al ejecutar el script.