Spaces:

GAS17
/

ocr

Running

GAS17 commited on Dec 25, 2024

Commit

66baacc

verified ·

1 Parent(s): 9b016bd

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,23 +1,29 @@
 import gradio as gr
 from PIL import Image
 import pytesseract
 # Asegúrate de que el ejecutable de Tesseract esté en tu PATH
 # o especifica la ruta completa
 # pytesseract.pytesseract.tesseract_cmd = r'<ruta_completa_a_tesseract>'
-def ocr_image(image):
-    # Convierte la imagen a texto usando pytesseract
-    text = pytesseract.image_to_string(image)
     return text
 # Crea la interfaz de Gradio
 iface = gr.Interface(
-    fn=ocr_image,  # Función que procesa la imagen
-    inputs=gr.Image(type="pil", label="Sube tu imagen"),  # Tipo de entrada: imagen
     outputs=gr.Textbox(label="Texto extraído"),  # Tipo de salida: texto
-    title="OCR con Python Tesseract",
-    description="Sube una imagen para extraer el texto usando Tesseract OCR."
 )
 # Ejecuta la interfaz

 import gradio as gr
 from PIL import Image
 import pytesseract
+from pdf2image import convert_from_path
+import os
 # Asegúrate de que el ejecutable de Tesseract esté en tu PATH
 # o especifica la ruta completa
 # pytesseract.pytesseract.tesseract_cmd = r'<ruta_completa_a_tesseract>'
+def ocr_pdf(file):
+    # Convertir PDF a imágenes
+    images = convert_from_path(file.name)
+    text = ""
+    for image in images:
+        # Extraer texto de cada imagen
+        text += pytesseract.image_to_string(image) + "\n"
     return text
 # Crea la interfaz de Gradio
 iface = gr.Interface(
+    fn=ocr_pdf,  # Función que procesa el PDF
+    inputs=gr.File(label="Sube tu archivo PDF"),  # Tipo de entrada: archivo
     outputs=gr.Textbox(label="Texto extraído"),  # Tipo de salida: texto
+    title="OCR con Python Tesseract para PDF",
+    description="Sube un archivo PDF para extraer el texto usando Tesseract OCR."
 )
 # Ejecuta la interfaz