Spaces:

GAS17
/

ocr

Running

GAS17 commited on Dec 25, 2024

Commit

64fe5a9

verified ·

1 Parent(s): cfd2109

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,27 +1,24 @@
 import gradio as gr
 import pytesseract
-from pdf2image import convert_from_path
-def extract_text_from_pdf(pdf_file):
-    # Convertir el archivo PDF a imágenes
-    pages = convert_from_path(pdf_file.name, 600)
-    # Extraer texto de cada página
-    text_data = ''
-    for page in pages:
-        text = pytesseract.image_to_string(page)
-        text_data += text + '\n'
-    return text_data
-# Crear la interfaz de Gradio
 iface = gr.Interface(
-    fn=extract_text_from_pdf,
-    inputs=gr.inputs.File(label="Sube tu archivo PDF"),
-    outputs="text",
-    title="Extractor de Texto de PDF",
-    description="Sube un archivo PDF escaneado y extrae el texto usando OCR."
 )
-# Ejecutar la interfaz
 iface.launch()

 import gradio as gr
+from PIL import Image
 import pytesseract
+# Asegúrate de que el ejecutable de Tesseract esté en tu PATH
+# o especifica la ruta completa
+# pytesseract.pytesseract.tesseract_cmd = r'<ruta_completa_a_tesseract>'
+def ocr_image(image):
+    # Convierte la imagen a texto usando pytesseract
+    text = pytesseract.image_to_string(image)
+    return text
+# Crea la interfaz de Gradio
 iface = gr.Interface(
+    fn=ocr_image,  # Función que procesa la imagen
+    inputs=gr.Image(type="pil", label="Sube tu imagen"),  # Tipo de entrada: imagen
+    outputs=gr.Textbox(label="Texto extraído"),  # Tipo de salida: texto
+    title="OCR con Python Tesseract",
+    description="Sube una imagen para extraer el texto usando Tesseract OCR."
 )
+# Ejecuta la interfaz
 iface.launch()