GAS17 commited on
Commit
66baacc
verified
1 Parent(s): 9b016bd

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +13 -7
app.py CHANGED
@@ -1,23 +1,29 @@
1
  import gradio as gr
2
  from PIL import Image
3
  import pytesseract
 
 
4
 
5
  # Aseg煤rate de que el ejecutable de Tesseract est茅 en tu PATH
6
  # o especifica la ruta completa
7
  # pytesseract.pytesseract.tesseract_cmd = r'<ruta_completa_a_tesseract>'
8
 
9
- def ocr_image(image):
10
- # Convierte la imagen a texto usando pytesseract
11
- text = pytesseract.image_to_string(image)
 
 
 
 
12
  return text
13
 
14
  # Crea la interfaz de Gradio
15
  iface = gr.Interface(
16
- fn=ocr_image, # Funci贸n que procesa la imagen
17
- inputs=gr.Image(type="pil", label="Sube tu imagen"), # Tipo de entrada: imagen
18
  outputs=gr.Textbox(label="Texto extra铆do"), # Tipo de salida: texto
19
- title="OCR con Python Tesseract",
20
- description="Sube una imagen para extraer el texto usando Tesseract OCR."
21
  )
22
 
23
  # Ejecuta la interfaz
 
1
  import gradio as gr
2
  from PIL import Image
3
  import pytesseract
4
+ from pdf2image import convert_from_path
5
+ import os
6
 
7
  # Aseg煤rate de que el ejecutable de Tesseract est茅 en tu PATH
8
  # o especifica la ruta completa
9
  # pytesseract.pytesseract.tesseract_cmd = r'<ruta_completa_a_tesseract>'
10
 
11
+ def ocr_pdf(file):
12
+ # Convertir PDF a im谩genes
13
+ images = convert_from_path(file.name)
14
+ text = ""
15
+ for image in images:
16
+ # Extraer texto de cada imagen
17
+ text += pytesseract.image_to_string(image) + "\n"
18
  return text
19
 
20
  # Crea la interfaz de Gradio
21
  iface = gr.Interface(
22
+ fn=ocr_pdf, # Funci贸n que procesa el PDF
23
+ inputs=gr.File(label="Sube tu archivo PDF"), # Tipo de entrada: archivo
24
  outputs=gr.Textbox(label="Texto extra铆do"), # Tipo de salida: texto
25
+ title="OCR con Python Tesseract para PDF",
26
+ description="Sube un archivo PDF para extraer el texto usando Tesseract OCR."
27
  )
28
 
29
  # Ejecuta la interfaz