GAS17 commited on
Commit
64fe5a9
verified
1 Parent(s): cfd2109

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +16 -19
app.py CHANGED
@@ -1,27 +1,24 @@
1
  import gradio as gr
 
2
  import pytesseract
3
- from pdf2image import convert_from_path
4
 
5
- def extract_text_from_pdf(pdf_file):
6
- # Convertir el archivo PDF a im谩genes
7
- pages = convert_from_path(pdf_file.name, 600)
8
-
9
- # Extraer texto de cada p谩gina
10
- text_data = ''
11
- for page in pages:
12
- text = pytesseract.image_to_string(page)
13
- text_data += text + '\n'
14
-
15
- return text_data
16
 
17
- # Crear la interfaz de Gradio
 
 
 
 
 
18
  iface = gr.Interface(
19
- fn=extract_text_from_pdf,
20
- inputs=gr.inputs.File(label="Sube tu archivo PDF"),
21
- outputs="text",
22
- title="Extractor de Texto de PDF",
23
- description="Sube un archivo PDF escaneado y extrae el texto usando OCR."
24
  )
25
 
26
- # Ejecutar la interfaz
27
  iface.launch()
 
1
  import gradio as gr
2
+ from PIL import Image
3
  import pytesseract
 
4
 
5
+ # Aseg煤rate de que el ejecutable de Tesseract est茅 en tu PATH
6
+ # o especifica la ruta completa
7
+ # pytesseract.pytesseract.tesseract_cmd = r'<ruta_completa_a_tesseract>'
 
 
 
 
 
 
 
 
8
 
9
+ def ocr_image(image):
10
+ # Convierte la imagen a texto usando pytesseract
11
+ text = pytesseract.image_to_string(image)
12
+ return text
13
+
14
+ # Crea la interfaz de Gradio
15
  iface = gr.Interface(
16
+ fn=ocr_image, # Funci贸n que procesa la imagen
17
+ inputs=gr.Image(type="pil", label="Sube tu imagen"), # Tipo de entrada: imagen
18
+ outputs=gr.Textbox(label="Texto extra铆do"), # Tipo de salida: texto
19
+ title="OCR con Python Tesseract",
20
+ description="Sube una imagen para extraer el texto usando Tesseract OCR."
21
  )
22
 
23
+ # Ejecuta la interfaz
24
  iface.launch()