Spaces:

GAS17
/

ocr

Sleeping

GAS17 commited on Dec 25, 2024

Commit

01dfe28

verified ·

1 Parent(s): ff694ec

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,20 +1,19 @@
 import gradio as gr
 from PIL import Image
 import pytesseract
-from pdf2image import convert_from_path
-import os
-# Asegúrate de que el ejecutable de Tesseract esté en tu PATH
-# o especifica la ruta completa
-# pytesseract.pytesseract.tesseract_cmd = r'<ruta_completa_a_tesseract>'
 def ocr_pdf(file):
-    # Convertir PDF a imágenes
-    images = convert_from_path(file.name)
     text = ""
-    for image in images:
-        # Extraer texto de cada imagen
-        text += pytesseract.image_to_string(image) + "\n"
     return text
 # Crea la interfaz de Gradio

 import gradio as gr
 from PIL import Image
 import pytesseract
+import fitz  # PyMuPDF
 def ocr_pdf(file):
+    # Abre el PDF
+    doc = fitz.open(file.name)
     text = ""
+    for page_number in range(len(doc)):
+        # Extrae la página como imagen
+        page = doc.load_page(page_number)
+        pix = page.get_pixmap()
+        img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
+        # Extrae texto de la imagen
+        text += pytesseract.image_to_string(img) + "\n"
     return text
 # Crea la interfaz de Gradio