Dataset: vmunozf/dataset

Este dataset está diseñado para entrenar y probar modelos de lenguaje con enfoque en preguntas y respuestas en español. La información contenida está estructurada para facilitar su uso en tareas de procesamiento de lenguaje natural (NLP).

Estructura del Dataset

El archivo contiene dos columnas principales:

  • Pregunta: Incluye preguntas formuladas en español relacionadas con temas de interés.
  • Respuesta: Proporciona la respuesta correspondiente a cada pregunta.

Ejemplo de datos:

Pregunta Respuesta
¿Qué porcentaje de los recursos hídricos renovables del mundo se encuentra en América Latina y el Caribe? 35%.
¿Cuál es la principal causa de la crisis hídrica en América Latina según los estudios mencionados? La mala gestión de los recursos hídricos.

Uso

Este dataset puede ser utilizado para:

  1. Entrenamiento y fine-tuning de modelos de lenguaje (por ejemplo, LLaMA, GPT, BERT).
  2. Pruebas de inferencia en sistemas de preguntas y respuestas.
  3. Evaluación de modelos en tareas de comprensión y generación de texto en español.

Ejemplo de uso:

from transformers import pipeline

qa_pipeline = pipeline("question-answering", model="vmunozf/llama", tokenizer="vmunozf/llama")

result = qa_pipeline({
    "question": "¿Cuál es la principal causa de la crisis hídrica en América Latina según los estudios mencionados?",
    "context": "Según los estudios, la mala gestión de los recursos hídricos es la principal causa."
})

print(result)
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Dataset used to train vmunozf/llama