metadata

language:
  - pt
  - en
license: cc-by-nc-2.0
tags:
  - text-generation-inference
  - transformers
  - qwen
  - gguf
  - brazil
  - brasil
  - 72bb
  - portuguese
base_model: Qwen/Qwen1.5-72B-Chat
pipeline_tag: text-generation
model-index:
  - name: Cabra-72b
    results:
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: ENEM Challenge (No Images)
          type: eduagarcia/enem_challenge
          split: train
          args:
            num_few_shot: 3
        metrics:
          - type: acc
            value: 80.62
            name: accuracy
        source:
          url: >-
            https://huggingface.co./spaces/eduagarcia/open_pt_llm_leaderboard?query=botbot-ai/Cabra-72b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: BLUEX (No Images)
          type: eduagarcia-temp/BLUEX_without_images
          split: train
          args:
            num_few_shot: 3
        metrics:
          - type: acc
            value: 67.45
            name: accuracy
        source:
          url: >-
            https://huggingface.co./spaces/eduagarcia/open_pt_llm_leaderboard?query=botbot-ai/Cabra-72b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: OAB Exams
          type: eduagarcia/oab_exams
          split: train
          args:
            num_few_shot: 3
        metrics:
          - type: acc
            value: 57.18
            name: accuracy
        source:
          url: >-
            https://huggingface.co./spaces/eduagarcia/open_pt_llm_leaderboard?query=botbot-ai/Cabra-72b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: Assin2 RTE
          type: assin2
          split: test
          args:
            num_few_shot: 15
        metrics:
          - type: f1_macro
            value: 93.58
            name: f1-macro
        source:
          url: >-
            https://huggingface.co./spaces/eduagarcia/open_pt_llm_leaderboard?query=botbot-ai/Cabra-72b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: Assin2 STS
          type: eduagarcia/portuguese_benchmark
          split: test
          args:
            num_few_shot: 15
        metrics:
          - type: pearson
            value: 78.03
            name: pearson
        source:
          url: >-
            https://huggingface.co./spaces/eduagarcia/open_pt_llm_leaderboard?query=botbot-ai/Cabra-72b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: FaQuAD NLI
          type: ruanchaves/faquad-nli
          split: test
          args:
            num_few_shot: 15
        metrics:
          - type: f1_macro
            value: 45.45
            name: f1-macro
        source:
          url: >-
            https://huggingface.co./spaces/eduagarcia/open_pt_llm_leaderboard?query=botbot-ai/Cabra-72b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: HateBR Binary
          type: ruanchaves/hatebr
          split: test
          args:
            num_few_shot: 25
        metrics:
          - type: f1_macro
            value: 72.12
            name: f1-macro
        source:
          url: >-
            https://huggingface.co./spaces/eduagarcia/open_pt_llm_leaderboard?query=botbot-ai/Cabra-72b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: PT Hate Speech Binary
          type: hate_speech_portuguese
          split: test
          args:
            num_few_shot: 25
        metrics:
          - type: f1_macro
            value: 68.65
            name: f1-macro
        source:
          url: >-
            https://huggingface.co./spaces/eduagarcia/open_pt_llm_leaderboard?query=botbot-ai/Cabra-72b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: tweetSentBR
          type: eduagarcia/tweetsentbr_fewshot
          split: test
          args:
            num_few_shot: 25
        metrics:
          - type: f1_macro
            value: 71.64
            name: f1-macro
        source:
          url: >-
            https://huggingface.co./spaces/eduagarcia/open_pt_llm_leaderboard?query=botbot-ai/Cabra-72b
          name: Open Portuguese LLM Leaderboard

Cabra 72b

Cabra 72b é um finetune do Qwen 1.5 72b Chat com o dataset Cabra 30k. Esse modelo é otimizado para português e responde em portuguese. Ele apresenta melhoria em vários benchmarks brasileiros em comparação com o modelo base.

Conheça os nossos outros modelos Cabra.

Detalhes do modelo base

Modelo: Qwen 1.5 72b chat

Qwen1.5 é uma série de modelos de linguagem que inclui modelos de linguagem decodificadores de diferentes tamanhos de modelo. Para cada tamanho, lançamos o modelo de linguagem base e o modelo de chat alinhado. Baseia-se na arquitetura Transformer com ativação SwiGLU, viés de atenção QKV, atenção de consulta em grupo, mistura de atenção de janela deslizante e atenção completa, etc. Adicionalmente, temos um tokenizador melhorado adaptativo a múltiplas línguas naturais e códigos. Para a versão beta, temporariamente não incluímos GQA e a mistura de SWA e atenção completa.

dataset: Cabra 30k

Dataset interno para fine-tuning. Vamos lançar em breve.

Quantização / GGUF

Colocamos diversas versões (GGUF) quantanizadas no branch "quantanization". Infelizmente o HF limita o tamanho de arquivo a <50gb.

Exemplo

<s> [INST]Quem são os jogadores brasileiros de futebol mais conhecidos, atuais e pasados? [/INST] 

O Brasil tem uma rica história na produção de alguns dos maiores jogadores de futebol do mundo. Alguns dos jogadores brasileiros mais importantes atualmente e que já jogaram incluem:

Pelé - amplamente considerado um dos maiores jogadores de todos os tempos, o Pelé venceu três Copas do Mundo com o Brasil e marcou mais de 1.000 gols em sua carreira.
Ronaldo Nazário de Lima - conhecido como Ronaldo, este jogador de ataque é o segundo maior artilheiro da história da seleção brasileira e ajudou o Brasil a vencer duas Copas do Mundo.

Ronaldinho Gaúcho - um criativo meio-campista ofensivo que jogou pelo Barcelona e pela AC Milan, o Ronaldinho foi nomeado Jogador Mundial FIFA de 2004 e ajudou o Brasil a vencer a Copa do Mundo de 2002.

Neymar Jr. - um dos melhores jogadores do mundo hoje, o Neymar desempenhou um papel fundamental ao liderar o Brasil para várias vitórias em torneios principais e é conhecido por suas habilidades incríveis de drible e capacidade de marcar gols.

Esses são apenas alguns exemplos dos muitos talentosos jogadores de futebol que vieram do Brasil ao longo de sua rica história.
</s>

Paramentros de trainamento

- train/epoch: 3
- train/global_step: 1,893
- train/grad_norm: 0.5843151168226935
- train/learning_rate: 0.00000000006323276533
- train/loss: 0.4379
- train/total_flos: 7,334,660,338,089,984
- train/train_loss: 0.628420232404053
- train/train_runtime: 415,863.2395
- train/train_samples_per_second: 0.437
- train/train_steps_per_second: 0.005
- GPU: 8x A100 80GB SXB

Framework

Transformers 4.39.0.dev0
Pytorch 2.1.2+cu118
Datasets 2.14.6
Tokenizers 0.15.2

Uso

O modelo é destinado, por agora, a fins de pesquisa. As áreas e tarefas de pesquisa possíveis incluem:

Pesquisa sobre modelos gerativos.
Investigação e compreensão das limitações e vieses de modelos gerativos.

**Proibido para uso comercial. Somente Pesquisa. Entre em contato para mais informações. **

Evals

Tasks	Version	Filter	n-shot	Metric	Value	±	Stderr
assin2_rte	1.1	all	15	f1_macro	0.9358	±	0.0035
		all	15	acc	0.9359	±	0.0035
assin2_sts	1.1	all	15	pearson	0.7803	±	0.0068
		all	15	mse	0.5815	±	N/A
bluex	1.1	all	3	acc	0.6745	±	0.0101
		exam_id__USP_2019	3	acc	0.5500	±	0.0453
		exam_id__UNICAMP_2021_1	3	acc	0.5870	±	0.0418
		exam_id__USP_2020	3	acc	0.6250	±	0.0373
		exam_id__USP_2022	3	acc	0.6939	±	0.0381
		exam_id__UNICAMP_2019	3	acc	0.7200	±	0.0367
		exam_id__UNICAMP_2024	3	acc	0.5778	±	0.0425
		exam_id__USP_2018	3	acc	0.5926	±	0.0385
		exam_id__USP_2021	3	acc	0.6538	±	0.0381
		exam_id__UNICAMP_2023	3	acc	0.7442	±	0.0385
		exam_id__UNICAMP_2021_2	3	acc	0.6667	±	0.0380
		exam_id__UNICAMP_2020	3	acc	0.7091	±	0.0355
		exam_id__USP_2023	3	acc	0.8182	±	0.0336
		exam_id__USP_2024	3	acc	0.8537	±	0.0318
		exam_id__UNICAMP_2022	3	acc	0.6667	±	0.0435
		exam_id__UNICAMP_2018	3	acc	0.6852	±	0.0364
enem	1.1	all	3	acc	0.8062	±	0.0060
		exam_id__2016_2	3	acc	0.7967	±	0.0210
		exam_id__2014	3	acc	0.8165	±	0.0214
		exam_id__2010	3	acc	0.8291	±	0.0202
		exam_id__2023	3	acc	0.8000	±	0.0199
		exam_id__2009	3	acc	0.7913	±	0.0219
		exam_id__2017	3	acc	0.7931	±	0.0217
		exam_id__2011	3	acc	0.8718	±	0.0178
		exam_id__2015	3	acc	0.8151	±	0.0205
		exam_id__2012	3	acc	0.8621	±	0.0185
		exam_id__2016	3	acc	0.8430	±	0.0190
		exam_id__2013	3	acc	0.7870	±	0.0228
		exam_id__2022	3	acc	0.6842	±	0.0233
faquad_nli	1.1	all	15	f1_macro	0.4545	±	0.0081
		all	15	acc	0.7877	±	0.0113
hatebr_offensive_binary	1.0	all	25	f1_macro	0.7212	±	0.0087
		all	25	acc	0.7393	±	0.0083
oab_exams	1.5	all	3	acc	0.5718	±	0.0061

Open Portuguese LLM Leaderboard Evaluation Results

Detailed results can be found here and on the 🚀 Open Portuguese LLM Leaderboard

Metric	Value
Average	70.52
ENEM Challenge (No Images)	80.62
BLUEX (No Images)	67.45
OAB Exams	57.18
Assin2 RTE	93.58
Assin2 STS	78.03
FaQuAD NLI	45.45
HateBR Binary	72.12
PT Hate Speech Binary	68.65
tweetSentBR	71.64