Nandan Thakur's picture

3 9 54

Nandan Thakur

nthakur

·

https://thakur-nandan.github.io

AI & ML interests

NLP, IR, QA

Recent Activity

updated a dataset 1 day ago

nthakur/bge-retrieval-data

published a dataset 1 day ago

nthakur/bge-retrieval-data

updated a dataset 3 days ago

nthakur/bge-retrieval-data-pruned-300K

View all activity

Organizations

Posts 1

Post

3392

🦢 The SWIM-IR dataset contains 29 million text-retrieval training pairs across 27 diverse languages. It is one of the largest synthetic multilingual datasets generated using PaLM 2 on Wikipedia! 🔥🔥

SWIM-IR dataset contains three subsets :
- Cross-lingual:nthakur/swim-ir-cross-lingual
- Monolingual: nthakur/swim-ir-monolingual
- Indic Cross-lingual: nthakur/indic-swim-ir-cross-lingual

Check it out:
https://huggingface.co./collections/nthakur/swim-ir-dataset-662ddaecfc20896bf14dd9b7

Collections 3

Papers 12

arxiv:2502.13595

arxiv:2410.13716

arxiv:2406.16828

arxiv:2312.11361

models 34

nthakur/Mistral-7B-Instruct-v0.2-multilingual-dpo-v1.0-v2

Updated Aug 23, 2024 • 21

nthakur/Mistral-7B-Instruct-v0.2-multilingual-dpo-v1.0-final

Updated Aug 13, 2024

nthakur/Meta-Llama-3-8B-Instruct-mirage-all-teacher-instruct-llama-3-sft

Updated Aug 13, 2024 • 16

nthakur/Mistral-7B-Instruct-v0.2-mirage-all-teacher-instruct-mistral-sft

Updated Aug 13, 2024 • 14

nthakur/Mistral-7B-Instruct-v0.2-multilingual-dpo-v1.0

Updated Aug 12, 2024

nthakur/Mistral-7B-Instruct-v0.2-multilingual-deita-10k-v0-sft-v0.1

Updated Aug 12, 2024 • 15

nthakur/Meta-Llama-3-8B-Instruct-mirage-mirage-gpt-4o-sft-instruct-llama-3

Updated Aug 12, 2024 • 10

nthakur/Meta-Llama-3-8B-Instruct-mirage-meta-llama-3-sft-instruct

Updated Aug 10, 2024 • 37

nthakur/Mistral-7B-Instruct-v0.2-mirage-gpt-4o-sft-instruct-mistral

Updated Aug 10, 2024 • 19

nthakur/Mistral-7B-Instruct-v0.2-mirage-mistral-sft-instruct

Updated Aug 9, 2024 • 11

datasets 64

nthakur/bge-retrieval-data

Viewer • Updated 1 day ago • 680k • 2

nthakur/bge-retrieval-data-pruned-300K

Viewer • Updated 3 days ago • 301k • 11

nthakur/bge-retrieval-data-pruned-200K

Viewer • Updated 3 days ago • 201k • 27

nthakur/bge-retrieval-data-pruned-100K

Viewer • Updated 3 days ago • 101k • 13

nthakur/bge-retrieval-data-pruned-50K

Viewer • Updated 3 days ago • 51.1k • 20

nthakur/bge-full-data-retrieval-pruned-v1

Viewer • Updated 3 days ago • 439k • 64

nthakur/bge-full-data-nv-embed

Viewer • Updated 18 days ago • 1.6M • 67

nthakur/bge-full-data

Viewer • Updated Feb 4 • 1.6M • 311 • 1

nthakur/mirage-eval-rag-output

Viewer • Updated Aug 12, 2024 • 11.2k • 2.8k

nthakur/mirage-meta-llama-3-mistral-sft-instruct-meta-llama-tokenizer

Viewer • Updated Aug 12, 2024 • 56.4k • 78