Introduction
The is a Whisper large-v3 model finetuned to do Estonian-English and Estonian-Russian bidirectional speech translation.
You have to use the "transcribe" task and specify the target language ("et", "en" or "ru"). Source language doesn't have to be specified.
The model is trained on synthetic data (ASR data with machine translated transcripts) as well as some data scraped from the web (audio + subititles).
Usage
The model come in three versions: native Whisper format, HuggingFace transformers format, and CTranslate2.
We recommend to use the CTranslate2 version, as it provised very fast performance.
Usage instruction (you need a computer with a GPU and Nvidia CUDA software stack):
Install whisper-ctranslate2 (https://github.com/Softcatala/whisper-ctranslate2)
Clone this model:
git clone https://huggingface.co./TalTechNLP/whisper-large-v3-et-en-ru.translate
Translate an Estonian wav file to English:
whisper-ctranslate2 --language en --task transcribe --model_directory whisper-large-v3-et-en-ru.translate/ct2 \ --vad_filter True --beam_size 5 --compute_type float32 whisper-large-v3-et-en-ru.translate/audio_samples/esimene-stuudio-1min.wav
Output:
Detected language 'English' with probability 1.000000 [00:01.200 --> 00:19.600] Good evening, dear viewers. The coalition parties, which changed their sharpness last week, have pulled down a lot of tone today, but peace has not yet been pulled. [00:19.600 --> 00:45.220] Is the issue of supporting children really tearing up the government, or is it still a question of supporting children at all? The first studio starts. [00:45.220 --> 00:55.420] And since the situation demands, the leaders of the two coalition party factions in the Riigikogu are in the studio, Mart Võrklaev from the Reform Party and Jaanus Karilaid from the Center Party. [00:55.420 --> 00:55.900] Good evening. [00:55.900 --> 00:56.700] Good evening. [00:56.700 --> 01:00.060] Well, Mart Võrklaev, let's make it clear first, what is the latest knowledge?
Translate English wav file to to Estonian (this translation direction has much lower quality):
whisper-ctranslate2 --language et --task transcribe --model_directory whisper-large-v3-et-en-ru.translate/ct2 \ --vad_filter True --beam_size 5 --compute_type float32 whisper-large-v3-et-en-ru.translate/audio_samples/bill_gates_1min.wav
Output:
Detected language 'Estonian' with probability 1.000000 [00:00.000 --> 00:04.800] Ja sa tead, et see on omamoodi erinevate lähenemisviiside väljatöötamine. [00:04.980 --> 00:17.320] Ja seega võib juhtuda, et on olemas see üks põhiline lähenemine, mida me tarkvaras näeme, et sa tead, et evolutsioon, tsitaat, avastas tsitaadi [00:18.360 --> 00:20.920] ja ja õnnestus kasutada. [00:20.920 --> 00:24.340] Ma mõtlen, et see on suurim ime. Inimene, [00:24.340 --> 00:31.260] inimeste arutlusvõime on nii fenomenaalne Jah, täiesti. Nii [00:40.380 --> 00:46.180] kuid meie, inimesed, pole selle ai-versiooni veel välja mõelnud. [00:46.420 --> 00:51.820] Ma kahtlustan, et seal on kindlasti parem algoritm, mida me pole avastanud. [00:52.380 --> 00:54.080] Ah, see on praegu, [00:54.080 --> 01:00.260] keskendutakse liiga palju sellele, et teeme asjad suuremaks ja kõik üritavad seda teha. [01:00.400 --> 01:06.760] See tähendab, et võib olla tõesti parem lahendus, alternatiivne lahendus, mis ootab leidmist. [01:07.000 --> 01:17.100] Kuid seal pole lihtsalt piisavalt tähelepanu, sest inimesed kipuvad mõtlema, et oh, see ei tööta. Põhjus, miks ma seda väga tugevalt usun, on osaliselt see, et kui vaatate, [01:17.100 --> 01:26.500] oh tegelikult, lähme tagasi Microsofti väga esimeses isiklikus arvutis, sest kui see esimest korda välja tuli, oli see tõesti väga põnev ja hämmastav. [01:26.640 --> 01:34.140] Ja siis ah, igal aastal, teate, on parem arvuti ja väiksem arvuti, kiirem arvuti ja see muutub aina paremaks. [01:34.200 --> 01:38.660] Nii et samamoodi, kui vaatame telefone või teate rakette, [01:38.660 --> 01:53.040] autod, esimene leiutis ei ole kunagi optimaalne lahendus. Alati on parem lahendus. Nii et ma arvan, et parem lahendus on lihtsalt see, et praegu on liiga palju rõhku suuremal, seda parem. [01:53.420 --> 01:56.540] Ma arvan, et matemaatika juhendamise puhul võib aga [01:57.260 --> 01:59.980] võib olla vea negatiivne külg
- Downloads last month
- 11