parler-tts-streaming

Sleeping

App Files Files Community

sanchit-gandhi HF staff commited on May 29

Commit

496bf8a

•

1 Parent(s): 33d12bd

yield mp3 bytes

Browse files

Files changed (2) hide show

README.md +1 -1
app.py +31 -5

README.md CHANGED Viewed

@@ -4,7 +4,7 @@ emoji: 📝
 colorFrom: red
 colorTo: indigo
 sdk: gradio
-sdk_version: 4.27.0
 app_file: app.py
 pinned: false
 license: apache-2.0

 colorFrom: red
 colorTo: indigo
 sdk: gradio
+sdk_version: 4.31.5
 app_file: app.py
 pinned: false
 license: apache-2.0

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import math
 from queue import Queue
 from threading import Thread
@@ -9,6 +10,7 @@ import gradio as gr
 import torch
 from parler_tts import ParlerTTSForConditionalGeneration
 from transformers import AutoTokenizer, AutoFeatureExtractor, set_seed
 from transformers.generation.streamers import BaseStreamer
@@ -208,6 +210,30 @@ class ParlerTTSStreamer(BaseStreamer):
         else:
             return value
 sampling_rate = model.audio_encoder.config.sampling_rate
 frame_rate = model.audio_encoder.config.frame_rate
@@ -235,7 +261,7 @@ def generate_base(text, description, play_steps_in_s=2.0):
     for new_audio in streamer:
         print(f"Sample of length: {round(new_audio.shape[0] / sampling_rate, 2)} seconds")
-        yield sampling_rate, new_audio
 @spaces.GPU
 def generate_jenny(text, description, play_steps_in_s=2.0):
@@ -338,10 +364,10 @@ with gr.Blocks(css=css) as block:
             with gr.Column():
                 input_text = gr.Textbox(label="Input Text", lines=2, value=default_text, elem_id="input_text")
                 description = gr.Textbox(label="Description", lines=2, value="", elem_id="input_description")
-                play_seconds = gr.Slider(3.0, 5.0, value=3.0, step=0.5, label="Streaming interval in seconds", info="Lower = shorter chunks, lower latency, more codec steps")
                 run_button = gr.Button("Generate Audio", variant="primary")
             with gr.Column():
-                audio_out = gr.Audio(label="Parler-TTS generation", type="numpy", elem_id="audio_out", streaming=True, autoplay=True)
         inputs = [input_text, description, play_seconds]
         outputs = [audio_out]
@@ -353,10 +379,10 @@ with gr.Blocks(css=css) as block:
             with gr.Column():
                 input_text = gr.Textbox(label="Input Text", lines=2, value=jenny_examples[0][0], elem_id="input_text")
                 description = gr.Textbox(label="Description", lines=2, value=jenny_examples[0][1], elem_id="input_description")
-                play_seconds = gr.Slider(3.0, 5.0, value=jenny_examples[0][2], step=0.5, label="Streaming interval in seconds", info="Lower = shorter chunks, lower latency, more codec steps")
                 run_button = gr.Button("Generate Audio", variant="primary")
             with gr.Column():
-                audio_out = gr.Audio(label="Parler-TTS generation", type="numpy", elem_id="audio_out", streaming=True, autoplay=True)
         inputs = [input_text, description, play_seconds]
         outputs = [audio_out]

+import io
 import math
 from queue import Queue
 from threading import Thread
 import torch
 from parler_tts import ParlerTTSForConditionalGeneration
+from pydub import AudioSegment
 from transformers import AutoTokenizer, AutoFeatureExtractor, set_seed
 from transformers.generation.streamers import BaseStreamer
         else:
             return value
+def numpy_to_mp3(audio_array, sampling_rate):
+    # Normalize audio_array if it's floating-point
+    if np.issubdtype(audio_array.dtype, np.floating):
+        max_val = np.max(np.abs(audio_array))
+        audio_array = (audio_array / max_val) * 32767  # Normalize to 16-bit range
+        audio_array = audio_array.astype(np.int16)
+    # Create an audio segment from the numpy array
+    audio_segment = AudioSegment(
+        audio_array.tobytes(),
+        frame_rate=sampling_rate,
+        sample_width=audio_array.dtype.itemsize,
+        channels=1
+    )
+    # Export the audio segment to MP3 bytes - use a high bitrate to maximise quality
+    mp3_io = io.BytesIO()
+    audio_segment.export(mp3_io, format="mp3", bitrate="320k")
+    # Get the MP3 bytes
+    mp3_bytes = mp3_io.getvalue()
+    mp3_io.close()
+    return mp3_bytes
 sampling_rate = model.audio_encoder.config.sampling_rate
 frame_rate = model.audio_encoder.config.frame_rate
     for new_audio in streamer:
         print(f"Sample of length: {round(new_audio.shape[0] / sampling_rate, 2)} seconds")
+        yield numpy_to_mp3(new_audio, sampling_rate=sampling_rate)
 @spaces.GPU
 def generate_jenny(text, description, play_steps_in_s=2.0):
             with gr.Column():
                 input_text = gr.Textbox(label="Input Text", lines=2, value=default_text, elem_id="input_text")
                 description = gr.Textbox(label="Description", lines=2, value="", elem_id="input_description")
+                play_seconds = gr.Slider(3.0, 7.0, value=3.0, step=2, label="Streaming interval in seconds", info="Lower = shorter chunks, lower latency, more codec steps")
                 run_button = gr.Button("Generate Audio", variant="primary")
             with gr.Column():
+                audio_out = gr.Audio(label="Parler-TTS generation", format="mp3", elem_id="audio_out", streaming=True, autoplay=True)
         inputs = [input_text, description, play_seconds]
         outputs = [audio_out]
             with gr.Column():
                 input_text = gr.Textbox(label="Input Text", lines=2, value=jenny_examples[0][0], elem_id="input_text")
                 description = gr.Textbox(label="Description", lines=2, value=jenny_examples[0][1], elem_id="input_description")
+                play_seconds = gr.Slider(3.0, 7.0, value=jenny_examples[0][2], step=2, label="Streaming interval in seconds", info="Lower = shorter chunks, lower latency, more codec steps")
                 run_button = gr.Button("Generate Audio", variant="primary")
             with gr.Column():
+                audio_out = gr.Audio(label="Parler-TTS generation", format="mp3", elem_id="audio_out", streaming=True, autoplay=True)
         inputs = [input_text, description, play_seconds]
         outputs = [audio_out]