llama-3.2-3B-Instruct

Running on Zero

ehristoforu commited on 1 day ago

Commit

08ff14d

verified ·

1 Parent(s): 1206956

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -76,13 +76,15 @@ def generate(
         input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
         gr.Warning(f"Trimmed input from conversation as it was longer than {MAX_INPUT_TOKEN_LENGTH} tokens.")
     input_ids = input_ids.to(model.device)
     streamer = TextIteratorStreamer(tokenizer, timeout=20.0, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         {"input_ids": input_ids},
         streamer=streamer,
         max_new_tokens=max_new_tokens,
         eos_token_id=tokenizer.eos_token_id,
         do_sample=True,
         top_p=top_p,
         top_k=top_k,

         input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
         gr.Warning(f"Trimmed input from conversation as it was longer than {MAX_INPUT_TOKEN_LENGTH} tokens.")
     input_ids = input_ids.to(model.device)
+    attention_mask = input_ids["attention_mask"]
     streamer = TextIteratorStreamer(tokenizer, timeout=20.0, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         {"input_ids": input_ids},
         streamer=streamer,
         max_new_tokens=max_new_tokens,
         eos_token_id=tokenizer.eos_token_id,
+        pad_token_id=tokenizer.eos_token_id,
+        attention_mask=attention_mask,
         do_sample=True,
         top_p=top_p,
         top_k=top_k,