BeardedMonster
/

SabiYarn-125M

Text Generation

Model card Files Files and versions Community

BeardedMonster commited on Jul 8

Commit

99ff7f8

•

1 Parent(s): 1a8950c

Upload GPTJXForCausalLM

Files changed (1) hide show

pretrained_model.py +1 -0

pretrained_model.py CHANGED Viewed

@@ -58,6 +58,7 @@ class CausalSelfAttention(nn.Module):
         if self.flash:
             if attn_mask is not None:
             # efficient attention using Flash Attention CUDA kernels
                 y = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=attn_mask, dropout_p=self.dropout if self.training else 0)
             else:
                 y = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=None, dropout_p=self.dropout if self.training else 0, is_causal=True)

         if self.flash:
             if attn_mask is not None:
             # efficient attention using Flash Attention CUDA kernels
+                attn_mask = attn_mask.to(torch.bool)
                 y = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=attn_mask, dropout_p=self.dropout if self.training else 0)
             else:
                 y = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=None, dropout_p=self.dropout if self.training else 0, is_causal=True)