init upload

Browse files

Files changed (4) hide show

README.md +52 -0
config.json +26 -0
diffusion_pytorch_model.safetensors +3 -0
wan_t2v_fp32_example.py +48 -0

README.md CHANGED Viewed

@@ -1,3 +1,55 @@
 ---
 license: apache-2.0
 ---

 ---
 license: apache-2.0
 ---
+```
+import torch
+from transformers import AutoTokenizer, UMT5EncoderModel
+from diffusers import AutoencoderKLWan, WanPipeline, WanTransformer3DModel, FlowMatchEulerDiscreteScheduler
+from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
+from diffusers.utils import export_to_video
+from torchvision import transforms
+import os
+import cv2
+os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
+import numpy as np
+pretrained_model_name_or_path = "./wan_t2v"
+transformer_t2v = WanTransformer3DModel.from_pretrained(pretrained_model_name_or_path, subfolder='transformer')
+text_encoder = UMT5EncoderModel.from_pretrained(pretrained_model_name_or_path, subfolder='text_encoder',
+                                                torch_dtype=torch.bfloat16)
+pipe = WanPipeline.from_pretrained(
+    pretrained_model_name_or_path,
+    transformer=transformer_t2v,
+    text_encoder=text_encoder,
+)
+negative_prompt = '色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走'
+device = "cuda"
+seed = 0
+generator = torch.Generator(device=device).manual_seed(seed)
+inputs = {
+    "prompt": "两只拟人化的猫咪身穿舒适的拳击装备，戴着鲜艳的手套，在聚光灯照射的舞台上激烈对战",
+    "negative_prompt": negative_prompt,
+    "generator": generator,
+    "num_inference_steps": 50,
+    "flow_shift": 5.0,
+    "guidance_scale": 5.0,
+    "height": 720,
+    "width": 1280,
+    "num_frames": 81,
+    "max_sequence_length": 512,
+    "output_type": "np"
+}
+pipe.enable_model_cpu_offload()
+video = pipe(**inputs).frames[0]
+export_to_video(video, "output.mp4", fps=16)
+```

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_class_name": "WanTransformer3DModel",
+  "_diffusers_version": "0.33.0.dev0",
+  "add_img_emb": false,
+  "added_kv_proj_dim": null,
+  "attention_head_dim": 128,
+  "cross_attn_norm": true,
+  "eps": 1e-06,
+  "ffn_dim": 8960,
+  "freq_dim": 256,
+  "in_channels": 16,
+  "num_attention_heads": 12,
+  "num_layers": 30,
+  "out_channels": 16,
+  "patch_size": [
+    1,
+    2,
+    2
+  ],
+  "qk_norm": true,
+  "text_dim": 4096,
+  "window_size": [
+    -1,
+    -1
+  ]
+}

diffusion_pytorch_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd8d923aaa810641cda15b19bc222d0e7197bfd257f525c2ab2407bc52de1f69
+size 5676069600

wan_t2v_fp32_example.py ADDED Viewed

	@@ -0,0 +1,48 @@

+import torch
+from transformers import AutoTokenizer, UMT5EncoderModel
+from diffusers import AutoencoderKLWan, WanPipeline, WanTransformer3DModel, FlowMatchEulerDiscreteScheduler
+from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
+from diffusers.utils import export_to_video
+from torchvision import transforms
+import os
+import cv2
+os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
+import numpy as np
+pretrained_model_name_or_path = "./wan_t2v"
+transformer_t2v = WanTransformer3DModel.from_pretrained(pretrained_model_name_or_path, subfolder='transformer')
+text_encoder = UMT5EncoderModel.from_pretrained(pretrained_model_name_or_path, subfolder='text_encoder',
+                                                torch_dtype=torch.bfloat16)
+pipe = WanPipeline.from_pretrained(
+    pretrained_model_name_or_path,
+    transformer=transformer_t2v,
+    text_encoder=text_encoder,
+)
+negative_prompt = '色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走'
+device = "cuda"
+seed = 0
+generator = torch.Generator(device=device).manual_seed(seed)
+inputs = {
+    "prompt": "两只拟人化的猫咪身穿舒适的拳击装备，戴着鲜艳的手套，在聚光灯照射的舞台上激烈对战",
+    "negative_prompt": negative_prompt,
+    "generator": generator,
+    "num_inference_steps": 50,
+    "flow_shift": 5.0,
+    "guidance_scale": 5.0,
+    "height": 720,
+    "width": 1280,
+    "num_frames": 81,
+    "max_sequence_length": 512,
+    "output_type": "np"
+}
+pipe.enable_model_cpu_offload()
+video = pipe(**inputs).frames[0]
+export_to_video(video, "output.mp4", fps=16)