--- frameworks: - Pytorch license: other tasks: - text-to-video-synthesis #model-type: ##如 gpt、phi、llama、chatglm、baichuan 等 #- gpt #domain: ##如 nlp、cv、audio、multi-modal #- nlp #language: ##语言代码列表 https://help.aliyun.com/document_detail/215387.html?spm=a2c4g.11186623.0.0.9f8d7467kni6Aa #- cn #metrics: ##如 CIDEr、Blue、ROUGE 等 #- CIDEr #tags: ##各种自定义,包括 pretrained、fine-tuned、instruction-tuned、RL-tuned 等训练方法和其他 #- pretrained #tools: ##如 vllm、fastchat、llamacpp、AdaSeq 等 #- vllm --- # CogVideoX-Fun 😊 Welcome! [English](./README_en.md) | 简体中文 # 目录 - [目录](#目录) - [简介](#简介) - [快速启动](#快速启动) - [视频作品](#视频作品) - [如何使用](#如何使用) - [模型地址](#模型地址) - [未来计划](#未来计划) - [参考文献](#参考文献) - [许可证](#许可证) # 简介 CogVideoX-Fun是一个基于CogVideoX结构修改后的的pipeline,是一个生成条件更自由的CogVideoX,可用于生成AI图片与视频、训练Diffusion Transformer的基线模型与Lora模型,我们支持从已经训练好的CogVideoX-Fun模型直接进行预测,生成不同分辨率,6秒左右、fps8的视频(1 ~ 49帧),也支持用户训练自己的基线模型与Lora模型,进行一定的风格变换。 我们会逐渐支持从不同平台快速启动,请参阅 [快速启动](#快速启动)。 新特性: - 通过奖励反向传播技术训练Lora,以优化生成的视频,使其更好地与人类偏好保持一致,[更多信息](scripts/README_TRAIN_REWARD.md)。新版本的控制模型,支持不同的控制条件,如Canny、Depth、Pose、MLSD等。[2024.11.21] - CogVideoX-Fun Control现在在diffusers中得到了支持。感谢 [a-r-r-o-w](https://github.com/a-r-r-o-w)在这个 [PR](https://github.com/huggingface/diffusers/pull/9671)中贡献了支持。查看[文档](https://huggingface.co./docs/diffusers/main/en/api/pipelines/cogvideox)以了解更多信息。[2024.10.16] - 重新训练i2v模型,添加Noise,使得视频的运动幅度更大。上传控制模型训练代码与Control模型。[ 2024.09.29 ] - 创建代码!现在支持 Windows 和 Linux。支持2b与5b最大256x256x49到1024x1024x49的任意分辨率的视频生成。[ 2024.09.18 ] 功能概览: - [数据预处理](#data-preprocess) - [训练DiT](#dit-train) - [模型生成](#video-gen) 我们的ui界面如下: ![ui](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/asset/v1/ui.jpg) # 快速启动 ### 1. 云使用: AliyunDSW/Docker #### a. 通过阿里云 DSW DSW 有免费 GPU 时间,用户可申请一次,申请后3个月内有效。 阿里云在[Freetier](https://free.aliyun.com/?product=9602825&crowd=enterprise&spm=5176.28055625.J_5831864660.1.e939154aRgha4e&scm=20140722.M_9974135.P_110.MO_1806-ID_9974135-MID_9974135-CID_30683-ST_8512-V_1)提供免费GPU时间,获取并在阿里云PAI-DSW中使用,5分钟内即可启动CogVideoX-Fun。 [![DSW Notebook](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/asset/dsw.png)](https://gallery.pai-ml.com/#/preview/deepLearning/cv/cogvideox_fun) #### b. 通过ComfyUI 我们的ComfyUI界面如下,具体查看[ComfyUI README](comfyui/README.md)。 ![workflow graph](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/asset/v1/cogvideoxfunv1_workflow_i2v.jpg) #### c. 通过docker 使用docker的情况下,请保证机器中已经正确安装显卡驱动与CUDA环境,然后以此执行以下命令: ``` # pull image docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun # enter image docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun # clone code git clone https://github.com/aigc-apps/CogVideoX-Fun.git # enter CogVideoX-Fun's dir cd CogVideoX-Fun # download weights mkdir models/Diffusion_Transformer mkdir models/Personalized_Model wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/Diffusion_Transformer/CogVideoX-Fun-V1.1-2b-InP.tar.gz -O models/Diffusion_Transformer/CogVideoX-Fun-V1.1-2b-InP.tar.gz cd models/Diffusion_Transformer/ tar -xvf CogVideoX-Fun-V1.1-2b-InP.tar.gz cd ../../ ``` ### 2. 本地安装: 环境检查/下载/安装 #### a. 环境检查 我们已验证CogVideoX-Fun可在以下环境中执行: Windows 的详细信息: - 操作系统 Windows 10 - python: python3.10 & python3.11 - pytorch: torch2.2.0 - CUDA: 11.8 & 12.1 - CUDNN: 8+ - GPU: Nvidia-3060 12G & Nvidia-3090 24G Linux 的详细信息: - 操作系统 Ubuntu 20.04, CentOS - python: python3.10 & python3.11 - pytorch: torch2.2.0 - CUDA: 11.8 & 12.1 - CUDNN: 8+ - GPU:Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G 我们需要大约 60GB 的可用磁盘空间,请检查! #### b. 权重放置 我们最好将[权重](#model-zoo)按照指定路径进行放置: ``` 📦 models/ ├── 📂 Diffusion_Transformer/ │ ├── 📂 CogVideoX-Fun-V1.1-2b-InP/ │ └── 📂 CogVideoX-Fun-V1.1-5b-InP/ ├── 📂 Personalized_Model/ │ └── your trained trainformer model / your trained lora model (for UI load) ``` # 视频作品 所展示的结果都是图生视频获得。 ### CogVideoX-Fun-V1.1-5B Resolution-1024
Prompt | CogVideoX-Fun-V1.1-5B | CogVideoX-Fun-V1.1-5B HPSv2.1 Reward LoRA |
CogVideoX-Fun-V1.1-5B MPS Reward LoRA |
---|---|---|---|
Pig with wings flying above a diamond mountain | |||
A dog runs through a field while a cat climbs a tree |
A young woman with beautiful clear eyes and blonde hair, wearing white clothes and twisting her body, with the camera focused on her face. High quality, masterpiece, best quality, high resolution, ultra-fine, dreamlike. | A young woman with beautiful clear eyes and blonde hair, wearing white clothes and twisting her body, with the camera focused on her face. High quality, masterpiece, best quality, high resolution, ultra-fine, dreamlike. | A young bear. |
Resolution-512 | Resolution-768 | Resolution-1024 |
Resolution-512 | Resolution-768 | Resolution-1024 |