作者:互联网 时间: 2026-07-04 10:10:03
能在5分钟内本地运行LongCat AI项目,需NVIDIA显卡、18GB显存、Ubuntu 22.04系统;先验证nvidia-smi、内存和系统版本,再分别启动Image-Edit或Video-Avatar服务。
你想在本地跑起一个真正能用的LongCat AI项目,而不是只看文档、等别人演示——比如让一张猫图秒变熊猫医生,或者用语音驱动虚拟人开口说话。这不需要你先成为Python专家,也不用花三天配环境,只要确认显卡是NVIDIA、有18GB显存、系统是Ubuntu 22.04,接下来所有操作加起来不到5分钟就能看到结果。
打开终端,依次执行三行命令,每行回车后观察输出:
nvidia-smi → 看左上角是否有GPU型号和“CUDA Version: 12.4”字样;没有则驱动未装或版本不对,【必须停在这里重装驱动】。
free -h | grep Mem → 确认可用内存 ≥8GB;低于6GB可能导致模型加载失败,进程直接被OOM Killer杀掉。
lsb_release -a 2>/dev/null | grep "Ubuntu 22.04" → 只有匹配才继续;Ubuntu 24.04或CentOS 7已知存在PyTorch CUDA兼容问题,会卡在model.load_state_dict()不报错但不动。
这是最轻量、反馈最快、零代码依赖的入门路径,专为图像编辑设计:
执行:bash /root/build/start.sh
等待出现 Streamlit app is running at: http://0.0.0.0:7860 字样,说明服务已就绪。
用Chrome浏览器访问 http://localhost:7860(若在远程服务器,则把 localhost 换成服务器IP)。
页面加载后,左侧虚线框拖入一张宽度≤800像素的动物图(如文档附带的橘猫测试图),右侧立即显示预览;中间文本框输入“猫变熊猫医生”,点击“开始编辑”按钮。
如果你的目标是生成带口型同步的AI数字人视频,必须走这条路径:
第一步:克隆仓库并进入目录git clone --single-branch --branch main https://gitcode.com/meituan-longcat/LongCat-Video-Avatar-1.5 → cd LongCat-Video-Avatar-1.5
第二步:创建隔离环境conda create -n longcat-video python=3.10 → conda activate longcat-video
第三步:安装核心依赖pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 → pip install flash_attn==2.7.4.post1 → pip install -r requirements.txt -r requirements_avatar.txt
第四步:验证是否可调用模型python -c "from transformers import AutoModel; m = AutoModel.from_pretrained('meituan-longcat/LongCat-Video-Avatar-1.5', trust_remote_code=True); print('load success')" → 输出 load success 才算通过。