MiniGPT-4初体验
背景
MiniGPT-4 [1]是在2023.4.17-5.1期间发布的,是一个视觉理解模型。
结构
- 视觉encoder: frozen BLIP-2
- LLM: frozen Vicuna
- projection层数:1个
训练过程
第一阶段
数据量:5百万个图像-文本对。
耗时:4块A100卡,耗时10个小时。
效果:Vicuna可以理解图片,但是Vicuna的文本生成能力不足。
第二阶段
数据量:3500对高质量图像-文本对,使用模型和ChatGPT生成。
方法:使用对话模型,提升了对话生成能力和稳定性。
耗时:1块A100,7分钟。
效果:有类似GPT-4的视觉语言能力。
演示
初体验
环境配置
git clone https://github.com/Vision-CAIR/MiniGPT-4.git cd MiniGPT-4 conda env create -f environment.yml conda activate minigpt4
下载Vicuna-13B权重
准备MiniGPT-4的checkpoint
本地运行
python demo.py --cfg-path eval_configs/minigpt4_eval.yaml --gpu-id 0