MiniGPT-4初体验

  |   评论   |   浏览

背景

MiniGPT-4 [1]是在2023.4.17-5.1期间发布的,是一个视觉理解模型。

结构

  • 视觉encoder: frozen BLIP-2
  • LLM: frozen Vicuna
  • projection层数:1个

训练过程

第一阶段

数据量:5百万个图像-文本对。
耗时:4块A100卡,耗时10个小时。
效果:Vicuna可以理解图片,但是Vicuna的文本生成能力不足。

第二阶段

数据量:3500对高质量图像-文本对,使用模型和ChatGPT生成。
方法:使用对话模型,提升了对话生成能力和稳定性。
耗时:1块A100,7分钟。
效果:有类似GPT-4的视觉语言能力。

演示

overview

初体验

环境配置

git clone https://github.com/Vision-CAIR/MiniGPT-4.git cd MiniGPT-4 conda env create -f environment.yml conda activate minigpt4

下载Vicuna-13B权重

准备MiniGPT-4的checkpoint

本地运行

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml --gpu-id 0

参考

  1. MiniGPT-4@github