MiniGPT-4初体验

2023-05-07 | 0 评论 | 0 浏览

背景

MiniGPT-4 [1]是在2023.4.17-5.1期间发布的，是一个视觉理解模型。

第一阶段

数据量：5百万个图像-文本对。
耗时：4块A100卡，耗时10个小时。
效果：Vicuna可以理解图片，但是Vicuna的文本生成能力不足。

第二阶段

数据量：3500对高质量图像-文本对，使用模型和ChatGPT生成。
方法：使用对话模型，提升了对话生成能力和稳定性。
耗时：1块A100，7分钟。
效果：有类似GPT-4的视觉语言能力。

overview

git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml  --gpu-id 0