AIGC(MLLM、VLM、LLM、SD)系列——论文解读目录
涉及面广:多模态生成模型——MLLM ( 目前集中在视觉语言模型——VLM)、大语言模型——LLM、生成模型(SD系列)、对比学习的经典模型(CLIP系列)。
持续更新:对于已经完成解读的会附上链接(有的会在一些场景做尝试,也会附上链接供大家快速参考结果),准备写的会备注筹备中。
适宜人群:节省大把时间,快速定位需要的部分,适合学生、入门AIGC者和从业者作为笔记检索使用。
RAM
论文题目:Recognize Anything: A Strong Image Tagging Model
关键词:RAM、属性识别、多标签分类、解读
论文解读:RAM(recognize anything)—— 论文详解-CSDN博客
应用测试:RAM(recognize anything)—— 项目使用——调整阈值(获得置信度)_from ram.models import ram-CSDN博客
RAM++
论文题目:Open-Set Image Tagging with Multi-Grained Text Supervision
关键词:RAM++、RAM plus plus、属性识别、多标签分类、open set、解读
论文解读:RAM++(recognize anything++)—— 论文详解-CSDN博客
应用测试:暂同 RAM(recognize anything)—— 项目使用——调整阈值(获得置信度)_from ram.models import ram-CSDN博客
OR as Next Token Prediction
论文题目:Object Recognition as Next Token Prediction
关键词:属性识别、多标签分类、open set、解读
论文解读:VLM 系列——Object Recognition as Next Token Prediction——论文解读-CSDN博客
应用测试:暂无
CLIP
论文题目:Learning Transferable Visual Models From Natural Language Supervision
关键词:CLIP、解读、对比学习、open set、VLM、图文大模型、AIGC
论文解读:VLM 系列——CLIP——论文解读-CSDN博客
应用测试:暂无
Chinese CLIP
论文题目:Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese
关键词:中文CLIP、解读、对比学习、open set、VLM、图文大模型、AIGC
论文解读:VLM 系列——中文CLIP——论文解读-CSDN博客
应用测试:暂无
BLIP 2
论文题目:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
关键词:BLIP-2、解读、VLM、图文大模型、AIGC
论文解读:VLM 系列——BLIP2——论文解读-CSDN博客
Instruct BLIP
论文题目:InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
关键词:Instruct BLIP、解读、VLM、图文大模型、AIGC
论文解读:VLM 系列——CLIP——论文解读-CSDN博客
应用测试:暂无
COGVLM
论文题目:VISUAL EXPERT FOR LARGE LANGUAGE
关键词:COGVLM、解读、VLM、图文大模型、AIGC
论文解读:VLM 系列——COGVLM—— 论文解读-CSDN博客
应用测试:暂无
DALL·E 3
论文题目:Improving Image Generation with Better Captions
关键词:DALL·E 3、文生图、Open AI
论文解读:文生图——DALL-E 3 —论文解读——第一版_dall- e文献-CSDN博客
应用测试:暂无