'multimodal' 태그의 글 목록

[MLLM] 구글의 오픈소스 VLM 'PaliGemma' 로컬 튜토리얼

PaliGemma란?구글의 오픈소스 경량화 VLM(Vision Language Model) 입니다. 우선 VLM 답게 이미지와 텍스트를 동시에 받아 텍스트를 생성할 수 있어요. 추가적인 학습 없이 OCR, Image Captioning, Segmentation 등의 간단한 Task를 수행할 수 있습니다. 같은 구글에서 만든 Gemini와는 달리 Gemma는 오픈소스라 모델 가중치와 소스코드 모두 공개가 되어있어요. 그리고 경량화된 모델이라 컴퓨팅 성능이 부족하더라도 시도해 볼 수 있답니다.위 그림을 PaliGemma의 모델 아키텍처인데 SigLIP와 Gemma가 합쳐진 형태로 VLM을 개발했어요. SigLIP를 이용해서 이미지를 Encoding 하고 Embedding된 Prompt와 concat해서 Ge..

DeepLearning 2024.10.02

« 2026/04 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

gyeongtiger 님의 블로그

multimodal 1

티스토리툴바