PaliGemma란?구글의 오픈소스 경량화 VLM(Vision Language Model) 입니다. 우선 VLM 답게 이미지와 텍스트를 동시에 받아 텍스트를 생성할 수 있어요. 추가적인 학습 없이 OCR, Image Captioning, Segmentation 등의 간단한 Task를 수행할 수 있습니다. 같은 구글에서 만든 Gemini와는 달리 Gemma는 오픈소스라 모델 가중치와 소스코드 모두 공개가 되어있어요. 그리고 경량화된 모델이라 컴퓨팅 성능이 부족하더라도 시도해 볼 수 있답니다.위 그림을 PaliGemma의 모델 아키텍처인데 SigLIP와 Gemma가 합쳐진 형태로 VLM을 개발했어요. SigLIP를 이용해서 이미지를 Encoding 하고 Embedding된 Prompt와 concat해서 Ge..