gyeongtiger 님의 블로그

  • 홈
  • 태그
  • 방명록

multimodal 1

[MLLM] 구글의 오픈소스 VLM 'PaliGemma' 로컬 튜토리얼

PaliGemma란?구글의 오픈소스 경량화 VLM(Vision Language Model) 입니다. 우선 VLM 답게 이미지와 텍스트를 동시에 받아 텍스트를 생성할 수 있어요. 추가적인 학습 없이 OCR, Image Captioning, Segmentation 등의 간단한 Task를 수행할 수 있습니다. 같은 구글에서 만든 Gemini와는 달리 Gemma는 오픈소스라 모델 가중치와 소스코드 모두 공개가 되어있어요. 그리고 경량화된 모델이라 컴퓨팅 성능이 부족하더라도 시도해 볼 수 있답니다.위 그림을 PaliGemma의 모델 아키텍처인데 SigLIP와 Gemma가 합쳐진 형태로 VLM을 개발했어요. SigLIP를 이용해서 이미지를 Encoding 하고 Embedding된 Prompt와 concat해서 Ge..

DeepLearning 2024.10.02
이전
1
다음
더보기
프로필사진

gyeongtiger 님의 블로그

gyeongtiger 님의 블로그 입니다.

  • 분류 전체보기 (30)
    • DeepLearning (5)
    • WorkStation (1)
    • Ubuntu (1)
    • AutonomousDriving (5)
    • Control (7)
    • Project (2)
      • Carla Project (2)

Tag

onnx, ROS2, Deeplearning, sae, EKF, #shellscript #linux, j3016, localization, ondeviceai, KalmanFilter, 상보 필터, Torch, lowpassfilter, tflite, TF, multimodal, pytorch #deeplearning #collate_fn, ukf, Carla, 자율주행,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/04   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바