Русские видео

Сейчас в тренде

Иностранные видео


Скачать с ютуб [Paper Review] LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning) в хорошем качестве

[Paper Review] LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning) 1 месяц назад


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса savevideohd.ru



[Paper Review] LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning)

발표자: 석사과정 마민정([email protected]) 1. 논문 제목 LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning) 2. 링크 https://arxiv.org/abs/2304.08485 3. Overview - Multimodal Instruction Following Capability를 연구하기 위한 최초의 벤치마크 제안 - Vision Encoder로는 CLIP, Language Decoder로는 Vicuna를 결합하여 Vision 및 Language가 통합된 LLaVA를 개발 - Language만을 이해하는 GPT-4를 사용하여 Instruction-following 데이터 셋을 생성함으로써 풍부하고 다양한 Multi-modal 학습 데이터를 만들어내며 모델이 더 정교하게 시각적 상황을 이해하고 Language Instruction을 수행 - Fine-tuning 시 Multimodal Chatbot 데이터 셋에서 뛰어난 Visual Chat Capability를, ScienceQA 데이터 셋에서 SOTA 달성 4. Keyword : #LLaVA, #VisualInstructionTuning, #LargeLanguageandVisionAssistant, #VisionLangauge 5. 발표자료: http://dsba.korea.ac.kr/seminar/?uid=...

Comments