Из-за периодической блокировки нашего сайта РКН сервисами, просим воспользоваться резервным адресом:
Загрузить через ClipSaver.ruУ нас вы можете посмотреть бесплатно Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение или скачать в максимальном доступном качестве, которое было загружено на ютуб. Для скачивания выберите вариант из формы ниже:
Роботам не доступно скачивание файлов. Если вы считаете что это ошибочное сообщение - попробуйте зайти на сайт через браузер google chrome или mozilla firefox. Если сообщение не исчезает - напишите о проблеме в обратную связь. Спасибо.
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса savevideohd.ru
Демистификация внимания - ключевого механизма внутри трансформеров и больших языковых моделей (LLM). Звуковая дорожка на русском языке: Влад Бурмистров. Вместо рекламы, эти уроки финансируются непосредственно зрителями: https://3b1b.co/support. Особое спасибо следующим: Special thanks to these supporters: https://www.3blue1brown.com/lessons/a... Не менее ценная форма поддержки - просто поделиться ссылкой на видео. На моменте 22:00 (и далее), "breaks" - это опечатка. ------------------ Другие ресурсы о трансформерах Создаём GPT с нуля - видеоролики от Андрея Карпатого • Let's build GPT: from scratch, in cod... Если Вам интересно концептуальное понимание языковых моделей с нуля, то @vcubing начал публикацию коротких видео по этой теме: • What does it mean for computers to un... Если Вы хотите как следует разобраться, как работают большие нейронные сети, то можно почитать посты по теме "Трансформаторные схемы", автор Anthropic В частности, только благодаря одному из этих постов я начал думать о комбинации матриц значений и выхода как о комбинированной низкоранговой карте из пространства эмбеддингов в это же пространство - на мой взгляд, здесь это написано намного яснее, чем в других источниках. https://transformer-circuits.pub/2021... Сайт с упражнениями, связанными с ML-программированием и GPT https://www.gptandchill.ai/codingprob... История языковых моделей от Брит Круз, @ArtOfTheProblem • The 35 Year History of ChatGPT Ранняя статья о том, как направления в пространствах эмбеддингов имеют смысл: https://arxiv.org/pdf/1301.3781.pdf ------------------ Временные метки: 0:00 - Обзор эмбеддингов 1:39 - Мотивирующие примеры 4:29 - Шаблон внимания 11:08 - Маскировка 12:42 - Размер контекста 13:10 - Значения (values) 15:44 - Подсчитываем параметры 18:21 - Перекрестное внимание 19:19 - Множественные головы 22:16 - Матрица вывода 23:19 - Идти глубже 24:54 - Окончание