Из-за периодической блокировки нашего сайта РКН сервисами, просим воспользоваться резервным адресом:
Загрузить через dTub.ru Загрузить через ClipSaver.ruУ нас вы можете посмотреть бесплатно AI 开发中模型量化相关的技术实践 или скачать в максимальном доступном качестве, которое было загружено на ютуб. Для скачивания выберите вариант из формы ниже:
Роботам не доступно скачивание файлов. Если вы считаете что это ошибочное сообщение - попробуйте зайти на сайт через браузер google chrome или mozilla firefox. Если сообщение не исчезает - напишите о проблеме в обратную связь. Спасибо.
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса savevideohd.ru
张志,商汤模型量化框架PPQ工程师 本演讲为2023年7月8日WasmEdge在北京举办的云原生开源AI基础设施Meetup第四场 完整列表和PPT下载见评论 神经网络量化是一种广泛应用的技术,可以在较低的成本下降低神经网络的计算代价和内存使用。目前使用最为广泛的量化技术将浮点模型转换为8位整数模型,并使用整数运算器完成网络的推理过程。量化技术目前正广泛应用于推理框架当中,大模型的压缩与部署也广泛地依赖于神经网络量化压缩,由商汤 OpenPPL 团队开发的量化框架 PPQ 是目前国内神经网络量化框架的佼佼者,其支持多个硬件后端平台的量化模拟与部署,并在此基础上抽象出一套完整的量化框架设计。我们将着重讲解大语言模型中广泛应用的量化技术,从weight only量化到groupwise kv cache量化,介绍这些技术的应用场景与性能收益。