Efficient AI

Efficient AI

Блок 3. Языковые модели. Оптимизации трансформеров

Константин Кориков

Где мы?

📍Вводная
Блок 1
Блок 2
🏝️1 мая
🌹9 мая
🫠Блок 3
☠️Экзамен

Содержание

Вспоминаем узкие места
Оптимизации данных
Оптимизации модели
Оптимизации системы

Узкие места

Transformer

Память

Memory

Входные и выходные данные

Pruning
Summarization
Soft prompt Compression
RAG
Output Organization

Входные данные

Data

Выходные данные

SoT

Выходные данные

APAR

Перерыв

Модель

FFN: MoE и MoEfication
Attention: KV Cache
Attention: Linearization
Attention: Low-Rank

Mixture-of-Experts

MoE

MoEfication

MoEfication

Deja Vu

Deja Vu

Attention

Attention

Система

Непрерывный батчинг
Спекулятивный декодинг
Hardware-friendly computing

Непрерывный батчинг

Transformer

constantine.korikov@gmail.com