Efficient AI
Блок 3. Языковые модели.
Оптимизации трансформеров
Где мы?
- 📍Вводная
-
Блок 1
- Блок 2
- 🏝️1 мая
- 🌹9 мая
- 🫠Блок 3
- ☠️Экзамен
Содержание
- Вспоминаем узкие места
- Оптимизации данных
- Оптимизации модели
- Оптимизации системы
Входные и выходные данные
- Pruning
- Summarization
- Soft prompt Compression
- RAG
- Output Organization
Модель
- FFN: MoE и MoEfication
- Attention: KV Cache
- Attention: Linearization
- Attention: Low-Rank
Система
- Непрерывный батчинг
- Спекулятивный декодинг
- Hardware-friendly computing