Efficient AI

Efficient AI

Блок 3. Языковые модели. Трансформер

Константин Кориков

Где мы?

📍Вводная
Блок 1
Блок 2
🫠
🏝️1 мая
🌹9 мая
Блок 3
☠️Экзамен

Содержание

Задача моделирования языка
Инфраструктура и приложения
Архитектура модели: трансформер
Производительность и узкие места

Задача моделирования языка

$$ P(\omega_0,\omega_1,\omega_2,\ldots,\omega_s)=P(\omega_0)P(\omega_1|\omega_0)P(\omega_2|\omega_0,\omega_1)\ldots $$

Задача моделирования языка

$$ P(\text{token}_i) = \frac{e^{\frac{\text{logit}_i}{T}}}{\sum_j e^{\frac{\text{logit}_j}{T}}} $$

Задача моделирования языка

Scaling

Инфраструктура и приложения

Zero-shot Prompting
Few-shot Prompting
Chain-of-Thought (CoT) Prompting

Инфраструктура и приложения

ToT

Инфраструктура и приложения

RAG

Архитектура модели: трансформер

Transformer

Архитектура модели: трансформер

Attention

Архитектура модели: трансформер

Attention Types

Архитектура модели: трансформер

Архитектура модели: семейства

Models

Архитектура модели: размеры

Models

Перерыв

Узкие места

Transformer

constantine.korikov@gmail.com