$$ L = \alpha L_{KL} + \beta L_{CE} + \gamma L_{MSE} + \delta L_{entropy} $$
$$ \min_{w} L(D, W \odot M) \text{ при } ||M||_0 \le k $$
$$ x_q = \text{int}\left(\frac{x}{s}\right) - z $$
$$ x_{d} = s (x_q + z) $$
$$ s = \frac{\beta - \alpha}{2^{n} - 1} $$
Data-параллелизм
Model-параллелизм
Pipeline-параллелизм