часть 4 · глубокое погружение · 5 секций · ~40 мин

Нейросети.
Часть 4.

Здесь мы вскрываем то что раньше было «магической» коробкой. Что внутри attention на уровне формул, что такое Q, K, V и зачем их три. Почему голов несколько и что они на самом деле учат. Как сеть узнаёт порядок слов. Как текст превращается в числа. И почему длинный контекст стоит так дорого.

Зачем

На этом уровне ты сможешь читать оригинальные статьи (Attention Is All You Need, RoPE, Flash Attention), понимать что обсуждают исследователи в твиттере, и осознанно работать с API больших моделей — выбирать правильную длину контекста, оптимизировать промпты, понимать почему один запрос дороже другого.



конец части 4

Пять секций глубже под капот. Дальше можно идти ещё ниже — в Mixture of Experts, квантизацию, LoRA, мультимодальность, speculative decoding. Скажи если интересно — соберём ещё.

← вернуться к части 1