Здесь мы вскрываем то что раньше было «магической» коробкой. Что внутри attention на уровне формул, что такое Q, K, V и зачем их три. Почему голов несколько и что они на самом деле учат. Как сеть узнаёт порядок слов. Как текст превращается в числа. И почему длинный контекст стоит так дорого.
На этом уровне ты сможешь читать оригинальные статьи (Attention Is All You Need, RoPE, Flash Attention), понимать что обсуждают исследователи в твиттере, и осознанно работать с API больших моделей — выбирать правильную длину контекста, оптимизировать промпты, понимать почему один запрос дороже другого.
Пять секций глубже под капот. Дальше можно идти ещё ниже — в Mixture of Experts, квантизацию, LoRA, мультимодальность, speculative decoding. Скажи если интересно — соберём ещё.