В первой части мы прошли от одного нейрона до многослойной сети с обучением. Здесь — оставшиеся вещи, без которых нельзя читать современные статьи и код: как слова превращаются в числа, как сеть выдаёт вероятности, почему она «зубрит» вместо того чтобы учиться, и почему чистый градиентный спуск никто не использует.
Эта часть строится на знании того, что такое вес, bias, активация, скрытый слой и градиентный спуск. Если эти слова ничего не значат — сначала часть 1.
Всё. Двадцать секций — от y = w·x до Adam и attention. Дальше — только глубже в конкретные архитектуры (трансформеры, диффузия, RL), но фундамент уже есть. Когда читаешь техническую статью и видишь незнакомый термин — у тебя уже есть карта, на которую его положить.