Что такое FFN-слой в трансформере и зачем нужна нелинейность между attention-блоками?

Компании, где спрашивали

ПАО Газпром нефть

Ответ от нейросети

sobes.tech AI

FFN-слой (Feed-Forward Network) в трансформере — это двухслойная полностью связная нейронная сеть, которая применяется отдельно к каждому элементу последовательности после слоя внимания (attention). Его задача — добавить дополнительную нелинейную обработку и повысить выразительную способность модели.

Нелинейность между attention-блоками нужна, чтобы модель могла аппроксимировать сложные функции и зависимости. Attention отвечает за взвешенное суммирование информации по разным позициям, а FFN с нелинейной активацией (например, ReLU или GELU) помогает трансформеру моделировать более сложные паттерны, чем просто линейные комбинации.

Пример структуры FFN-слоя:

import torch
import torch.nn as nn

class FFN(nn.Module):
    def __init__(self, d_model, d_ff):
        super().__init__()
        self.linear1 = nn.Linear(d_model, d_ff)
        self.activation = nn.GELU()
        self.linear2 = nn.Linear(d_ff, d_model)

    def forward(self, x):
        return self.linear2(self.activation(self.linear1(x)))

Здесь d_model — размерность входных и выходных векторов, d_ff — размерность внутреннего слоя, обычно больше d_model.

Таким образом, FFN-слой с нелинейностью обеспечивает глубокое нелинейное преобразование признаков, что улучшает обучение и качество модели.

Предыдущий Следующий