O Transformer é a arquitetura que mudou a forma como modelos de linguagem entendem texto. Sua grande inovação foi usar **atenção** para relacionar tokens entre si em vez de depender de processamento sequencial. Isso não foi apenas uma melhoria; foi a morte da arquitetura Recorrente (RNN).
Antes do Transformer, modelos como RNNs e LSTMs processavam texto passo a passo. Imagine ler um livro palavra por palavra e tentar lembrar da primeira página quando chegar na última. O sinal se perdia. O Transformer resolveu esse gargalo ao analisar a sequência inteira de forma simultânea (paralelização), permitindo que o modelo aprenda relações entre palavras distantes com precisão matemática.
Essa mudança foi decisiva porque a linguagem natural não é linear. O significado de "banco" em uma frase pode depender de uma palavra que apareceu 20 posições atrás. A atenção foi desenhada para "pescar" essa relação diretamente, sem passar por todos os intermediários.
O mecanismo de **self-attention** funciona como um sistema de busca interna. Cada palavra recebe três vetores: Query (o que ela busca), Key (o que ela oferece) e Value (a informação que ela carrega). O modelo calcula a compatibilidade entre Query e Key para decidir quanta importância (peso) dar ao Value de cada palavra vizinha.
Isso produz o que chamamos de mapas de atenção. Em uma frase como "O robô atravessou a rua porque ela estava vazia", o mecanismo de atenção faz com que o token "ela" tenha um peso altíssimo de conexão com o token "rua", resolvendo a ambiguidade semântica de forma estatística.
O Transformer usa várias “cabeças” de atenção em paralelo. Cada uma aprende padrões diferentes: uma foca em concordância gramatical, outra em relações temporais, e outra em entidades nomeadas. Ao combinar essas visões, o modelo constrói uma representação contextual rica e multidimensional que modelos antigos jamais conseguiriam.
Apesar de poderoso, o Transformer tem um custo: a complexidade da atenção é quadrática $O(n^2)$ em relação ao tamanho da sequência. Isso significa que dobrar o texto quadruplica o esforço da GPU. Por isso, em 2026, o foco mudou para variantes como *Linear Attention* e janelas deslizantes para lidar com contextos de milhões de tokens.
O Transformer funciona porque transforma texto em relações. Se o título parece poético, a ideia é técnica: no Transformer, atenção não é um detalhe — é o motor central que tornou a IA moderna possível. Ele permitiu escala, e a escala permitiu a emergência da inteligência que vemos hoje.