輪読会ノート：Self-Attention をゼロから追う

理論部門の輪読会で、Transformer の核心である self-attention を読み解きました。「結局 Q・K・V って何？」という素朴な疑問から出発して、式の気持ちを言葉にしてみます。

一文で言うと

各トークンが「他のどのトークンをどれだけ見るか」を、内積で測って重み付き平均する仕組み。

QとKの内積で「関連度（どれだけ見るべきか）」を測り、softmax で割合に変換し、その割合で V を混ぜます。

次元 (d_k) が大きいほど内積の分散が大きくなり、softmax が尖りすぎて勾配が消えます。そこで (\sqrt) で割って安定させる——これが scaled dot-product attention の理由です。

数式を追うだけでなく、「自分の言葉で説明できるか」を全員で確認すると理解が一段深まります。人に説明しようとすると、分かったつもりの箇所が一気に浮かび上がってきます。

次回は multi-head attention と位置エンコーディングに進みます。