/OIF 理論部門
輪読会ノート:Self-Attention をゼロから追う
Transformer論文読解理論
理論部門の輪読会で、Transformer の核心である self-attention を読み解きました。 「結局 Q・K・V って何?」という素朴な疑問から出発して、式の気持ちを言葉にしてみます。
一文で言うと
各トークンが「他のどのトークンをどれだけ見るか」を、内積で測って重み付き平均する仕組み。
Q・K・V の役割
- Query (Q) … 「自分は何を探しているか」
- Key (K) … 「自分は何を提供できるか」
- Value (V) … 「実際に渡す中身」
QとKの内積で「関連度(どれだけ見るべきか)」を測り、softmax で割合に変換し、その割合で V を混ぜます。
なぜ scaled なのか
次元 (d_k) が大きいほど内積の分散が大きくなり、softmax が尖りすぎて勾配が消えます。 そこで (\sqrt) で割って安定させる——これが scaled dot-product attention の理由です。
輪読会での気づき
数式を追うだけでなく、「自分の言葉で説明できるか」を全員で確認すると理解が一段深まります。 人に説明しようとすると、分かったつもりの箇所が一気に浮かび上がってきます。
次回は multi-head attention と位置エンコーディングに進みます。
