本文へスキップ
OIF Logo
← back to blog
/OIF 理論部門

輪読会ノート:Self-Attention をゼロから追う

Transformer論文読解理論

理論部門の輪読会で、Transformer の核心である self-attention を読み解きました。 「結局 Q・K・V って何?」という素朴な疑問から出発して、式の気持ちを言葉にしてみます。

一文で言うと

各トークンが「他のどのトークンをどれだけ見るか」を、内積で測って重み付き平均する仕組み。

Q・K・V の役割

  • Query (Q) … 「自分は何を探しているか」
  • Key (K) … 「自分は何を提供できるか」
  • Value (V) … 「実際に渡す中身」

QとKの内積で「関連度(どれだけ見るべきか)」を測り、softmax で割合に変換し、その割合で V を混ぜます。

なぜ scaled なのか

次元 (d_k) が大きいほど内積の分散が大きくなり、softmax が尖りすぎて勾配が消えます。 そこで (\sqrt) で割って安定させる——これが scaled dot-product attention の理由です。

輪読会での気づき

数式を追うだけでなく、「自分の言葉で説明できるか」を全員で確認すると理解が一段深まります。 人に説明しようとすると、分かったつもりの箇所が一気に浮かび上がってきます。

次回は multi-head attention と位置エンコーディングに進みます。