雑記 【LLM解説シリーズ】Self-Attentionとは?Scaled Dot-Prod
Self-Attentionは、TransformerやLLMの中核となるAttention計算です。Attention Is All You Need論文をもとに、Query/Key/Value、Scaled Dot-Product Attention、Multi-Head Attention、causal mask、tensor形状、計算量を初心者にも分かりやすく解説します。
