2026年5月 | Kas's Blog

Decoder-only Transformerとは？GPT系LLMの構造と生成の仕組みを理解する

Decoder-only Transformerは、GPT系LLMで使われる自己回帰型のTransformer構造です。GPT-2論文をもとに、次token予測、causal mask、Encoder-Decoderとの違い、GPT-2の設計、KV Cacheとの関係を初心者にも分かりやすく解説します。

2026.05.24

AI関連論文

Positional Encodingとは？RoPEでLLMが語順を扱う仕組みをやさしく解説

Positional Encodingは、TransformerやLLMへtokenの順序情報を渡す仕組みです。RoFormer論文をもとに、sin/cos Positional Encoding、absolute positionとrelative positionの違い、RoPEの回転行列、Query/Keyへの適用、長文入力で位置を扱う効果を初心者にも分かりやすく解説します。

2026.05.23

AI関連論文

【LLM解説シリーズ】Self-Attentionとは？Scaled Dot-Prod

Self-Attentionは、TransformerやLLMの中核となるAttention計算です。Attention Is All You Need論文をもとに、Query/Key/Value、Scaled Dot-Product Attention、Multi-Head Attention、causal mask、tensor形状、計算量を初心者にも分かりやすく解説します。

2026.05.20

AI関連論文

【論文解説】LLMはなぜ日本文化に寄りがちなのか？CROQで見る文化・地域バイアス

LLMが文化に関する曖昧な質問へ答えるとき、どの国や地域を暗黙に選びやすいのかを調べた論文を解説します。CROQデータセット、LLM-as-a-judgeによる地域抽出、入力言語の影響、SFT後に強まる文化・地域バイアスを初心者にも分かりやすく整理します。

2026.05.20

AI関連論文

【LLM解説シリーズ】Transformerとは？Attention Is All You Need論文からLLMの基本構造を理解する

Transformerは、Attentionを中心に系列を処理するLLMの基礎アーキテクチャです。Attention Is All You Need論文をもとに、Self-Attention、Multi-Head Attention、Positional Encoding、EncoderとDecoderの違いを初心者にも分かりやすく解説します。

2026.05.20

AI関連論文

【LLM解説シリーズ】Attentionとは？Bahdanau Attention論文からLLMの「どこを見るか」を理解する

Attentionは、入力中の重要な情報を重み付きで参照する仕組みです。Bahdanauらの機械翻訳論文をもとに、固定長ベクトルの限界、soft alignment、context vector、Transformerとの違いを解説します。

2026.05.17

AI関連論文

Embeddingとは？LLMが単語や文章をベクトルで表す仕組みをBERT論文から解説

Embedding（埋め込み）とは、token IDをベクトルへ変換するLLMの入口です。BERT論文をもとに、token embedding、segment embedding、position embedding、Masked Language Modeling、文脈化表現を初心者にも分かりやすく解説します。

2026.05.15

AI関連論文

Tokenizationとは？SentencePiece論文からLLMのトークン化を解説

Tokenization（トークン化）とは、文章をLLMが扱えるtoken IDの列に変換する処理です。SentencePiece論文をもとに、サブワード、BPE、Unigram、可逆なdetokenization、日本語LLMでの注意点を解説します。

2026.05.13

AI関連論文

LLMとは？ChatGPTの原点をGPT-3論文から読み解く

LLM（大規模言語モデル）とは何かを、GPT-3論文をベースに解説します。Transformer、次トークン予測、Few-shot学習、ChatGPTにつながる技術的背景を整理します。

2026.05.13

AI関連論文

【論文解説】WindowQuantとは？動画VLMのKV Cacheを軽量化する混合精度量子化手法を解説

動画VLMの推論で問題になるKV Cacheのメモリ使用量と遅延を削減する手法「WindowQuant」を解説します。質問との関連度に応じて動画windowごとにFP16、INT4、INT2を使い分ける混合精度量子化の仕組み、KV Cacheの基礎、実験結果を整理します。

2026.05.08

AI関連論文

2026-05

Decoder-only Transformerとは？GPT系LLMの構造と生成の仕組みを理解する

Positional Encodingとは？RoPEでLLMが語順を扱う仕組みをやさしく解説

【LLM解説シリーズ】Self-Attentionとは？Scaled Dot-Prod

【論文解説】LLMはなぜ日本文化に寄りがちなのか？CROQで見る文化・地域バイアス

【LLM解説シリーズ】Transformerとは？Attention Is All You Need論文からLLMの基本構造を理解する

【LLM解説シリーズ】Attentionとは？Bahdanau Attention論文からLLMの「どこを見るか」を理解する

Embeddingとは？LLMが単語や文章をベクトルで表す仕組みをBERT論文から解説

Tokenizationとは？SentencePiece論文からLLMのトークン化を解説

LLMとは？ChatGPTの原点をGPT-3論文から読み解く

【論文解説】WindowQuantとは？動画VLMのKV Cacheを軽量化する混合精度量子化手法を解説