Kas | Kas's Blog

NPUはなぜDRAMアクセスを減らしやすいのか？PE ArrayとSystolic ArrayをGPUとの違いから理解する

NPUのPE Array、Systolic Array、On-chip SRAM、FIFO、Accumulator、dataflowを、行列積の積和とA/B/Cの移動から解説。GPUのtile再利用との違い、DRAMアクセスを減らしやすい理由、カメラAI・エッジAIへの応用まで整理します。

2026.06.20

AI関連論文

GPUの行列積はなぜタイル化するのか？warp・Shared Memory・Tensor Coreから理解する

GPUはなぜニューラルネットワークの行列積をtileへ分割するのか。warp、SM、Shared Memory、Registers、Tensor Core、HBM/GDDR、L2 Cacheの関係から、GPUのデータ再利用とTensor Core MMAへのデータ供給を論文・公式資料ベースで解説します。

2026.06.20

AI関連論文

WiCERとは？LLMの長文知識をWiki-memoryとして圧縮・改善する仕組み

WiCERとは、LLM向けに長文知識をWiki-memoryへ圧縮し、診断プローブで欠落事実を見つけて反復改善する手法です。RAG、full-context KV cache、compilation gapとの違いを論文ベースで解説します。

2026.06.17

AI関連論文

Patch Forcingとは？画像生成をパッチごとの難しさで適応的に進める仕組み

Patch Forcingとは、画像をパッチごとの難しさに応じて異なる速度で生成する適応サンプリング手法です。LTG sampler、difficulty head、dual-loop、look-aheadの仕組みを、Flow Matchingの数式とImageNet・Text-to-Imageの実験結果から解説します。

2026.06.10

AI関連論文

学習率とは？DALS論文で見る最適化手法の進化と使い分け

学習率とは何か、SGD、cosine decay、AdamW、RAdam、LARS、Grokfast、DALSの違いを論文ベースで解説します。DALSが提案する層と学習フェーズに応じた最適化、scratch学習とfine-tuningでの使い分け、実験結果の読み方を整理します。

2026.06.03

AI関連論文

Decoder-only Transformerとは？GPT系LLMの構造と生成の仕組みを理解する

Decoder-only Transformerは、GPT系LLMで使われる自己回帰型のTransformer構造です。GPT-2論文をもとに、次token予測、causal mask、Encoder-Decoderとの違い、GPT-2の設計、KV Cacheとの関係を初心者にも分かりやすく解説します。

2026.05.24

AI関連論文

Positional Encodingとは？RoPEでLLMが語順を扱う仕組みをやさしく解説

Positional Encodingは、TransformerやLLMへtokenの順序情報を渡す仕組みです。RoFormer論文をもとに、sin/cos Positional Encoding、absolute positionとrelative positionの違い、RoPEの回転行列、Query/Keyへの適用、長文入力で位置を扱う効果を初心者にも分かりやすく解説します。

2026.05.23

AI関連論文

【LLM解説シリーズ】Self-Attentionとは？Scaled Dot-Prod

Self-Attentionは、TransformerやLLMの中核となるAttention計算です。Attention Is All You Need論文をもとに、Query/Key/Value、Scaled Dot-Product Attention、Multi-Head Attention、causal mask、tensor形状、計算量を初心者にも分かりやすく解説します。

2026.05.20

AI関連論文

【論文解説】LLMはなぜ日本文化に寄りがちなのか？CROQで見る文化・地域バイアス

LLMが文化に関する曖昧な質問へ答えるとき、どの国や地域を暗黙に選びやすいのかを調べた論文を解説します。CROQデータセット、LLM-as-a-judgeによる地域抽出、入力言語の影響、SFT後に強まる文化・地域バイアスを初心者にも分かりやすく整理します。

2026.05.20

AI関連論文

【LLM解説シリーズ】Transformerとは？Attention Is All You Need論文からLLMの基本構造を理解する

Transformerは、Attentionを中心に系列を処理するLLMの基礎アーキテクチャです。Attention Is All You Need論文をもとに、Self-Attention、Multi-Head Attention、Positional Encoding、EncoderとDecoderの違いを初心者にも分かりやすく解説します。

2026.05.20

AI関連論文