AI関連論文

自分が読んだAI関連の論文について、日本語解説していきます。

特に、AI（LLM, Diffusionモデルなど）を用いた画像処理（Denoiseや画像再構成、超解像などについての技術論文と
上記技術をエッジデバイスなどに搭載するために必要な縮小・軽量化（Quantization, LoRAなど）がメインになります。

保護中: GPUとNPUの違いとは？アーキテクチャと行列演算のデータフローを比較

GPUとNPUの違いを、回路構成と同じ8×4×6行列のデータフローで比較。SM、warp、Shared Memory、Global Buffer、NoC、PE Array、Systolic Array、EyerissのRow Stationary、電力効率を一次資料ベースで解説します。

LLM量子化の精度劣化を抑えるSARQCとは？仕組みと効果を解説

SARQCとは、LLMの学習後量子化で再構成誤差と重みドリフトを同時に抑え、重要チャネルを保護する手法です。RQCとの違い、AWQ・GPTQへの統合、INT4〜INT2の実験結果を論文ベースで解説します。

保護中: TPU v4とは？OCS・トポロジー・SparseCoreで4096チップを動かす仕組み

TPU v4論文をもとに、OCS、3D Torusやtwisted torusのトポロジー、SparseCoreによるEmbedding高速化を解説します。4096チップ規模のMLスーパーコンピュータで、なぜ光回線の再構成と疎計算アクセラレータが重要なのかを整理します。

保護中: FlashAttentionとは？AttentionをIO-awareに高速化する仕組み

FlashAttentionとは、Self-Attentionを近似せず、GPUのHBMとSRAM間のIOを減らして高速・省メモリ化する手法です。tiling、online softmax、recomputation、Block-sparse FlashAttention、実験結果を論文ベースで解説します。

保護中: テスト

このコンテンツはパスワードで保護されています。閲覧するには以下にパスワードを入力してください。パスワード:

保護中: CPUとGPUは何が違うのか？回路構成と並列計算からGPUが速い理由を理解する

CPUとGPUの違いを、コア数だけでなく制御回路、キャッシュ、演算器、SIMT、warp、メモリ待ちの隠し方から解説します。CUDA論文、GPU Computing、NVIDIA公式CUDA資料、Intel最適化マニュアルをもとに、GPUが並列計算に強い理由とCPU・GPU・NPUの役割分担を整理します。

保護中: TPUv1はなぜ推論特化だったのか？TPUv2/v3で学習対応が進んだ理由

TPUv1はなぜ推論特化だったのか。TPUv2でbfloat16、float32累積、HBM、複数チップ構成により学習対応が進み、TPUv3で演算性能・メモリ・Pod規模がどう強化されたのかを論文・Google Cloud公式資料ベースで解説します。

保護中: NPUはなぜDRAMアクセスを減らしやすいのか？PE ArrayとSystolic ArrayをGPUとの違いから理解する

NPUのPE Array、Systolic Array、On-chip SRAM、FIFO、Accumulator、dataflowを、行列積の積和とA/B/Cの移動から解説。GPUのtile再利用との違い、DRAMアクセスを減らしやすい理由、カメラAI・エッジAIへの応用まで整理します。

保護中: GPUの行列積はなぜタイル化するのか？warp・Shared Memory・Tensor Coreから理解する

GPUはなぜニューラルネットワークの行列積をtileへ分割するのか。warp、SM、Shared Memory、Registers、Tensor Core、HBM/GDDR、L2 Cacheの関係から、GPUのデータ再利用とTensor Core MMAへのデータ供給を論文・公式資料ベースで解説します。

WiCERとは？LLMの長文知識をWiki-memoryとして圧縮・改善する仕組み

WiCERとは、LLM向けに長文知識をWiki-memoryへ圧縮し、診断プローブで欠落事実を見つけて反復改善する手法です。RAG、full-context KV cache、compilation gapとの違いを論文ベースで解説します。

スポンサーリンク

次のページ

1 2 3