LLM-jp-4 - ohiruneuni/blog

国立情報学研究所の大規模言語モデル研究開発センター（LLMC）が主宰する LLM-jp が、フルスクラッチ学習した「LLM-jp-4 8B モデル」（約 86 億パラメータ、Llama 2 アーキテクチャ）と MoE の「LLM-jp-4 32B-A3B モデル」（総約 320 億パラメータ・総エキスパート 128・活性約 38 億・Qwen3 MoE アーキテクチャ）をオープンソースライセンスで一般公開した。学習はオープンソース AI の定義（OSAID）に配慮し、第三者が入手可能なコーパスを整備したうえで、公開データ・政府・国会文書・合成データなどからなる約 12 兆トークンを使用した。計算資源は産総研の ABCI 3.0 である。透明性・信頼性研究の基盤として位置づけられ、より大規模モデルは 2026 年度に順次公開予定とされる。

学習パイプラインでは、事前学習コーパスを総計約 19.5 兆トークン規模からサブコーパス配分を最適化し約 10.5 兆トークンを使用した。続く中間学習で Instruction Pre-training データや LLM 合成データを含む計 1.2 兆トークン、英日のインストラクションチューニングは 22 種類である。推論コンテキストは最大約 6 万 5 千トークンまでとされる。

NII の 2026 年 4 月 3 日付プレスおよび llm-jp の公開ページには、本モデル向けの従量制マネージド API とその価格は含まれていない。第三者が同一パイプラインで維持する横断性能指数への掲載も、同資料には記されていない。

#評価（NII）

NII は llm-jp-judge を用い GPT-5.4 上で LLM-as-a-Judge を行い、日本語 MT-Bench と英語 MT-Bench を算出した。

モデル	日本語 MT-Bench	MT-Bench
LLM-jp-4 8B	7.54	7.79
LLM-jp-4 32B-A3B	7.82	7.86
GPT-4o	7.29	7.69
gpt-oss-20b	7.33	7.85
Qwen3-8B	7.14	7.69

llm-jp-eval v2.1.3（42 種類の言語資源ベース）では、両公開モデルは日本語で gpt-oss-20b および Qwen3-8B と同等の性能である。チューニング用データの一部は順次公開予定である。

#評価（NII）

#参考文献