LLM-jp-4
国立情報学研究所の大規模言語モデル研究開発センター(LLMC)が主宰する LLM-jp が、フルスクラッチ学習した「LLM-jp-4 8B モデル」(約 86 億パラメータ、Llama 2 アーキテクチャ)と MoE の「LLM-jp-4 32B-A3B モデル」(総約 320 億パラメータ・総エキスパート 128・活性約 38 億・Qwen3 MoE アーキテクチャ)をオープンソースライセンスで一般公開した。学習はオープンソース AI の定義(OSAID)に配慮し、第三者が入手可能なコーパスを整備したうえで、公開データ・政府・国会文書・合成データなどからなる約 12 兆トークンを使用した。計算資源は産総研の ABCI 3.0 である。透明性・信頼性研究の基盤として位置づけられ、より大規模モデルは 2026 年度に順次公開予定とされる。
学習パイプラインでは、事前学習コーパスを総計約 19.5 兆トークン規模からサブコーパス配分を最適化し約 10.5 兆トークンを使用した。続く中間学習で Instruction Pre-training データや LLM 合成データを含む計 1.2 兆トークン、英日のインストラクションチューニングは 22 種類である。推論コンテキストは最大約 6 万 5 千トークンまでとされる。
NII の 2026 年 4 月 3 日付プレスおよび llm-jp の公開ページには、本モデル向けの従量制マネージド API とその価格は含まれていない。第三者が同一パイプラインで維持する横断性能指数への掲載も、同資料には記されていない。
評価(NII)
NII は llm-jp-judge を用い GPT-5.4 上で LLM-as-a-Judge を行い、日本語 MT-Bench と英語 MT-Bench を算出した。
| モデル | 日本語 MT-Bench | MT-Bench |
|---|---|---|
| LLM-jp-4 8B | 7.54 | 7.79 |
| LLM-jp-4 32B-A3B | 7.82 | 7.86 |
| GPT-4o | 7.29 | 7.69 |
| gpt-oss-20b | 7.33 | 7.85 |
| Qwen3-8B | 7.14 | 7.69 |
llm-jp-eval v2.1.3(42 種類の言語資源ベース)では、両公開モデルは日本語で gpt-oss-20b および Qwen3-8B と同等の性能である。チューニング用データの一部は順次公開予定である。