編集

MiniMax-M1 が公開、100 万トークンのコンテキストウィンドウ

中国 MiniMax が大規模言語モデル MiniMax-M1 をオープンソース化。非常に長いコンテキストウィンドウ(入力 100 万トークン・出力 8 万トークン)を持つハイブリッド Mixture-of-Experts 推論モデル。

合計 4560 億パラメータで、トークンごとに 459 億パラメータがアクティブ。Lightning Attention メカニズムにより、DeepSeek R1 と比較して 10 万トークンコンテキストで 25%の FLOP しか消費せず、テスト時計算を効率的にスケーリング。

競技レベルの数学、コーディング、ソフトウェアエンジニアリング、エージェントツール使用、長文理解タスクで主要商用 AI モデルに匹敵する性能を発揮。SWE-bench Verified で 69.1 を記録。

トレーニング予算はわずか 53 万 4700 ドル(約 7800 万円)。Apache 2.0 ライセンスで GitHub と Hugging Face から利用可能。vLLM と Transformers での実装をサポート。

#参考文献

編集