MiniMax-M1 が公開、100 万トークンのコンテキストウィンドウ
中国 MiniMax が大規模言語モデル MiniMax-M1 をオープンソース化。非常に長いコンテキストウィンドウ(入力 100 万トークン・出力 8 万トークン)を持つハイブリッド Mixture-of-Experts 推論モデル。
合計 4560 億パラメータで、トークンごとに 459 億パラメータがアクティブ。Lightning Attention メカニズムにより、DeepSeek R1 と比較して 10 万トークンコンテキストで 25%の FLOP しか消費せず、テスト時計算を効率的にスケーリング。
競技レベルの数学、コーディング、ソフトウェアエンジニアリング、エージェントツール使用、長文理解タスクで主要商用 AI モデルに匹敵する性能を発揮。SWE-bench Verified で 69.1 を記録。
トレーニング予算はわずか 53 万 4700 ドル(約 7800 万円)。Apache 2.0 ライセンスで GitHub と Hugging Face から利用可能。vLLM と Transformers での実装をサポート。