O hirunewani blog

AI Weekly 2025-06-19

Created at

Cursor 1.1のBackground Agents in Slack、Gemini 2.5モデルファミリーのアップデート、Pro・Flash安定版リリース、Flash-Liteプレビュー提供開始、DevinのGitHubユーザー名でのPR作成機能、Claude CodeのリモートMCPサーバーサポート、OpenAIの新しいデモリポジトリ公開、OpenHands CLIの発表、GitHub Copilotの料金体系更新、MiniMax-M1のオープンソース公開について。

Cursor 1.1リリース、Background Agents in Slack

日付:2025年6月12日

CursorのBackground AgentsをSlackから直接起動可能な機能を追加。Slackで@Cursorをメンションすることで、エージェントがスレッドを読み取り、状況を理解してGitHubでPRを作成する一連の作業を会話を離れることなく実行可能。

エージェントはリモートの安全な環境で動作し、作業完了時にCursorとGitHubへのリンクを含む更新をSlackで直接受信。Cursorはエージェント開始前にSlackスレッド全体を読み取るため、以前の議論や問題への参照時に完全なコンテキストを理解。

利用にはワークスペース管理者によるSlack統合の設定が必要。接続後、任意のチャンネルで@Cursorとプロンプトを記述して利用可能。helpコマンドで全コマンド確認、settingsコマンドでデフォルトモデル、リポジトリ、ブランチの設定が可能。

その他の改善点として、設定内でのCmd/Ctrl+F検索機能、MCPサーバーからのプログレス通知、動的ツール登録、Rootsサポート、ワークスペースインデックス問題の修正、クライアントサイドパフォーマンス向上が含まれる。

出展:Cursor 1.1

Gemini 2.5モデルファミリーアップデート

日付:2025年6月17日

GoogleがGemini 2.5モデルファミリー全体にわたるアップデートを発表。Gemini 2.5 ProとGemini 2.5 Flashが一般提供開始、新たにGemini 2.5 Flash-Liteをプレビューで提供開始。

すべてのモデルがthinking modelsで、回答前に思考プロセスを経ることで性能向上と精度改善を実現。開発者は「thinking budget」を制御し、モデルがどの程度「考える」かを選択可能。

Gemini 2.5 Flash-Liteは最低レイテンシと最低コストを実現。1.5および2.0 Flashモデルからのコスト効率的なアップグレードとして設計。高スループットタスクに最適で、デフォルトでthinking機能はオフ。

価格が更新され、Gemini 2.5 Flashの入力トークン価格が$0.30/1M(従来$0.15から上昇)、出力トークン価格が$2.50/1M(従来$3.50から下降)。thinking/non-thinkingの価格差を撤廃。

出展:Gemini 2.5: Updates to our family of thinking models

DevinでGitHubユーザー名を使用したPR作成が可能に

日付:2025年6月11日

Devinが開発者のGitHubユーザー名を使用してPRを作成する機能を追加。この機能はデフォルトでオフに設定されており、GitHubのIntegrationsページにある「PR Author」から選択可能。

設定は組織の全メンバーに適用され、管理者のみ変更可能。従来はDevinの名前でPRが作成されていたが、この機能により開発者自身の名前でPRを作成することが可能。

出展:Devin Release Notes - June 11, 2025

Claude CodeがリモートMCPサーバーサポートを提供開始

日付:2025年6月18日

AnthropicがClaude Codeでリモートサーバーサポートを発表。ローカルサーバー管理なしでお気に入りのツールやデータソースに接続可能。

Claude Codeは開発ツール、プロジェクト管理システム、ナレッジベースなどのサードパーティサービスからコンテキストを取得し、それらのサービス内でアクションを実行可能。Sentry MCPサーバーとの統合でエラーや問題へのアクセス、Linear MCPサーバーとの統合でアクティブプロジェクトのコンテキスト活用が可能。

リモートMCPサーバーはローカルサーバーに比べて保守負担が軽く、ベンダーのURLをClaude Codeに追加するだけで利用可能。ベンダーがアップデート、スケーリング、可用性を管理。ネイティブOAuthサポートで既存アカウントへの安全な接続を実現。

出展:Remote MCP support in Claude Code

参考:Model Context Protocol (MCP) - Authropic#Authenticate with remote MCP servers

OpenAIがAgents SDKを利用したデモを公開

日付:2025年6月19日

OpenAIが次の3つのAgents SDKを利用したデモを公開。

  • Customer Service Agents Demo:

    • OpenAI Agents SDKを使用した航空会社カスタマーサービス向けエージェントシステム。Triage Agent、Seat Booking Agent、Flight Status Agent、FAQ Agent、Cancellation Agentで構成。PythonバックエンドとNext.js UIで実装
    • リポジトリ:openai-cs-agents-demo
  • Testing Agent Demo:

    • OpenAI CUA modelとResponses APIを使用したUIテスト自動化エージェント。Webアプリの自動テストを実行し、frontend、cua-server、sample-test-appの3コンポーネントで構成
    • リポジトリ:openai-testing-agent-demo
  • Responses Starter App:

    • MCP(Model Context Protocol)とcode interpreterツールをサポートするスターターアプリ。responses機能とbuilt-inツールを使った開発の出発点として活用可能
    • リポジトリ:openai-responses-starter-app

出展:X (Twitter) - @kagigz

OpenHands CLIがターミナル向けAI開発エージェントとして発表

日付:2025年6月17日

OpenHandsがターミナルから直接利用可能なCLIを発表。ソフトウェア開発エージェントをターミナルから簡単に使用可能。

インストールはpip install openhands-aiopenhandsコマンドで完了。Docker不要でWebインターフェースも不要。Python 3.12または3.13が必要。uvxを使用した実行も対応。

完全オープンソース(MITライセンス)でモデル非依存。Claude 4 sonnetで最高性能を発揮し、ローカルモデルのDevstralも利用可能。SWE-Bench Verifiedで世界トップクラスの性能を記録。

主要機能はスラッシュコマンド(/initでリポジトリ探索とドキュメント作成)、セキュリティ向上のための確認モード、新機能追加・バグ修正・テスト追加・リファクタリング・ドキュメント作成・コード説明に対応。

出展:The OpenHands CLI: AI-Powered Development in Your Terminal

GitHub Copilotの月次プレミアムリクエスト割り当てが施行開始

日付:2025年6月18日

GitHub Copilotの有料プランユーザーに対する月次プレミアムリクエスト割り当てが施行開始。Copilot Pro、Pro+、Business、Enterpriseプランでプレミアムリクエストの月次割り当てが強制適用される。

プレミアムリクエストは追加AIモデルと機能の利用に使用され、モデルによって使用量が異なる。従来通りGPT-4.1とGPT-4oのエージェントモードとチャット相互作用、無制限コード補完は継続提供。

月次割り当ては毎月1日にリセット。割り当て超過時はPay-Per-Requestオプションで課金設定から支払い制限を設定可能(デフォルト$0)。IDEのCopilotステータスアイコンからリアルタイム使用量監視と詳細レポートダウンロードが可能。

出展:Update to GitHub Copilot consumptive billing experience

MiniMax-M1が公開、100万トークンのコンテキストウィンドウ

日付:2025年6月16日

中国MiniMaxが大規模言語モデルMiniMax-M1をオープンソース化。非常に長いコンテキストウィンドウ(入力100万トークン・出力8万トークン)を持つハイブリッドMixture-of-Experts推論モデル。

合計4560億パラメータで、トークンごとに459億パラメータがアクティブ。Lightning Attentionメカニズムにより、DeepSeek R1と比較して10万トークンコンテキストで25%のFLOPしか消費せず、テスト時計算を効率的にスケーリング。

競技レベルの数学、コーディング、ソフトウェアエンジニアリング、エージェントツール使用、長文理解タスクで主要商用AIモデルに匹敵する性能を発揮。SWE-bench Verifiedで69.1を記録。

トレーニング予算はわずか53万4700ドル(約7800万円)。Apache 2.0ライセンスでGitHubとHugging Faceから利用可能。vLLMとTransformersでの実装をサポート。

出展:MiniMax-M1