AI Weekly 2025-04-17
GitHubのCopilotエージェントモード、OpenAIのGPT-4.1シリーズ、o3とo4-mini、GoogleのGemini 2.5、Veo 2、Live API、Codex CLIのリリースについて。
- # GitHub issueからCopilot agent modeでCodespaceを開く機能が利用可能に
- # Copilot ChatでGitHubのURLによる参照が利用可能に
- # GitHub CopilotでOrganization Custom Instructionsが利用可能に
- # GitHub ModelsがGitHub Actionsのトークンを利用できるように
- # Microsoft Copilot StudioにPCを自動操作する機能が追加
- # OpenAI GPT-4.1、GPT-4.1 mini、GPT-4.1 nanoリリース
- # OpenAI o3とo4-miniリリース
- # Gemini 2.5 ProとGemini 2.5 Flashリリース
- # Geminiの動画生成モデルVeo 2とリアルタイムインタラクションを実現するLive APIリリース
- # OpenAIがコーディングエージェントCodex CLIをリリース
GitHub issueからCopilot agent modeでCodespaceを開く機能が利用可能に
日付:2025年4月11日
GitHub Codespacesで、VSCodeのCopilotエージェントモードが利用可能に。GitHubのissueから直接、エージェントモードを実行するCodespaceを開くことが可能。Issueの右側に表示される「Code with Copilot Agent Mode」ボタンをクリックすることで、新しいCodespaceが初期化され、Issue本文をコンテキストとして使用し、コードベースを分析して適切なファイル変更を提案。Copilotと協力してコードを微調整し、必要に応じて修正を行うことが可能。
出展:VSCode Copilot agent mode in Codespaces
参考画像:IssueからCopilot Agent ModeでCodespaceを開く。
参考画像:Copilot Agent Modeで開かれたCodespace、Issue本文をコンテキストとして使用している。
Copilot ChatでGitHubのURLによる参照が利用可能に
日付:2025年4月9日
GitHub Copilot Chatで、GitHubのURLを貼り付けて明示的に参照する機能がサポートされるように。イシュー、ディスカッション、プルリクエストなど、GitHubでの開発において重要なコンテキストを簡単に参照可能。リンクをチャットに貼り付けるだけで、Copilotが残りを処理。複数のリポジトリをまたいでプルリクエストとディスカッションを比較したり、直感的なナビゲーションで作業をスムーズに進めることが可能。
出展:Copilot Chat now supports pasting GitHub URLs as explicit references
GitHub CopilotでOrganization Custom Instructionsが利用可能に
日付:2025年4月17日
GitHubは、Copilot Chatにおいて組織のカスタム指示を設定できる機能をリリース。これにより、Copilot Enterpriseの顧客は、組織内のすべてのユーザーに対して一貫した指示を設定することが可能。組織の設定からCopilotタブを選択し、カスタム指示を追加することで、すべてのチャットに適用される。
出展:Organization custom instructions now available
GitHub ModelsがGitHub Actionsのトークンを利用できるように
日付:2025年4月14日
GitHub Modelsで、GitHub ActionsのGITHUB_TOKEN
を使用してリクエストを認証する機能が一般利用可能に。これにより、AI機能をアクションに直接統合し、個人用アクセストークン(PATs)の生成と管理が不要に。AIを活用したGitHub Actionsの作成と共有がこれまで以上に簡単に。ワークフローにAIを組み込むことで、課題コメントの生成やプルリクエストのレビューなどを効率化。
出展:GitHub Actions token integration now generally available in GitHub Models
Microsoft Copilot StudioにPCを自動操作する機能が追加
日付:2025年4月15日
Microsoftは、Copilot StudioでPCを自動操作するcomputer use機能を発表。この機能により、Copilot Studioのエージェントがウェブサイトやデスクトップアプリケーションと直接対話可能。ボタンをクリックしたり、メニューを選択したり、画面上のフィールドに入力することでAPIが利用できないシステムでもタスクを処理可能。
出展:Announcing new computer use in Microsoft Copilot Studio for UI automation
OpenAI GPT-4.1、GPT-4.1 mini、GPT-4.1 nanoリリース
日付:2025年4月15日
OpenAIは、最新の言語モデルGPT-4.1とそのバリエーションであるGPT-4.1 miniおよびGPT-4.1 nanoをリリース。これらのモデルは、前バージョンに比べて大幅に性能が向上し、特に長いコンテキストの理解能力が強化されている。
-
GPT-4.1:最大100万トークンのコンテキストをサポートし、より自然な対話と高度なタスク処理が可能。開発者向けに設計されており、コーディングや指示のフォロー、関数呼び出しにおいて優れた性能を発揮。
-
GPT-4.1 mini:より軽量で効率的なモデルとして設計されており、迅速な応答が求められるシナリオに適している。特に、リソースが限られた環境での使用に最適。
-
GPT-4.1 nano:さらに小型化されたモデルで、低遅延が求められるアプリケーションに最適。小規模なデバイスやリアルタイム処理が必要な場面での使用に適している。このモデルは現在、入力が$0.10/million tokens、出力が$0.40/million tokensの最も安価なOpenAIモデル。
これらのモデルは、開発者がさまざまなユースケースに応じて選択できるように設計されている。
OpenAI o3とo4-miniリリース
日付:2025年4月16日
OpenAIは、新しい言語モデルo3とo4-miniをリリース。これらのモデルは、コーディング、数学、科学、ビジョンにおいて優れた性能を発揮し、特にo3は最も強力な推論モデルとして位置付けられている。
-
o3:コーディング、数学、科学、ビジョンでの性能が高く、推論タスクにおいて最先端のパフォーマンスを実現。APIでの利用が可能で、特にエージェント的なコーディングタスクにおいて優れた結果を示す。
-
o4-mini:より高速でコスト効率の高い推論モデルとして設計されており、数学、コーディング、ビジョンでの強力なパフォーマンスを提供。特に、迅速な応答が求められるシナリオに適している。
これらのモデルは、開発者がさまざまなユースケースに応じて選択できるように設計されており、APIを通じて利用可能。価格設定は、o3が入力$10.00/million tokens、出力$40.00/million tokens、o4-miniが入力$1.10/million tokens、出力$4.40/million tokensとなっている。
出展:Introducing OpenAI o3 and o4-mini
Gemini 2.5 ProとGemini 2.5 Flashリリース
日付:2025年4月9日
Googleは、最新のAIモデルであるGemini 2.5 ProとGemini 2.5 Flashを発表。これらのモデルは、企業向けの高度な推論能力を備え、特に複雑なタスクにおいて優れた性能を発揮する。
-
Gemini 2.5 Pro:最大100万トークンのコンテキストウィンドウを持ち、深いデータ分析や複雑なコーディングタスクを処理する能力を持つ。企業が直面する複雑な情報環境や多段階の分析を必要とする課題に対応するために設計されており、法的契約や医療記録のような密な文書から重要な洞察を抽出することが可能。
-
Gemini 2.5 Flash:低遅延とコスト効率を重視したモデルで、リアルタイム情報処理やカスタマーサービスのような高ボリュームのシナリオに最適。クエリの複雑さに応じて処理時間を自動調整する動的な推論能力を備え、迅速な応答が求められる場面での使用に適している。
これらのモデルは、Google CloudのVertex AIプラットフォーム上で利用可能で、企業がAIアプリケーションを効率的に構築・管理するのを支援する。
出展:Gemini 2.5 brings enhanced reasoning to enterprise use cases
Geminiの動画生成モデルVeo 2とリアルタイムインタラクションを実現するLive APIリリース
日付:2025年4月9日
Googleは、Veo 2とLive APIのリリースを発表。これらのツールは、開発者がよりインタラクティブでリアルタイムなアプリケーションを構築するのを支援する。
-
Veo 2:テキストや画像から高品質なビデオを生成する能力を持ち、リアルな動きとカメラ制御を実現。テキストからビデオを生成するText-to-Video(t2v)や、画像からビデオを生成するImage-to-Video (i2v)機能を提供。720pの解像度で最大8秒のビデオクリップを生成可能で、価格は1秒あたり$0.35。
-
Live API:Geminiモデルのためのリアルタイムインタラクションを可能にするAPIで、ストリーミングオーディオ、ビデオ、テキストを低遅延で処理。30以上の新しい言語をサポートし、音声活動検出(VAD)の設定が可能。無限に近いセッションをサポートし、強力なツール統合を提供。
これらの機能は、Google AI StudioとVertex AIで利用可能で、開発者がより高度なAIアプリケーションを構築するのを支援する。
出展:Gemini 2.5 Flash and Pro, Live API, and Veo 2 in the Gemini API
OpenAIがコーディングエージェントCodex CLIをリリース
日付:2025年4月17日
OpenAIは、Codex CLIを発表。これは、自然言語を用いてコードを生成し、実行するためのコマンドラインインターフェースで、開発者が効率的にプログラムを作成するのを支援する。このツールはオープンソースとして公開されている。
リポジトリ:openai/codex