10 posts

#AI

PREMIUM 10+ min

Hermes Agentを導入する

Windowsへの導入からDiscord連携、自動起動、スキルの蒸留

#Hermes Agent#AI
6 min

ComfyUIでQwen-Image-Editを試す

ComfyUIでQwen-Image-Editを試した結果をまとめる。 ComfyUIが提供するテンプレートが良く出来ており、Lightingもすぐに導入できるようになっている。オブジェクトの追加・削除・変更などは安定して出来たが、スタイルの変更やテキストの編集には一部難があるように感じた。

#AI#ComfyUI#Qwen-Image-Edit
1 min

GitHub Copilot Reviewを日本語にする

まだOrganization全体でGitHub Copilot Reviewの言語設定を切り替えることは出来ませんが、リポジトリ毎であれば.github/copilot-instructions.mdで応答する言語を指示できます。

#AI#GitHub Copilot
4 min

MCPサーバーの概観

MCPの仕様、SDKやサーバーの例、MCPのサポート状況、セキュリティ上の懸念、代替の可能性について。

#AI#MCP
4 min

Setup ComfyUI for 2025

知人のために2025年版 ComfyUIのセットアップを紹介する内容です。細かいところは直接説明するので省いています。

#AI#ComfyUI
2 min

GitHub Copilot Agent Modeを試す

現在はプレビューなため、Agent ModeはVSCode Insidersでのみ利用可能。合わせてCopilot Editsが一般公開、またVisionもプレビューでの利用が可能になった。

#AI#GitHub Copilot
3 min

WindowsからHugging Faceにssh接続する

Hugging Face固有の内容はほぼない。Windows環境からSSH接続しようとするとError connecting to agentと言われた。その対応をまとめる。

#AI#Windows#SSH

News bits

466 件

Claude Managed Agents、定期実行とvault環境変数

AnthropicはClaude Managed Agentsに、cronで自律実行するスケジュール済みデプロイメントと、CLI認証向けのvault環境変数をパブリックベータとして追加した。スケジューラの自前構築なしに定期タスクを回せ、APIキーはサンドボックス内にプレースホルダだけを置き許可ドメインへの外向きリクエスト時にネットワーク境界で注入される。

Irodori-TTS 500M v2とVoiceDesign公開、絵文字制御とキャプション条件付き日本語TTS

Rectified Flow Diffusion Transformer と DACVAE 連続潜在による日本語 TTS。入力テキストへの絵文字でスタイル・感情・効果音を誘導、短い参照音声からのゼロショット Voice Cloning。v2 は Semantic-DACVAE-Japanese-32dim・学習ステップ約 2.5 倍・前処理とデータフィルタの改善。VoiceDesign はスタイル用キャプション条件付きの別チェックポイント。CLI・Gradio・Hugging Face Hub 推論、コードと公開重みは MIT。日本語入力のみ、漢字読みは同規模他 TTS 比で弱めになる場合あり。

Gemini 3.1 Flash Live公開、Live APIプレビューとSearch Live 200超地域対応

ネイティブ音声のリアルタイム対話モデル。Google AI StudioのGemini Live APIプレビュー、Gemini Enterprise for Customer Experience、Search Live・Gemini Live利用。ComplexFuncBench Audio 90.8%、Audio MultiChallenge 36.1%(thinking on)。Gemini Liveは応答高速化と文脈追従の約2倍。Search Liveは200超の国・地域で多言語。出力音声はSynthID透かし。

Lyria 3 Pro:Vertex AI・Gemini API・Vidsなど複数製品で最大3分トラック生成に対応

最長約3分の楽曲とintro・verse・chorus・bridge等の構成指定を特徴とする上位版。Vertex AI(public preview)、Google AI Studio・Gemini API、Google Vids、Geminiアプリ(有料枠から)、ProducerAIでの提供。Workspace顧客・AI Pro/Ultra加入者など面ごとのロールアウト差。出力へのSynthID埋め込み、アーティスト模倣回避、既存コンテンツ照合フィルタ、利用規約・Gen AI禁止利用ポリシー順守。

Devin: PRごとのコンテキストコピー機能など

Devin のアップデートがリリース。 API経由でのセッション作成時にセッションスコープのシークレットを提供可能になったほか、Linear統合がネイティブ化されMCPの個別インストールが不要になった。 また、セッションAPIへのフィルタリング機能追加、KotlinやProtocol Buffersのシンタックスハイライト対応、PRごとのコンテキストコピー機能などが追加されている。

VS Code v1.107

VS Code v1.107 (November 2025) がリリースされた。マルチエージェントオーケストレーションが導入され、GitHub Copilotとカスタムエージェントが連携して開発を加速できるようになった。Agent HQで全てのエージェントを一元管理でき、バックグラウンドエージェントはGitワークツリーを使用して隔離された環境で実行されるため、メインの作業を中断せずにタスクを委譲できる。

Cursor 2.0

Cursorのバージョン2.0がリリースされた。 - マルチエージェント: 1つのプロンプトに対して最大8つのエージェントを並行実行可能(git worktreesを利用)。 - Composer: 高速なエージェント型コーディングモデル。 - Browser (GA): エージェントがWebブラウジングを行い、DOM情報を取得可能に。 - サンドボックス化されたターミナル: macOSでエージェントのコマンド実行を安全な環境に隔離。 - チーム機能: チーム共有のコマンドやルール定義が可能に。 ### 参考文献

Jules extension for Gemini CLI

Googleは、Gemini CLIのJules extensionを発表した。 Julesはターミナルでの作業中にバックグラウンドで自律的にタスクを実行する「サイドキック」エージェント。 Jules extensionをインストールし/jules コマンドを使用することで、非同期タスクの実行、バックグラウンドでのバグ修正、PR作成後のブランチ作成などを任せることができる。 ### 参考文献

OpenAI GPT OSS Safeguard

OpenAIは、オープンソースの安全ガードレールモデル「GPT OSS Safeguard」をリリースした。 これは、企業や開発者が独自の安全ポリシーを定義・施行するためのモデルであり、120bと20bの2つのサイズが公開されている。 推論時にポリシーを直接解釈する「Chain of Thought」プロセスを採用しており、再学習なしでルールの更新が可能。透明性の高い判定理由も提示される。 ### 参考文献

OpenAIがGPT Realtimeを正式版を公開、最先端の音声対話モデル

OpenAIがRealtime APIをベータ版から正式版にアップデートし、新しい音声対話モデル「gpt-realtime」を発表。 低遅延・高信頼性の音声認識と生成、複雑な指示の理解と正確なツール呼び出し、より自然で表現豊かな音声生成、システムメッセージと開発者プロンプトの解釈能力向上などが行われた。また画像入力の対応、MPCサポートの有効化などの改善も行われた。

ClaudeのビジネスプランにClaude Codeと新しい管理コントロールが追加

ClaudeのEnterpriseおよびTeamプラン向けに、Claude Codeを含むプレミアムシートと新しい管理コントロールが導入された。これにより、Claudeアプリとコーディングエージェントが1つのサブスクリプションで利用可能になる。管理者は、新しい管理機能とCompliance APIを利用して、組織全体での利用を管理、統制できる。

OpenAI、GPT-5リリース

OpenAIは、同社で最も高性能、高速、汎用性を備えたフラッグシップモデル「GPT-5」をリリース。推論とチャットを単一のシステムに統合。全ユーザーが利用可能となり、有料ユーザーは利用制限が引き上げられる。上限に達するとGPT-5 miniに切り替わる。Pro登録者は利用制限が緩和され、拡張推論機能を備えた「GPT-5 Pro」にもアクセス可能になる。 ### 参考文献

Vercel MCPサーバーがパブリックベータで公開

Vercelが公式のVercel MCPサーバーをパブリックベータとして公開。Vercel MCPは、AIクライアントがVercelプロジェクトと安全に対話するための、OAuth準拠のセキュアなインターフェース。CursorやClaudeなどのサポートされたAIツールが、開発環境やAIアシスタント内から直接、Vercelのログ、ドキュメント、プロジェクトメタデータにアクセス可能になる。

OpenAI、オープンウェイトの推論モデル「gpt-oss-120b」と「gpt-oss-20b」をリリース

OpenAIは、Apache 2.0ライセンスの下で利用可能な2つのオープンウェイト言語モデル「gpt-oss-120b」と「gpt-oss-20b」をリリースした。これらのモデルは、推論タスク、ツール使用、few-shotの関数呼び出しにおいて高いパフォーマンスを発揮し、一般的なハードウェア上での効率的な展開のために最適化されている。

LangExtract: Geminiを活用した情報抽出ライブラリ

GoogleはLangExtractを発表。これは、非構造化テキストから構造化情報を抽出するための新しいオープンソースPythonライブラリ。GeminiのようなLLMを利用し、ユーザーのカスタム指示に基づいて、柔軟性と追跡可能性を両立した情報抽出を実現する。医療レポートや法的文書など、テキストが多用される分野での活用が期待される。

GitHub Copilot code review、今後の非推奨化と変更を発表

GitHub Copilot code review の今後の非推奨化と変更について発表。8 月 1 日に coding guidelines が copilot-instructions.md に統合され、9 月 1 日に完全廃止。8 月 6 日には「Request pull request review from Copilot」チェックボックスが独立した設定項目として移動し、より見つけやすく使いやすくなる。また、Copilot code review 専用のエンタープライズ・組織ポリシーが導入され、より細かい制御が可能に。 ### 参考文献

Gemini 2.5 Pro のアップグレード

Gemini 2.5 Pro がアップグレードされ、より高度な機能を提供。LMArena で 24 ポイント、WebDevArena で 35 ポイントの Elo スコア向上を達成。LMArena では 1470 ポイントでリーダーボードを維持し、WebDevArena では 1443 ポイントで首位を獲得。また Google AI Studio と Vertex AI で思考予算(thinking budgets)を追加し、コストとレイテンシーの制御が可能に。 ### 参考文献

Claude 4 プロンプトエンジニアリング ベストプラクティス

Claude 4(Opus 4 / Sonnet 4)向けのプロンプトエンジニアリング手法が公式ドキュメントで公開。明確かつ具体的な指示、文脈や動機の明示、例示の活用が推奨されている。出力フォーマット制御や思考プロセスの誘導、ツールの並列実行促進、エージェントコーディング時の一時ファイル管理、フロントエンド生成時の明示的な要望追加など、Claude 4 の特性を活かすための具体的なテクニックがまとめられている。

Claude Code GitHub Actions 公開

Claude Code が GitHub Actions に対応し、AI による自動 PR 作成・コード実装・バグ修正・レビューが可能に。@claudeを issue や PR コメントで呼び出すだけで、コード生成や修正、プロジェクト標準に沿った実装を自動化できる。CLAUDE.md によるプロジェクト固有ルールの反映や、API キー・許可コマンドのセキュアな管理、コスト最適化のための細かな設定も可能。AWS Bedrock や Google Vertex AI との連携にも対応。

Gemini Diffusion、拡散型言語モデルが発表

Google が新しい実験的研究モデル「Gemini Diffusion」を発表。ランダムノイズからコヒーレントなテキストやコードを生成する SOTA(State-of-the-Art)の Text diffusion model で、画像・動画生成モデルと同様の仕組みを採用。従来の最速モデルよりも大幅に高速化を実現しながら、コーディング性能は同等レベルを維持。実験デモが公開され、ウェイトリストに登録可能。 ### 参考文献

Gemma 3n preview 発表、モバイルファーストのオープンソース AI モデル

Google が Gemma 3n preview を発表。モバイルデバイス向けに最適化されたオープンソース AI モデルで、Per-Layer Embeddings(PLE)により RAM 使用量を大幅削減。5B と 8B パラメータながら 2B と 4B 相当のメモリフットプリント(2GB・3GB)を実現。音声、テキスト、画像のマルチモーダル対応でオフライン動作が可能。Qualcomm、MediaTek、Samsung System LSI と連携して開発され、次世代 Gemini Nano の基盤技術となる。 ### 参考文献

Google AI Ultra、最高レベルの AI 機能を統合したサブスクリプションプラン発表

Google が Google AI Ultra を発表。映画製作者、開発者、クリエイティブプロフェッショナル向けの最高レベル AI サブスクリプションプラン。月額$249.99(米国、初回 3 か月は 50%オフ)で、最高の使用制限と最先端モデルへのアクセスを提供。Gemini、Flow、Whisk、NotebookLM、Project Mariner、YouTube Premium、30TB ストレージを統合し、従来の Google AI Premium(現 Google AI Pro)を大幅に上回る包括的な AI サービスパッケージを実現。

Google Jules、自律型コーディングエージェントがパブリックベータで提供開始

Google が Google Labs で開発していた自律型コーディングエージェント「Jules」をパブリックベータで提供開始。ウェイトリスト不要で世界中で利用可能(Gemini モデル利用可能地域)。既存リポジトリと直接統合し、セキュアな Google Cloud VM 上にリポジトリをクローンして非同期でタスクを実行。プライベートコードでの学習は行われず、データは実行環境内で隔離。モデルは Gemini 2.5 Pro が利用される。 ### 参考文献

Google Stitch、プロンプトと画像から UI 設計とフロントエンドコードを生成

Google が Google Labs の実験的プロジェクトとして「Stitch」を発表。Gemini 2.5 Pro のマルチモーダル機能を活用し、自然言語プロンプトや画像入力から複雑な UI 設計とフロントエンドコードを数分で生成。ホワイトボードスケッチ、スクリーンショット、ワイヤーフレームから対応するデジタル UI を作成でき、複数バリエーションでの高速イテレーションも可能。生成されたデザインは Figma に直接貼り付けてコラボレーションでき、クリーンで機能的な HTML/CSS/JavaScript コードも自動出力。stitch.withgoogle.comでアクセス可能。 ### 参考文献

GitHub Copilot Coding Agent がパブリックプレビューで利用可能に

GitHub が Microsoft Build 2025 で GitHub Copilot Coding agent を発表。VS Code から直接アクセス可能で、GitHub Actions を活用した安全でカスタマイズ可能な開発環境を提供。GitHub Issue を Copilot に割り当てるとエージェントが作業を開始し、Draft pull request に変更を push、開発者は進捗を追跡しフィードバックを提供可能。

GitHub Copilot での Issue 作成機能が Public Preview で利用可能に

GitHub が Copilot を使用した Issue 作成機能をパブリックプレビューで提供開始。自然言語での記述やスクリーンショットから詳細なバグレポートを自動生成し、手動での繰り返し作業を大幅に削減。複数の Issue を一度に作成でき、リポジトリの標準に適したテンプレートの提案も行う。新しい GitHub Copilot coding agent への割り当ても可能。

OpenAI Codex リリース、クラウドベースの AI コーディングエージェント

OpenAI がソフトウェア開発用 AI エージェント「Codex」のリサーチプレビュー版をリリース。o3 推論モデルを最適化した codex-1 を搭載し、クラウド上の隔離された仮想コンピューター環境で動作。複数のタスクを並行処理でき、1〜30 分で機能開発やバグ修正、テスト実行を完了する。ChatGPT Pro、Enterprise、Team ユーザー向けに提供開始、Plus と Edu ユーザーへの提供も近日予定。

AlphaEvolve 発表、自らアルゴリズムを改善する AI エージェント

Google DeepMind が、Gemini モデルを活用した新しいコーディングエージェント「AlphaEvolve」を発表。AlphaEvolve は大規模言語モデルの創造性と自動評価システムを組み合わせ、数学や計算機科学の複雑な問題に対して新しいアルゴリズムを自律的に発見・最適化できる。Google のデータセンターや AI トレーニング、チップ設計など実際の現場でも効率化に貢献しており、今後は学術や産業分野への応用も期待されている。

Gemini 2.5 の暗黙的なキャッシュ

Google が Gemini 2.5 モデルで implicit caching を導入。これにより、明示的なキャッシュ設定を行わなくても、リクエストの先頭部分が過去のリクエストと共通していれば自動的にコストが削減される。2.5 Flash は 1024 トークン、2.5 Pro は 2048 トークンからキャッシュ対象となり、usage metadata にはcachedcontenttoken_countが追加された。明示的キャッシュ API も引き続き利用できる。 ### 参考文献

GitHub Copilot で GPT-4.1 がデフォルトモデルに

GitHub Copilot で OpenAI の GPT-4.1 が新たなデフォルトモデルとして一般提供開始。従来の GPT-4o から置き換わり、コーディングや指示追従、理解力が大幅に向上した。Copilot Chat や Edits、エージェントモードで利用でき、開発現場での実用性がさらに高まっている。GPT-4o も引き続き選択可能だが、90 日後に廃止予定。 ### 参考文献

Vercel が MCP サーバーのサポートを開始

Vercel が Model Context Protocol(MCP)サーバーのデプロイと運用に正式対応。Node.js や Next.js アプリから MCP サーバーを簡単に構築できる@vercel/mcp-adapterパッケージも公開され、HTTP や OAuth 対応の新しいプロトコルもサポート。Fluid compute によるコスト削減や AI 推論・エージェントワークロードの最適化も可能になった。 ### 参考文献

Claude が Integrations 機能を提供開始

Claude が Integrations 機能をリリース。MCP(Model Context Protocol)を活用し、Jira や Confluence、Zapier、Cloudflare、Intercom など 10 以上のサービスと連携可能。ユーザーは自分のアプリやツールを Claude に接続でき、AI がプロジェクト履歴やタスク状況を把握し、複雑な作業を一括で支援。Research 機能を強化した Advanced Research も公開され、ウェブや Google Workspace、Integrations により接続したアプリを横断して最大 45 分間の調査・レポート作成が可能。

GitHub Copilot で Organization Custom Instructions が利用可能に

GitHub は、Copilot Chat において組織のカスタム指示を設定できる機能をリリース。これにより、Copilot Enterprise の顧客は、組織内のすべてのユーザーに対して一貫した指示を設定することが可能。組織の設定から Copilot タブを選択し、カスタム指示を追加することで、すべてのチャットに適用される。 ### 参考文献

GitHub issue から Copilot agent mode で Codespace を開く機能が利用可能に

GitHub Codespaces で、VSCode の Copilot エージェントモードが利用可能に。GitHub の issue から直接、エージェントモードを実行する Codespace を開くことが可能。Issue の右側に表示される「Code with Copilot Agent Mode」ボタンをクリックすることで、新しい Codespace が初期化され、Issue 本文をコンテキストとして使用し、コードベースを分析して適切なファイル変更を提案。Copilot と協力してコードを微調整し、必要に応じて修正を行うことが可能。

Any-Agent

Mozilla.ai が Any-Agent を発表しました。これは様々なエージェントフレームワーク(LangChain、smolagents、AWS Bedrock Agents、CrewAI、AutoGen、Agno など)とコードの間の抽象化レイヤーを提供する新しいライブラリです。Any-Agent を使用することで、一度エージェントを構築すれば、異なるフレームワーク間での切り替えが容易になり、フレームワーク固有の実装の詳細に依存することなく開発が可能になります。また、open-inference によるログの正規化もサポートされており、選択したフレームワークに関係なく一貫した出力を確認できます。 ### 参考文献

ChatGPT が過去の会話全てを参照可能に

OpenAI は ChatGPT のカスタマイズとメモリー機能を大幅に拡張しました。これにより、過去の会話全てを記憶し、その情報を基に応答を調整できるようになりました。以前の「Memory」機能は限られた数の情報のみを保持していましたが、新機能では「reference chat history」オプションにより、全ての過去の会話をコンテキストとして使用できます。

Copilot Chat で GitHub の URL による参照が利用可能に

GitHub Copilot Chat で、GitHub の URL を貼り付けて明示的に参照する機能がサポートされるように。イシュー、ディスカッション、プルリクエストなど、GitHub での開発において重要なコンテキストを簡単に参照可能。リンクをチャットに貼り付けるだけで、Copilot が残りを処理。複数のリポジトリをまたいでプルリクエストとディスカッションを比較したり、直感的なナビゲーションで作業をスムーズに進めることが可能。 ### 参考文献

Gemini 2.5 Flash と Pro、Live API、Veo 2 の一般提供開始

Google は Gemini 2.5 シリーズの新モデルをリリースしました。Gemini 2.5 Pro は、最も高度なコーディングモデルとして、視覚的に魅力的な Web アプリの作成やエージェントプログラミングアプリケーションの開発に優れています。また、Gemini 2.5 Flash は、低レイテンシーとコスト効率を維持しながら、思考能力を組み込んだ進化版として近日公開予定です。これらのモデルは、100 万トークンの入力コンテキストウィンドウを備え、より高度なエージェントの実現やマルチエージェントシステムの管理、コードベース全体の生成的な推論の加速を可能にします。

Copilot code review の一般提供開始

GitHub Copilot のコードレビュー機能が一般提供を開始しました。コードレビューはソフトウェア開発において最も重要なプロセスの 1 つですが、手動でのレビューは時間がかかります。Copilot code review は、バグや潜在的なパフォーマンスの問題を発見し、修正案を提案する Copilot エージェントに基本的なレビューを任せることで、人間によるレビューを待つ間もコードの改善を進めることができます。これにより、コードリポジトリの保守性と品質を向上させることが可能になります。

GitHub Copilot Pro+と複数の新モデル一般提供開始

GitHub は開発者のコーディング体験をさらに向上させるための新しい個人向けプラン「GitHub Copilot Pro+」を発表しました。このプランでは、GitHub Copilot Pro の既存機能に加えて、最新モデル(GPT-4.5 が本日利用可能)への独占アクセス、プレビュー機能への優先アクセス、5 月 5 日から利用可能になる月間 1,500 回のプレミアムリクエストが提供されます。これらは、ベースモデルを使用する際のエージェントモード、コンテキスト駆動型チャット、コード補完の無制限リクエストに加えて利用可能です。

github-mcp-server のパブリックプレビュー開始

GitHub は新しいオープンソースの公式ローカル GitHub MCP Server をリリースしました。Anthropic と協力して、彼らのリファレンスサーバーを Go で書き直し、使いやすさを向上させました。新しいサーバーは旧サーバーの機能を 100%保持しつつ、ツールの説明のカスタマイズ、コードスキャニングのサポート、そして「Show me my private repos」のような自然言語での問い合わせに対するユーザー体験を改善する新しいget_me関数を追加しています。

NotebookLM がソースを検索する機能を追加

Google NotebookLM が「Discover sources」機能を追加しました。この機能により、ユーザーは興味のあるトピックを記述するだけで、ウェブから関連する情報源を自動的に発見し、まとめることができます。NotebookLM は数百の潜在的なウェブソースを数秒で収集し、トピックに基づいて最も関連性の高いものを選択します。最大 10 個のソース推奨が表示され、それぞれにトピックとの関連性を説明する注釈付きの要約が含まれています。

AWS がコードアシスタント用の MCP サーバーをオープンソースでリリース

AWS が、AWS のベストプラクティスを開発ワークフローに直接組み込むための専門的な Model Context Protocol(MCP)サーバー群をオープンソースでリリースしました。Core、AWS CDK、Amazon Bedrock Knowledge Bases、Amazon Nova Canvas、Cost Analysis などのドメイン特化型 MCP サーバーを提供し、セキュリティ、コスト最適化、AWS Well-Architected のベストプラクティスを自動的に適用します。 ### 参考文献

Model Context Protocol の仕様が更新

Model Context Protocol(MCP)の仕様が 2024-11-05 版から 2025-03-26 版へと更新されました。OAuth 2.1 に基づく認証仕様の追加、Streamable HTTP トランスポートの導入、JSON-RPC バッチングのサポート、Tool annotations の追加、オーディオデータのサポート追加、進捗通知の強化などが行われ、より安全で柔軟、そして効率的なプロトコルとなりました。 ### 参考文献

VSCode がカスタムインストラクションによって GitHub Copilot の結果を改善する方法について解説

シンプルなカスタムインストラクションによって非常に短いプロンプトでも適した結果を得るられることを示しています。 またコミット生成をカスタマイズする方法や、カスタムインストラクションを分割する方法、モデルのトーンを変更する方法、 プロンプトファイルによって再利用可能なプロンプトを登録しておく方法なども解説しています。 ### 参考文献