Anthropic、skill-creatorにeval・benchmark・マルチエージェント評価とdescription調整を追加

AnthropicがAgent Skills向けのskill-creatorを拡張し、作者がevalで期待挙動を検証し、モデル更新や編集に伴う挙動の変化を捉え、トリガー用のdescriptionを手直しするまでを一連の流れとして支援する。

テスト・ベンチマーク・反復改善といったソフトウェア開発に近いやり方を、スキル作者がコードを書かずに取り込める位置づけ。

Claude.aiとCoworkで利用可能に加え、Claude Code向けの公式プラグインやskillsリポジトリ内のskill-creatorからも入手できる。

#主要な変更点

期待する入出力に基づくevalの執筆支援。テストプロンプト（必要ならファイル付き）と「良い出力」の定義から、skillが期待どおりかを確認。新モデルへの切り替え時の品質劣化の早期検知や、ベースモデルだけでevalを通過するようになった場合の「skillが不要になった」シグナルなどを想定。benchmarkモードではevalを用いた標準化された評価を実行し、pass率・所要時間・トークン使用量を追跡。evalと結果はローカル保管のほかダッシュボード連携やCIへの組み込みも可能。PDF skillの非フィラブルフォームの例のように、失敗箇所の切り分けと修正にも使える。
evalの並列実行用に独立したエージェントを起動するマルチエージェント対応。各実行がクリーンなコンテキストでトークン計測・所要時間を持ち、逐次実行の遅さやコンテキスト混線を避ける。2つのskill版やskill有無を比較するcomparatorエージェントにより、どちらの出力が優れるかを当てずっぽうでなく判断可能（出力側はどちらの条件かを知らない）。
出力品質だけでなく発火タイミングのため、現在のdescriptionとサンプルプロンプトを照らし合わせ、偽陽性・偽陰性を減らす編集案を提示する調整支援。ドキュメント作成skill群の公開6本のうち5本でトリガー改善を確認したとの記載。

Capability uplift系（ベースモデルでは足りない／不安定な領域を補うskill）と、手順を手元のワークフローに沿って並べるencoded preference系では、テストの主眼が異なる。前者はモデル進化でskillの必要性が下がる検知、後者は実運用フローへの忠実さの検証、という整理。

公式は将来、自然言語の「何をすべきか」の記述だけでskillに相当するものが足りる可能性に言及する一方、現行の利用手順・提供範囲はClaude.ai・Cowork・プラグイン・リポジトリ取得など形態ごとに異なる。導入時は該当する案内に従う必要がある。

#参考文献

Improving skill-creator: Test, measure, and refine Agent Skills