AI Weekly 2025-03-27
CloudflareがAI Labyrinthを発表。OpenAIが新しい音声認識/音声合成モデルを公開。GPT-4oに画像生成機能が追加。DeepSeek-V3-0324、Gemini 2.5、Devin 1.5、Cursor 0.48がリリースなど。
CloudflareがAIクローラーをブロックするAI Labyrinthを発表
CloudflareがAIクローラーをブロックするAI Labyrinthを発表しました。
https://blog.cloudflare.com/ai-labyrinth/
CloudflareのAI Labyrinthは、AIによって生成されたコンテンツを使用して、クローラーを偽のリンクされたページに誘導することで、不正なAIクローラーのリソースを浪費させることを目的としています。
生成されたページには、SEOに悪影響を与える可能性を避けるために、検索エンジンのインデックス登録を防ぐための適切なメタディレクティブが含まれるとのことです。
Open AIが新しい音声認識/音声合成モデルを公開
新しい音声認識(speech-to-text)と音声合成(text-to-speech)モデルがAPIで公開されました。
https://openai.com/index/introducing-our-next-generation-audio-models/
新しい音声認識モデル(gpt-4o-transcribe、gpt-4o-mini-transcribe)は、既存のWhisperモデルと比較して精度と信頼性が向上し、特にアクセント、騒音環境、さまざまな話速といった難しい状況でも優れた性能を発揮します。またFLEURSなどのベンチマークで低いWord Error Rate (WER)を達成し、多言語での認識精度も向上しています。
新しい音声合成モデル(gpt-4o-mini-tts)では、テキストの内容だけでなく話し方(例えば、「同情的なカスタマーサービス担当者のように話す」)を指示できるようになり、よりカスタマイズされた表現豊かな音声エージェントを開発できます。ただし、これらの音声合成モデルは、あらかじめ設定された人工的な音声に限られます。
Bolt.newがFigmaからのインポートをサポート
Bolt.newがFigmaからデザインをインポートし、アプリを作成する機能をサポートしました。
https://x.com/boltdotnew/status/1900197121829331158
Figmaデザインのコードへの変換にはAnimaが利用されており、Animaと提携することで、この機能を実現したとのことです。
DeepSeek-V3-0324が公開
DeepSeek-V3のアップデート版であるDeepSeek-V3-0324が公開されました。
https://simonwillison.net/2025/Mar/24/deepseek/
このモデルは、ライセンスがMITで提供されています。また性能は非推論モデルの中では高い性能を見せています。Artificial Analysisによれば、コーディングのベンチマークでCloude 3.7 Sonnetと同じスコアを記録しています。
GPT-4oに画像生成機能が追加
OpenAIが3月25日、GPT-4oに組み込まれた画像生成機能「4o Image Generation」の提供を開始しました。
https://openai.com/index/introducing-4o-image-generation/
DALL-Eと比較してテキストへの応答能力が飛躍的に向上しており、次のことが可能です。
- 画像内のテキスト指定が可能
- 一貫性を保った複数回の画像生成(マルチターン生成)
- アップロードされた画像の文脈を理解し、それを反映した画像生成
- GPT-4oの知識を活用した画像生成
- より写実的で多様なスタイルの画像生成
同様の画像生成は今までも可能な手段がありましたが、「4o Image Generation」は既存の手法と比べて遥かに手軽に、実務において利用しやすい画像を手軽に生成できる点で大きな優位性があります。これは実際、発表を受けて多くのユーザーが一貫性やテキスト指定を有効活用した画像をSNSなどで公開していることから明らかだと思います。
GPT-4oが利用できる状態になっていれば次のURLから試すことができます。 APIでの利用は数週間以内に提供予定とのことです。
https://chatgpt.com/?model=gpt-4o
Gemini 2.5が公開
Googleが3月25日、推論モデルであるGemini 2.5(Gemini 2.5 Pro Experimental)を発表しました。 既にGoogle AI StudioとGeminiアプリで利用可能です。
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
多くの数学や科学、コーディング関連のベンチーマークでトップの性能を示しています。
https://artificialanalysis.ai/#:~:text=we%20run%20them.-,Intelligence%20Evaluations,-9%20of%209
次のURLから試すことができます。
https://aistudio.google.com/prompts/new_chat?model=gemini-2.5-pro-exp-03-25
Devin 1.5がリリース
3月25日、Devin 1.5がリリースされました。
https://docs.devin.ai/release-notes/overview#march-25%2C-2025
主な新機能は以下の通りです。
- Devin IDE: Devinがリポジトリが読み込まれたインタラクティブなVSCode環境で動作するように。リアルタイムでの編集確認や、IDEツールやショートカットを使用した直接的な編集が可能。
- インタラクティブプランナー: セッション開始時に数秒で関連ファイルや調査結果、初期プランを提示。複雑なタスクでは「Wait for my approval」オプションでフィードバックを待機。
- Devin Search: コードベースに関する質問に素早く回答する新しいツール。コードの場所特定やコミット履歴の追跡などが可能。
- Devin’s Wiki: Devin Searchがコードベースをより深く理解するために使用されている。アーキテクチャ図、ソースへのリンクなどが含まれており、ユーザーにとっても有益な可能性がある。
Cursor 0.48がリリース
Cursor 0.48をリリースされました。
主な新機能は以下の通りです。
- チャットタブ: 並行して複数の会話を進められるように。新しいタブ(⌘N)で別のワークフローを開始可能。
- カスタムモード(ベータ): ワークフローに合わせてツールとプロンプトを組み合わせた新しいモードを作成できる機能の追加。
- サウンド通知(ベータ): チャットがレビュー準備完了時にサウンドを再生できる機能の追加。
- 使用量ベースのコスト表示: 使用量ベースのモデルでチャットごとのコストと内訳を表示できるように。チャットメッセージの入力トークン数も表示可能。