2024年6月21日、Anthropic は Claude シリーズの最新モデル Claude 3.5 Sonnet を公開しました。中堅モデルでありながら、旧世代モデルとのパフォーマンスギャップを大きく超えており、業界の注目を集めています。
当記事は 2024年7月3日時点 の公開情報をもとに編集しています。
ベンチマーク性能とコスト・速度の革新
Claude 3.5 Sonnet は、現行フラッグシップモデルである Claude 3 Opus を上回る成績を複数の評価指標で示しています。
さらに、速度は2倍に向上し、コストは低減されており、スケールと費用対効果の両立が実現されています。
この性能と価格帯のバランスが、実務利用における魅力を引き上げていると言えるでしょう。
各種評価指標での優位性
Claude 3.5 Sonnet は、以下のような領域で特に高い評価を得ています:
- 大学院レベルの推論力(GPQA)
- 学部レベルの知識理解(MMLU)
- プログラミング能力(HumanEval)
これらのテストで、同クラスまたはそれ以上のモデルを凌駕する結果を残しています。
ビジョン機能の強化
このモデルは視覚系の処理能力も強化されており、グラフや図表の解釈がより正確になっています。
不鮮明な画像からのテキスト抽出や、図形の内容理解など、実務で多く使われるヴィジュアル処理にも対応しています。
新機能「Artifacts」でインタラクティブ化
Claude.ai に新たに導入された機能 Artifacts は、生成されたコードやデザインなどを、チャット内でリアルタイムにプレビューしつつ編集できる機能です。
生成結果を”ここで見て、すぐに修正”という形で共同作業が可能になる画期的な体験を提供します。
安全性と透明性への取り組み
Anthropic は Claude 3.5 Sonnet に対しても厳格な 安全性テストを実施しており、AI Safety Level-2 を維持していることを明言しています。専門家との協力により、悪用に対する対策も強化されています。
今後の展望と Claude ファミリーの拡張
今後、Claude 3.5 Haiku や Claude 3.5 Opus といった、より小型あるいは高性能なモデルもリリースされる予定です。
さらに、今後はチーム向けの連携機能や、企業用途向けのメモリー機能など、さまざまな拡張も検討されています。
まとめ
Claude 3.5 Sonnet は、知的なアウトプット → 高速・低コスト対応 → アーティファクトでの編集体験を一体化させた、実務的で革新的なモデルです。
中間的な立ち位置ながら、その性能と機能性の高さから、多くの開発者や企業ユーザーから強い関心を集めています。
今後のファミリー展開が非常に楽しみなモデルです。
参考文献
- Anthropic. Introducing Claude 3.5 Sonnet (2024年6月21日)