何が発表された?
Google DeepMind Blog で、新しいマルチモーダルモデル「Gemini Omni」が発表されました。テキスト / 音声 / 画像 / 動画など複数モダリティを統合して扱う構成と紹介されています。
メモ
- 「Omni」のネーミング通り、複数モダリティをまたいだ入出力をネイティブに扱う設計と位置付けられています。
- モーダル間の橋渡しを別モデルに任せる構成ではなく、単一モデル内で扱うことを志向しているとされ、音声・画像・動画の一体的な処理が強みになる可能性があります。
- 提供形態 (API / アプリ / 限定プレビューなど) や対応モダリティの上限などの詳細は公式ブログと Gemini API ドキュメントの確認が必要です。