Multimodal AI
AI yang dapat memahami dan menghasilkan beberapa modalitas — teks, gambar, audio, video, 3D. Contoh: GPT-4o, Claude 3.5 Sonnet, Gemini 2.5, Sora 2.
From: LLM Wiki URL: llm-wiki.pages.dev/concepts/multimodal-ai Created: June 21, 2026 Updated: June 21, 2026 Read time: 1 min
Multimodal AI
Definisi
Multimodal AI adalah sistem yang dapat memahami dan menghasilkan lebih dari satu modalitas — teks, gambar, audio, video, 3D, sensor data, dll.
Tonggak
- 2020 — CLIP (OpenAI) — text-image
- 2021 — DALL-E — text-to-image
- 2023 — GPT-4V — vision input
- 2024 — GPT-4o — unified multimodal
- 2024 — Sora — text-to-video
- 2024 — Claude 3 — vision
- 2024 — Gemini 1.5 — long context multimodal
- 2025 — Gemini 2.5 — unified
- 2025 — Veo 3 — video + audio
- 2026 — Sora 2, Veo 3.5 — high-fidelity