Multimodal AI

AI yang dapat memahami dan menghasilkan beberapa modalitas — teks, gambar, audio, video, 3D. Contoh: GPT-4o, Claude 3.5 Sonnet, Gemini 2.5, Sora 2.

From: LLM Wiki URL: llm-wiki.pages.dev/concepts/multimodal-ai Created: June 21, 2026 Updated: June 21, 2026 Read time: 1 min

Multimodal AI

Definisi

Multimodal AI adalah sistem yang dapat memahami dan menghasilkan lebih dari satu modalitas — teks, gambar, audio, video, 3D, sensor data, dll.

Tonggak

2020 — CLIP (OpenAI) — text-image
2021 — DALL-E — text-to-image
2023 — GPT-4V — vision input
2024 — GPT-4o — unified multimodal
2024 — Sora — text-to-video
2024 — Claude 3 — vision
2024 — Gemini 1.5 — long context multimodal
2025 — Gemini 2.5 — unified
2025 — Veo 3 — video + audio
2026 — Sora 2, Veo 3.5 — high-fidelity