CLIP
Model OpenAI (2021) yang belajar menghubungkan teks dan gambar dengan contrastive learning. Fondasi DALL-E 2, Stable Diffusion, dan image generation modern.
From: LLM Wiki URL: llm-wiki.pages.dev/concepts/clip Created: June 21, 2026 Updated: June 21, 2026 Read time: 1 min
CLIP
Definisi
CLIP (Contrastive Language-Image Pre-training) adalah model multimodal dari OpenAI yang belajar menghubungkan teks dan gambar menggunakan contrastive learning pada 400 juta image-text pairs.
Inovasi
- Zero-shot classification — dapat mengklasifikasikan gambar tanpa training
- Natural language supervision — tidak butuh label eksplisit
- Kontras — menarik text embedding & image embedding yang match
Dampak
- DALL-E 2 — menggunakan CLIP untuk menyaring output
- Stable Diffusion — menggunakan CLIP text encoder
- DALL-E 3 — CLIP-style training
- Zero-shot vision — populer di banyak aplikasi