CLIP

Model OpenAI (2021) yang belajar menghubungkan teks dan gambar dengan contrastive learning. Fondasi DALL-E 2, Stable Diffusion, dan image generation modern.

CLIP: text-image contrastive learning, 400M image-text pairs, zero-shot image classification. Used in DALL-E 2, Stable Diffusion, dll.

Print

CLIP

Definisi

CLIP (Contrastive Language-Image Pre-training) adalah model multimodal dari OpenAI yang belajar menghubungkan teks dan gambar menggunakan contrastive learning pada 400 juta image-text pairs.

Inovasi

  • Zero-shot classification — dapat mengklasifikasikan gambar tanpa training
  • Natural language supervision — tidak butuh label eksplisit
  • Kontras — menarik text embedding & image embedding yang match

Dampak

  • DALL-E 2 — menggunakan CLIP untuk menyaring output
  • Stable Diffusion — menggunakan CLIP text encoder
  • DALL-E 3 — CLIP-style training
  • Zero-shot vision — populer di banyak aplikasi

Connected to

Not yet written

The following pages are referenced but don't exist yet — they'd make good future additions.

  • /concepts/diffusion-model

References

  1. Wikipedia

Type at least 2 characters to search.

Press to navigate, to open, esc to close.