August 24th, 2023 - Revolutionizing Pixels and Prose: Breakthroughs in Diffusion Models, Multimodal Language Learning, and Media Editing
Manage episode 375164891 series 3485608
Contenuto fornito da Marcus Edel. Tutti i contenuti dei podcast, inclusi episodi, grafica e descrizioni dei podcast, vengono caricati e forniti direttamente da Marcus Edel o dal partner della piattaforma podcast. Se ritieni che qualcuno stia utilizzando la tua opera protetta da copyright senza la tua autorizzazione, puoi seguire la procedura descritta qui https://it.player.fm/legal.
…
continue reading
Capitoli
1. Intro (00:00:00)
2. Scalable Diffusion Models with Transformers (00:01:18)
3. BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions (00:03:02)
4. StableVideo: Text-driven Consistency-aware Diffusion Video Editing (00:04:10)
5. Exploiting Diffusion Prior for Real-World Image Super-Resolution (00:06:36)
75 episodi