Sztuczna Inteligencja w sztuce audiowizualnej. Kurs online i także na Plenerach Film Spring Open w Krakowie
W ciągu ostatnich dwóch lat nastąpiło bezprecedensowe przyspieszenie w dziedzinie rozwoju systemów sztucznej inteligencji, głównie modeli generatywnych, zdolnych do przetwarzania informacji tekstowej, wizualnej i dźwiękowej, które zaczęły oddziaływać na wiele dziedzin naszego życia i komunikacji.
Jednak skala zjawisk, z którą mamy do czynienia w roku 2023, przerosła fantazje nawet najbardziej zaangażowanych entuzjastów: wprowadzenie przez OpanAI serwisu ChatGPT, którego adopcja rynkowa jest wielokrotnie szybsza od najbardziej dynamicznych z dotychczasowych produktów w jakiejkolwiek dziedzinie, pojawienie się modeli generatywnych w obrębie video i 3D, doprowadzenie modeli generatywnych w obrębie obrazu do pełnej kontrolowalności z jednej strony i doskonałej jakości z drugiej, implementacja AI najpierw w aplikacje dla twórców, potem w wyszukiwarki i przeglądarki internetowe, potem w narzędzia biurowe przez Microsoft i Google aż wreszcie prezentacja i udostepnienie dla wszystkich tych zastosowań modelu GPT-4, bimodalność tego ostatniego (umiejętność rozpoznawania i interpretacji tekstu i obrazu naraz) i umożliwienie łączenia go z dowolnym serwisem – wszystko to wydarzyło się na przestrzeni ostatnich kilku tygodni do momentu pisania tych słów.
Jednak jeszcze bardziej niż różnorodność zastosowań Sztucznej Inteligencji oszałamiają jej zdolności kognitywne: mierzony różnymi metodami iloraz inteligencji systemu GPT-4 oscyluje wokół 114 punktów, czyli powyżej średniej inteligencji człowieka, jednak w związku z posiadaniem ogromnych zasobów ludzkiej wiedzy i tekstów kultury większość ludzkich testów i egzaminów, przed którymi które można postawić GPT-4 system ten rozwiązuje na poziomie najlepszych 10% ludzi. Innymi słowy, jeśli przyjąć, że mądrość to, według bardzo prymitywnego, ale powszechnego przekonania, inteligencja plus wiedza, to system ten posiada ponadprzeciętną inteligencję i wiedzę ogólną niedostępną dla żadnego pojedynczego człowieka – w tym strywializowanym sensie GPT-4 jest już mądrzejsze od każdego człowieka z osobna. Inne zdolności systemu, takie jak umiejętność kreowania teorii umysłu rozmówcy, zdolność do celowego oszukiwania i zdolność używania narzędzi wprawiają w osłupienie nawet jego projektantów.
Jak możliwa jest twórczość w tym gwałtownie zmieniającym się krajobrazie? Na czym może obecnie polegać? W jaki sposób wchodzić we współprace z systemami sztucznej inteligencji, aby efekty takich kolaboracji były jak najbardziej wartościowe dla twórców i odbiorców? Na te i pokrewne pytania będę starał się odpowiadać wraz z uczestnikami kursu.
- Program:
1. Skala i znaczenie rewolucji AI – 3h + 1h dyskusja
- Skąd się to wszystko wzięło i jak przeszliśmy gwałtownie od „zimy AI” do aż nazbyt upalnego lata? – przypadkowe przełomy i emergencja w systemach sztucznej
inteligencji. - Gdzie jesteśmy i dokąd zmierzamy: najnowsze odkrycia i osiągnięcia w dziedzinie generatywnych modeli AI i ich konsekwencje społeczne oraz przewidywane kierunki i spodziewana dynamika dalszego rozwoju
- Etyka AI, zaufanie i strategie współistnienia, AI a prawo autorskie
2. Prompt engineering i praca z modelami tekstowymi – 3h + 1h Q&A
- Ogólna konstrukcja i zasady działania modeli generatywnych różnego (bez konieczności posiadania wiedzy specjalistycznej) – czym jest i jaka jest pamięć
systemu, jak jest uczony, faza uczenia i faza inferencji, sposoby generowania rezultatów w różnych systemach, przestrzeń utajona (black box), idee i znaczenia w przestrzeni utajonej - Prompt engineering – co to jest i jak rozwijać tę umiejętność? Ogólna charakterystyka i przykłady w kontekście modeli generatywnych tekstowych (GPT-3.5, ChatGPT) i obrazowych (MidJourney, Stable Diffusion, Dalle-2)
- Generowanie tekstów za pomocą ChatGPT i OpenAI Playground i systemów złożonych.
Prezentacja innych modeli specjalistycznych: AIdungeon, Character AI. Porównanie właściwości różnych tekstowych systemów generatywnych.
3. Praca z modelami wizualnymi – 4h
- Generowanie obrazu za pomocą MidJourney, Stable Diffusion i Adobe FireFly – informacje podstawowe, porównanie metod pracy, podstawowe zastosowania
- Zaawansowane metody generowania obrazu w Stable Diffusion: inpainting, outpainting, ControlNet, DreamBooth – prezentacja, zaawansowane metody pracy i zastosowania
- Od pojedynczego do ruchomego obrazu: DeForum – animacje i animatic
- Pierwsze modele generatywne video: Imagen Video, Make-a-Video, RunwayML GEN-1 i GEN-2, Kaiber i inne – aktualny etap i tempo rozwoju, metody pracy
- Montaż AI: Descript, RunwayML – aktualny etap, tempo i kierunki rozwoju
4. Inne przydatne twórcom dziedziny rozwoju AI – 3h + 1h dyskusja
- Modele AI w pracy z tłem dźwiękowym i muzyką: AudioLM, MusicLM, AIVA i inne
- Modele AI w pracy z tekstem mówionym: Whisper i ElevenLabs
- Inne przykłady zastosowań AI: generowanie obrazów 360, generowanie obiektów 3D, NeRF
- Łączenie modeli różnego typu i środowiska pracy z AI (Hugging Face, Google Colab, nVidia Picasso) 1,5h prezentacja
- Jak trzymać rękę na pulsie AI? Źródła wiedzy. Dyskusja podsumowująca.
Jacek Nagłowski będzie także obecny na Plenerach Film Spring Open w Krakowie. Serdecznie zapraszamy do zapisów na kurs filmowy online ale także do spotkania na żywo i wspólnej pracy podczas warsztatów w Krakowie!