Grok, czyli AI od X (Twittera), posiada bardzo użyteczną, choć mało znaną funkcję. Jest nią Grok Imagine, czyli narzędzie do generowania filmów z dźwiękiem, oraz tworzenia wielu obrazków na raz. Technicznie, nie są to żadne nowości, VEO 3 umożliwiało wygodne tworzenie takich filmów już od ponad roku, Sora (od Open AI) podniosła poprzeczkę wyżej (a wcześniej istniały inne opcje, dla bardziej technicznych osób).
Jakość filmów i zdjęć tworzonych przez Groka nie jest niczym przełomowym. Ale jego zaletą jest niski koszt i wygodna obsługa. Całość jest bowiem dostępna za darmo (gratis to uczciwa cena).
Spis treści

Jak działa generowanie zdjęć w Groku?
Podstawowa rzecz: należy wejść na stronę Grok.com, albo pobrac aplikację. Grok dostępny na Twitterze (X), ma ograniczone funkcje.
Następnie, trzeba wejść wybrać opcję: Imagine.

Wpisujemy na dole komendę, i gotowe:

W kilka sekund program generuje osiem grafik bardzo dobrej jakości, a w miarę przewijania tworzy kolejne. To tempo sprawiło, że przestałem korzystać z ChatGPT, gdzie nawet w płatnej wersji na jeden obraz czeka się kilkanaście lub kilkadziesiąt sekund. Nie zrezygnowałem natomiast Generator Nano Banana od Google, który działa błyskawicznie i tworzy grafiki niemal natychmiast. Choć w Gemini zamiast kilkunastu grafik, mamy tylko jedną, to jakość edycji w Nano Banana sprawia że nadal z tego generatora korzystam.

Tekst możemy wpisywać po polsku, i model go rozumie.


Generowanie filmów:
Wystarczy kliknąć ikonę strzałki w prawym dolnym rogu zdjęcia, aby Grok wygenerował film. Narzędzie pozwala tworzyć wiele materiałów jednocześnie, również w tle. Po kliknięciu w zdjęcie pojawia się także możliwość opisania tego, co dokładnie ma się dziać w filmie

Dodatkowo po kliknięciu w ustawienia zdjęcia (trzy kropki w prawym górnym rogu) możemy przejść do edycji. Funkcja ta bywa użyteczna, choć nie zawsze działa zadowalająco. Przykładowo, próba nadania dinozaurowi realistycznego wyglądu nie przyniosła dobrych efektów, ale już przeniesienie go do miasta udało się bez problemu. W kwestii edycji zdjęć niekwestionowanym królem pozostaje Nano Banana Pro.

Pewną sztuczką jest używanie trybu wideo do modyfikacji zdjęcia. Jest to szczególnie przydatne przy zmianie pozy lub ruchu, ponieważ możemy wybrać konkretną klatkę, choć zmiany zawartości również działają. W opisie filmu wystarczy wpisać np.: „dodaj dinozaurowi czerwoną czapkę” lub „dinozaur zakłada czerwoną czapkę”.
Opcja: upscale video: pozwala zwiększyć jakość filmu. Jest przydatna jeśli startujemy z zdjęcia kiepskiej jakości.

Możemy tworzyć wiele wersji tego samego filmu, zawsze zaczynając od zdjęcia bazowego. Jeśli jednak chcemy stworzyć złożoną historię, należy skopiować ostatnią klatkę (prawym przyciskiem myszy – nie trzeba robić zrzutów ekranu), a następnie wkleić ją jako początek nowego wątku

Jakie są limity generowania zdjęć i filmów w Grok Imagine?
W trybie Imagine Grok umożliwia wygenerowanie od 60 do 180 zdjęć dziennie. Zazwyczaj wystarcza to na kilkanaście komend, jednak limit ten można wyczerpać bardzo szybko, jeśli będziemy intensywnie przewijać wyniki. Po jego przekroczeniu zdjęcia nadal można generować bezpośrednio w oknie czatu. W przypadku filmów limit jest znacznie niższy – Grok pozwala na stworzenie zaledwie kilkunastu materiałów wideo dziennie
Wklejanie zdjęć:
Jeśli wkleimy zdjęcie do trybu Grok Imagine, program domyślnie od razu tworzy na jego podstawie film. Dzieje się to tak szybko, że brakuje czasu na wpisanie promptu opisującego scenę. W takim przypadku znacznie wygodniej jest wkleić zdjęcie bezpośrednio do czatu.

Po wklejeniu zdjęcia do Chatu, mamy możliwość wybrania opcji edycji:

I dalej mamy opcje stworzenia filmu, tym razem mamy więcej czasu na opisanie planowanego efektu.

Oczywiście można tez tworzyć zdjęcia w zwykłym wątku, bez wchodzenia w tryb edycji zdjęcia.
Model językowy piszący promota na podstawie zdjęcia.
Czasami dobry efekt daje poproszenie Groka o przygotowanie promptu, który pozwoli uzyskać podobne zdjęcie. Technikę tę można stosować również w ChatGPT czy Gemini, ale w przypadku Groka, dzięki możliwości masowego generowania grafik, jest ona szczególnie użyteczna. Aby oszczędzać limit w trybie Imagine, warto testować prompty bezpośrednio w wątku czatu. W takim przypadku generowane są tylko dwa zdjęcia jednocześnie i nie wliczają się one do puli zdjęć tworzonych masowo


Prawa autorskie
Przy wklejaniu zdjęć i przerabianiu ich na filmy trzeba oczywiście pamiętać o prawach autorskich. Wykorzystywanie cudzych prac jako bazy (tzw. obrazu źródłowego) do generowania wideo przez AI może naruszać prawa majątkowe autora oryginału. Dotyczy to szczególnie sytuacji, gdy wideo wyraźnie powiela unikalne cechy, postacie lub kompozycję zdjęcia, do którego nie posiadamy praw. Bezpieczniej jest operować na własnych zdjęciach lub grafikach wygenerowanych przez nas od podstaw, choć nawet wtedy status prawny dzieła stworzonego przez sztuczną inteligencję pozostaje w wielu krajach niejednoznaczny.
W skrócie, problemem może być użycie grafiki stworzonej przez AI jako elementy identyfikacji marki, np. logo, czy baneru na stronie czy socjalmediach. W skrócie, możemy mieć problem z prawną ochroną takich grafik, czyli potencjalnie każdy może ich używać. Chyba że wykażemy istotny własny wkład w generowaniu takich obrazów. Grafiki ilustracyjne nie są większym problemem, czasami to że ktoś skopiuje nasze grafiki, nie stanowi większego zagrożenia dla marki.
Zmiany w Grok imagine w ciągu ostatnich paru miesięcy:
Przez pewien czas jakość zdjęć tworzonych bezpośrednio w wątkach Groka była znacznie gorsza od tych z trybu Imagine. Obecnie różnice te się zatarły. Grok korzysta z dwóch grup modeli generujących grafiki: autorskiego modelu Aurora oraz zewnętrznego modelu Flux (od Black Forest Labs). Wcześniej w oknie czatu dostępna była głównie Aurora, podczas gdy Imagine wykorzystywał lepszego Fluxa. Dziś jakość jest zbliżona, choć wciąż trudno jednoznacznie stwierdzić, na jakiej podstawie Grok decyduje o wyborze konkretnego generatora.
Zaleta i wada Groka: dużo mniejsza cenzura niż w innych modelach.
ChatGPT oraz Google Gemini (Nano Banana) mają bardzo restrykcyjne blokady. Modele te odmawiają tworzenia grafik przedstawiających znane osoby, nawet przy całkowicie bezpiecznych promptach. Grok nie ma z tym żadnych problemów. Podobnie sytuacja wygląda w przypadku treści dla dorosłych: ChatGPT i Gemini blokują się przy niewinnych komendach. Grok posiada pewne ograniczenia (nie pozwala na bezpośrednie generowanie nagości), jednak skąpe stroje nie stanowią dla niego przeszkody. Co więcej, przy odrobinie kreatywności te blokady dają się obejść. Zdarza się nawet, że Grok sam dodaje nagość do grafik, mimo że prompt w ogóle tego nie sugerował i nie był próbą obejścia filtrów. Podejrzewam że jest to pewien powód nadwrażliwości cenzury w innych modelach: generator zdjęć może dodawać różne „artefakty”, które są potem blokowane przez filtry bezpieczeństwa.
Dla osób dorosłych, brak cenzury nie jest większych problemem, problem się pojawia gdy z tego narzędzia korzystają dzieci. Tak więc przy robieniu kursów z korzystania z AI dla dzieci i młodzieży, lepiej jest nie promować Groka.
Podsumowanie:
Grok Imagine to potężne narzędzie, które pozwala tworzyć filmy z dźwiękiem całkowicie za darmo. Jak na animacje generowane przez AI, jakość jest zadowalająca. Funkcję wideo można wykorzystać również do edycji zdjęć, sam wielokrotnie z tego korzystałem, gdy Google Nano Banana nie dawało rady. Kolejną dużą zaletą są wysokie darmowe limity oraz możliwość błyskawicznego, masowego tworzenia grafik




