Skocz do zawartości

Sztuczna inteligencja AI - (OpenAI, ChatGPT, Midjourney, DALL-E) - Temat ogólny


Rekomendowane odpowiedzi

Opublikowano (edytowane)
1 godzinę temu, Áltair napisał(a):

Ponoć za multikonta i tak w końcu dostanie się bana :E Nie chce mi się też fatygować z tymi mailami.

Nie dostałem przez miesiąc. Zajrzę później i dam znać, bo od dawna nie używałem. Im więcej się bawisz tym więcej rozumiesz czego te AI nie potrafi i zaczyna do Ciebie docierać, że niektóre rzeczy które się udały, to był "wypadek przy pracy". Dosłownie 50 ponowień tego samego prompta żeby "prawie wyszło", a zmiany prompta nic nie dają. Tu właśnie cholernie się przydaje szybkie tempo generacji Groka. Czekając 10+minut to się człowiekowi odechciewa eksperymentować, szczególnie w przypadku ludzi o tzw. "słomianym zapale", do których niestety się zaliczam :E

1 godzinę temu, Áltair napisał(a):

Ponoć za multikonta i tak w końcu dostanie się bana :E Nie chce mi się też fatygować z tymi mailami.

Zakładasz konto na chwilowym mailu i zakładasz konto na groku. CAŁOŚĆ od włączenia kompa do używania konta trwa może 2 minuty, a jak masz zakładki w przeglądarce, szybki net i kompa nie z muzeum to pewnie w minutę się by dało. No ja jeszcze dodaję wejście w settings i wyłączenie trenowania modelu tym co uploaduję. To jest bardzo fajne, że Grok nie kradnie wszystkiego co wrzucasz, jeśli sobie tego nie życzysz. 

1 godzinę temu, Áltair napisał(a):

Abonamentu wykupować na razie nie chcę, bo mam złe doświadczenia z innymi tego typu aplikacjami. Na przykład biorę TYLKO miesięczną subskrypcję, a potem się okazuje, że ściąga mi pieniądze każdego miesiąca, nie wiadomo, gdzie tę subskrypcję anulować, a support nie odpowiada.

Zakładasz wirtualną kartę na bazie tej prawdziwej i po problemie. Poza tym wystarczy anulować na dzień przed końcem, albo po prostu po zużyciu kredytów jeśli wykupujesz abonament który działa w ten sposób.

 

1 godzinę temu, Áltair napisał(a):

Najlepiej chyba mieć konto tylko do takich rzeczy i trzymać na nim małe kwoty. 

No właśnie :)

 

1 godzinę temu, Áltair napisał(a):

Przydałyby się abonamenty-dniówki, bo jak chce się zrobić jednorazowo jakąś rzecz, to trzeba opłacać cały miesiąc albo rok. 

Ależ są! Stronki agregujące przeróżne modele. Tam są abonamenty "na próbę" czyli za mniejszą kwotę. Takie gdzie płacisz np. 15$ i wystarcza na.... jedno 40s video-to-video. A nie, sorry, pomyliłem się. Zabraknie. :hahaha:

W takim przypadku cena wyniesie 24$ za jedną próbę, a text-to-video czy image-to-video w lepszych opcjach typu dobry model + 12-18s, to już 90% tych kredytów jakie dostajesz a 15$. Możesz wydać 4x więcej  i koszt każdego kredytu spada wtedy mocno i taki text/image > video 12s kosztuje już zaledwie.. 9$. Za jeden prompt. :E

Jakby dali "robta co chceta" przez jeden dzień" to byś mógł wykręcić koszty ala setki tysięcy dolców, więc dlatego takich ofert niestety nie ma.

1 godzinę temu, Áltair napisał(a):

Co do Groka zasady są niejasne. Do 100 filmów oznacza, że na subskrypcji mogę mieć tylko 50 dziennie.

Sam Grok nie zna zasad i nie potrafi odpowiedzieć na pytania o abonament :lol2: Musk to jest jednak fachowiec, bo z takiego bajzlu w ciągu roku chce z 6s zrobić filmy godzinne. Mocny gość! :E

Nadal nie wiem czy subskrypcja daje gwarancję, że dostaniesz choć jeden filmik na dzień dłuższy niż 6s. 

 

1 godzinę temu, Áltair napisał(a):

Z długością filmów łatwo sobie poradzić. Czyli robi się screena ostatniej klatki wygenerowanego filmu (ważne, by widać były na niej wszystkie elementy, które mają być generowane), wgrywa jako nowy image i generuje dalszą cześć sceny. 

Niestety nie. Po pierwsze jak sam zauważyłeś - musi wszystko być w kadrze a to eliminuje 90% pomysłów jakie mam. Np. Gdy w kadrze jest jedna postać rozmawiająca z drugą będącą poza kadrem. Albo gdy jest ujęcie z zoomem na samochód. Po kontynuacji Ci się z Kaszlaka 126p zrobi Mercedes S klasy :D

Najgorzej jest jednak z ruchem. Jest jakiś ruch, który kończy się na ostatniej klatce, a potem robisz nowy filmik i ruch się robi zupełnie inny nawet jak próbowałem w prompcie opisać jaki ruch występował na poprzednich klatkach czy jaki występuje na klatce jaka jest "source image".

 

1 godzinę temu, Áltair napisał(a):

Albo jak ktoś umie, otwiera Blendera, robi model czy lokację i można sobie tam robić dowolne screeny z rzutów kamery i je animować. 

To albo trzeba by było być światowej klasy artystą grafikiem/animatorem, albo użyć jakichś Ajajów do tego, bo ręcznie to masakra. Pewnie jakieś są, ale znowu - pojawią się ograniczenia, problemy itd.

Edytowane przez VRman
  • Like 1
Opublikowano (edytowane)
2 godziny temu, LeBomB napisał(a):

@Áltair a Elevenlabs, albo Sora?

Sory jeszcze nie znam. Ale widzę na YT, jakie tam ludzie cuda z tym wyprawiają, jak z Pixara. Elevena na razie stosuję tylko jako lektora. 

 

Godzinę temu, Wu70 napisał(a):

Też tego używam ale spisuje się tylko jak nie ma dialogów bo jak są, to chcesz ich kontynuację.

Ale dzisiaj są już lepsze sposoby, video-to-video itd.

Już trwa, tylko oczywiście tam gdzie AI radzi sobie najlepiej - w internecie.

 

Żeby była spójność głosów, używam jakiejś grafiki referencyjnej do animacji i tam nagrywam słowa jednej postaci. Wrzucam w prompta słowa, jakie ma ta postać mówić i nie ma problemu. Potem montuję to w Sony Vegas Studio. Na razie zaczynam zbawić się Grokiem, więc uczę się stale poprzez pracę. 

Godzinę temu, VRman napisał(a):

Nie dostałem przez miesiąc. Zajrzę później i dam znać, bo od dawna nie używałem. Im więcej się bawisz tym więcej rozumiesz czego te AI nie potrafi i zaczyna do Ciebie docierać, że niektóre rzeczy które się udały, to był "wypadek przy pracy". Dosłownie 50 ponowień tego samego prompta żeby "prawie wyszło", a zmiany prompta nic nie dają. Tu właśnie cholernie się przydaje szybkie tempo generacji Groka. Czekając 10+minut to się człowiekowi odechciewa eksperymentować, szczególnie w przypadku ludzi o tzw. "słomianym zapale", do których niestety się zaliczam :E

 

 

Ależ są! Stronki agregujące przeróżne modele. Tam są abonamenty "na próbę" czyli za mniejszą kwotę. Takie gdzie płacisz np. 15$ i wystarcza na.... jedno 40s video-to-video. A nie, sorry, pomyliłem się. Zabraknie. :hahaha:

W takim przypadku cena wyniesie 24$ za jedną próbę, a text-to-video czy image-to-video w lepszych opcjach typu dobry model + 12-18s, to już 90% tych kredytów jakie dostajesz a 15$. Możesz wydać 4x więcej  i koszt każdego kredytu spada wtedy mocno i taki text/image > video 12s kosztuje już zaledwie.. 9$. Za jeden prompt. :E

Jakby dali "robta co chceta" przez jeden dzień" to byś mógł wykręcić koszty ala setki tysięcy dolców, więc dlatego takich ofert niestety nie ma.

Sam Grok nie zna zasad i nie potrafi odpowiedzieć na pytania o abonament :lol2: Musk to jest jednak fachowiec, bo z takiego bajzlu w ciągu roku chce z 6s zrobić filmy godzinne. Mocny gość! :E

Nadal nie wiem czy subskrypcja daje gwarancję, że dostaniesz choć jeden filmik na dzień dłuższy niż 6s. 

 

Niestety nie. Po pierwsze jak sam zauważyłeś - musi wszystko być w kadrze a to eliminuje 90% pomysłów jakie mam. Np. Gdy w kadrze jest jedna postać rozmawiająca z drugą będącą poza kadrem. Albo gdy jest ujęcie z zoomem na samochód. Po kontynuacji Ci się z Kaszlaka 126p zrobi Mercedes S klasy :D

Najgorzej jest jednak z ruchem. Jest jakiś ruch, który kończy się na ostatniej klatce, a potem robisz nowy filmik i ruch się robi zupełnie inny nawet jak próbowałem w prompcie opisać jaki ruch występował na poprzednich klatkach czy jaki występuje na klatce jaka jest "source image".

 

To albo trzeba by było być światowej klasy artystą grafikiem/animatorem, albo użyć jakichś Ajajów do tego, bo ręcznie to masakra. Pewnie jakieś są, ale znowu - pojawią się ograniczenia, problemy itd.

Dokładnie. Jak wychodzi coś fajnego, to z przypadku. Jeszcze jest ban na wideo za byle co. Ostatnio banowało mi chyba "agresywne pomarańczowe światło", bo uznawało to za przemoc. Używam języka polskiego, bo widzę, że wtedy wychodzą lepsze filmy i mniej jest rzeczy do cenzury. Są też straszne problemy z interpretacją, bo Grok dodaje własne elementy, których nie chcę. Trzeba pisać przez to poematy z Hard Lockiem. 

 

Tyle tego jest, tych programów AI, że nie udało mi się znaleźć takiej oferty tymczasowej. Ale jeśli to jest taka lipa, tpo nawet nie ma sensu sprawdzać. 

 

Jak jest ruch na ostatniej klatce, to screenshotuję coś z wcześniej. Potem można to zmontować w jakimś programie do video, jak Vegas. 

 

Podsumowując, Grok jest raczej do zabawy. Coś poważniejszego, to faktycznie trzeba ogarnąć Sorę. No i Blendera :D Tak można zrobić modele ludzi (albo ściągnąć darmowe i legalne) i ustawiać kamerę w dowolnym miejscu. 

Edytowane przez Áltair
Opublikowano

No to elevenlabs miało podstawową funkcjonalność właśnie w postaci generowania głosów, ale też już dodali opcję generowania wideo. Sora generuje różne wideo. 

W sumie to czekaj.

 

@ITHardwareGPT zrób zestawienie dostępnych narzędzi AI do generowania wideo z dźwiękiem, w którym można zapisać głosy i postacie do generowania kolejnych ujęć lub filmów. Coś jak opcja persona w Suno.

 

Opublikowano
@LeBomB TL;DR: jeśli chcesz „Personę” jak w Suno (czyli zapisany głos + zapisany bohater do kolejnych ujęć), to na dziś najlepiej pasują HeyGen, Synthesia, Colossyan, D‑ID, DeepBrain AI Studios, Tavus.
Jeśli chcesz „filmowe” generatory z natywnym audio, ale bez stałej persony/voice ID: Sora 2, Google Veo 3.1, Kling 2.6.

Spoiler


### Co rozumiem przez „persona”
- Voice persona: zapisany głos (TTS / voice clone / voice model) do użycia w kolejnych projektach.
- Character persona: zapisany avatar/digital twin (postać), którą można przywołać w kolejnych scenach/wideo (zwykle talking head / prezenter).

Narzędzie Typ Audio wideo (out-of-the-box) Zapis głosu (voice persona) Zapis postaci (character persona) Uwagi / kiedy ma sens Źródła
HeyGen AI avatar / digital twin (prezenter) Tak (głos + lip-sync) Tak (voice design / integracje, m.in. 11Labs) Tak (custom avatar / Digital Twin) Najbliżej „Persona”: robisz własnego „prowadzącego” i jedziesz seriami. Bardzo pod shorty, reklamy, szkolenia. (HeyGen – Avatars), (HeyGen – August 2025 release)
Synthesia AI avatar / e‑learning / korpo explainers Tak (głos + wideo) Tak (Custom Voices – zwykle Enterprise) Tak (Personal/Studio Avatar) Świetne do „firmowej persony” + Brand Kit; mocno „enterprise” (procesy zgód, workspace). (Custom Avatar), (Custom Voices), (Brand kits)
Colossyan AI avatar / szkolenia / prezentacje Tak (TTS + wideo) Tak (AI voice cloning) Tak (Instant Avatar / Studio Avatar) Fajny „fabrykant” powtarzalnych wideo; zastrzeżenie: sami piszą o ograniczeniach kontroli intonacji/akcentu w custom voice. (Custom Avatars), (AI voice cloning)
D‑ID Talking head z foto/wideo Tak (TTS lub upload audio) Tak (voice cloning / własne audio) Tak (personal avatars) Szybko odpalisz „gadające ujęcia”. Dobry do prostych komunikatów, FAQ, kampanii, lokalizacji. (Personal Avatars), (Creative Reality Studio)
DeepBrain AI Studios AI avatar / studio do filmów z prezenterem Tak Tak (Voice Clone) Tak (Custom Avatar) Typowy „persona factory”: robisz avatar + voice clone i tworzysz seryjnie. API też jest. (Custom Avatar – help), (Voice clone – help)
Tavus Real‑time „video agent” / digital twin (API) Tak (real‑time rozmowa, lip‑sync) Tak (BYO TTS + voice clone; integracje) Tak (replica/digital twin) To jest „persona” w wersji hard: nie tylko klipy, ale rozmowny agent wideo (WebRTC). Dla devów/produktów, nie tylko twórców. (Intro to CVI), (Video Agents)
CapCut (AI Avatar + voice) Edytor + AI (social/shorts) Tak (voiceover + avatar, montaż) Tak (klonowanie głośu w ekosystemie) Tak (avatar z biblioteki / z materiału) Jeśli robisz masowo shorty i chcesz to mieć w jednym edytorze (bez kombinowania w Premiere). (AI Avatar), (Text to Speech)
ElevenLabs (wideo beta) Audio‑first + lip‑sync / wideo (beta) Tak (głos + lip‑sync/klip) Tak (głosy to core platformy) Częściowo (bardziej „scena/klip” niż stała postać) Naturalny wybór, jeśli chcesz zaczynać od głosu. Wideo wygląda na świeże/betowe – traktuj jak „w trakcie dojrzewania”. (demo wideo)
Runway (Gen + Lip Sync) Wideo gen + osobne audio/lip‑sync „Tak”, ale często jako osobny krok (Lip Sync / TTS) Tak (custom voices w audio) Nie jako „persona” (bardziej assety + workflow) Dobry „kombajn” do montażu/generacji, ale persona w sensie: stała postać+głos w jednym kliknięciu – mniej. (Lip Sync), (Generate Speech)
OpenAI Sora 2 „Filmowe” generowanie wideo Tak (audio w MP4) Nie jako stały voice ID (audio jest generowane, kontrola promptem) Częściowo (app ma mechanikę „characters/cameo”, ale to nie jest typowy voice-clone-workflow) Najlepsze do „wow” klipów z dźwiękiem. Do stałej persony zwykle i tak kończy się podmianą VO z ElevenLabs itp. (OpenAI – video generation), (Getting started – Sora app)
Google Veo 3.1 „Filmowe” generowanie wideo Tak (dialogi/SFX/ambient) Nie w sensie klonowania głośu; kontrola promptem Częściowo (reference images/ingredients pomagają trzymać postać) Mocne audio + obraz. Ale „persona” (głos) trzeba sobie domknąć zewnętrznym TTS/voice clone. (Gemini API – Veo video docs), (Google Cloud – prompting guide)
Kling 2.6 „Filmowe” generowanie wideo Tak (simultaneous audio‑visual generation) Nie jako trwały klon głosu Raczej prompt + referencje (zależnie od platformy) Natywny audio+video „w jednym strzale” (dialogi, SFX), ale bez wygodnego „zapisanego voice ID”. (PR Newswire – Kling 2.6 audio‑visual)
Luma Dream Machine (Ray2) Wideo gen + audio (zależnie od modelu) Tak (Ray2 / Ray2 Flash), ale nie Ray3 Nie Nie jako persona Jeśli chcesz szybko dorzucić tło audio do klipu; nie do „stałego bohatera + stały głos”. (Ray2 guide/FAQ), (Support & pricing)
Adobe Firefly (partner models + audio tools) Suite (video + soundtrack/speech/SFX) Tak (albo przez modele partnerów, albo przez moduły audio) Raczej nie „persona” (bardziej generowanie speech/soundtrack) Nie (to nie jest platforma od stałych avatarów) Dobre, jeśli chcesz pipeline „w jednym miejscu”: klipy + soundtrack + VO + edycja na timeline. (Generate videos – help), (Partner models – help)


### Szybka rekomendacja „co wybrać” pod Twoje potrzeby
- Chcę stałą personę (postać + głos) i robię serię filmów z prezenterem → HeyGen / Synthesia / Colossyan / DeepBrain / D‑ID.
- Chcę interaktywnego „gadającego człowieka” w produkcie (web/app) → Tavus.
- Chcę filmowe generowanie (sceny) + audio → Sora 2 / Veo 3.1 / Kling 2.6, ale do „stałego głosu” zwykle i tak dochodzi zewnętrzny voice clone (ElevenLabs/Runway/etc.).

Jeśli podasz 2 rzeczy:
1) czy chodzi Ci o talking head / prezenter czy o filmowe sceny,
2) czy to ma być po polsku i jak bardzo zależy Ci na „tym samym głosie 1:1”,
to zawężę do 2–3 narzędzi i podam sensowny workflow (najmniej tarcia, najmniej kosztów).


gpt-5.2-2025-12-11

Opublikowano

@Áltair no zasadniczo zrobił całkiem niezłe podsumowanie możliwości poszczególnych modeli. Z większości korzystałem na własną rękę z ciekawości jakiś czas temu, ale nie wiem jak się rozwinęły w ciągu ostatnich miesięcy czy nawet roku. 

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
  • Ostatnio przeglądający   1 użytkownik


×
×
  • Dodaj nową pozycję...