Skocz do zawartości

Techniki rekonstrukcji obrazu w grach - NVIDIA DLSS, AMD FSR, Intel XeSS, Sony PSSR oraz inne


Rekomendowane odpowiedzi

Opublikowano (edytowane)

Heh, pewnie znowu jestem spóźniony z tematem lub mam błędne informacje. :E

Podłubałem trochę w temacie mieszczenia się DLSS transformer w cache. Ampere traci nawet na presecie K, mimo że używa FP16, ponieważ 4mb cache w takim rtx3070 nie pomieści transformera, a opóźnienia Vramu są wielokrotnie większe.

Aby zmieścić 4K DLSS Performance preset K potrzeba ~40mb, mniejsze rozdzielczości i tryby mieszczą się w 32mb.

 

Natomiast preset M zajmuje mniej niż 32MB przy 4K Performance, ale preset L przebija już 32mb, okolice 35-40mb..
Przy Ultra Performance preset L spada już poniżej 32mb...
Więc najpewniej tutaj leży jedna z przyczyn zalecania tych presetów do trybu Performance, a drugiego do 4K UP.
48mb ma dopiero rtx4070super oraz rtx5070...

Edit. RR dodaje jest swoje, więc ciekawe na ilu skończy się. :E Muszą dodać RR do FP8, bo inaczej dopiero 1440p DLSS Perfomance z RR ledwo nie przekracza 32mb.

Edytowane przez musichunter1x
Opublikowano

o, bardzo ciekawe.

 

Nie patrzyłem na testy 5080tki, ale ona ma 64MB. 

Może wypadki przy pracy typu -10% wydajności względem DLSS4 na 5070tkach się nie zdarzają na 5080?

 

PS. Nie wiem czy trafiłeś z dedukcją, ale ja od dawna się śmieję z pelikanów co łyknęli "przecież to jest preset do ultra performance" bo tak powiedziały ludki z Nvidii. :E

Opublikowano (edytowane)
33 minuty temu, VRman napisał(a):

PS. Nie wiem czy trafiłeś z dedukcją, ale ja od dawna się śmieję z pelikanów co łyknęli "przecież to jest preset do ultra performance" bo tak powiedziały ludki z Nvidii. :E

Poczekajmy aż dodadzą RR na FP8 to wtedy 32MB pewnie nie starczy, no chyba że w 1080p. :E 
AI coś tam plecie, że RR dla presetu K to dodatkowy koszt 10-20-30MB, oczywiście zależy od rozdzielczości. FP8 powinno obniżyć to o ~połowę i wtedy będzie działać z presetem M oraz L.

 

Dodając....

RR niby dalej działa na FP16, więc mogą zmniejszyć zużycie cache, gdy przejdą na FP8 i chyba na to czekamy?
1080p DLSS quality, preset K + RR = 28-32MB, ale może wyskoczyć poza 32MB.
1440p DLSS balance, preset M + RR = 24-28MB, quality dobija już do ~40MB

2160p DLSS performance, preset M + RR = 32-36MB, przynajmniej rtx4070 już ma 36MB :E 
To samo ale na quality  = 42-48MB

 

ALE, jeszcze inne rzeczy walczą o miejsce w L2 cache, więc dobrze mieć zapas. Ta reszta może zając 6-24MB, a może nawet więcej, bo przy natywnej pokazuje mi do ~50MB w 4k.

Więc jeśli gry już wrzucają te swoje drobnostki do cache to wtedy architektury z >=32MB zyskują i takie rtx4060ti / 5060 będą lepsze od rtx3070.

Edit... Jeszcze jedno dodając:
PS5 i PS5 Pro maja tylko 4MB cache, więc nic dziwnego że nie mogą ogarnąć lepszego skalowania w sposób nie zjadający wydajności. :boink:
Xbox Series X podobnie -5MB, Switch 2 - 4MB, więc na szeroką optymalizację do bufora trochę poczekamy...

Edytowane przez musichunter1x
Opublikowano (edytowane)
6 godzin temu, sideband napisał(a):

Dobra rada polecam dokształcić się w kwestii działania GPU i pamięci podręcznej różnych poziomów.

Niezła produkcja dyrdymałów ;)

? Jest cache na każdy SM - L1, L2 wspólny o którym pisałem i od biedy AMD dorobiło sobie "L3" - infinity cache.
Pomaga to szczególnie mocno, gdy mieszczą się małe kluczowe elementy, co skraca czas dostępu, bo Vram ma znacznie większe opóźnienia.
Skupiłem się na DLSS, ponieważ komplet danych zajmuje sporo miejsca i musi być w całości w cache, inaczej dostaje opóźnieniem z Vramu i karta czeka, choć nadal to niewiele.
Gdy załaduje pewne rzeczy do cache to nie czeka potem na dostęp do nic, dzięki niższemu opóźnieniu.

Nvidia wręcz chwali się optymalizacją DLSS, tak aby dane zmieściły się w cache...

Edit. Doprecyzuję że chodzi głównie o DLSS Transformer, ponieważ ma "całościowy" kontekst obrazu, a nie małe, najbliższe wycinki, stąd zajmuje więcej cache lub siedzi we Vram, działając wolnej przez opóźnienia.

Edytowane przez musichunter1x
Opublikowano

Nawet nie wiesz jak zbudowane jest L2 w ADA/Blackwell ;) 

Tam nie masz jednego dużego L2 tylko składa się z kawałków i jest podzielona na partycje ;) Oczywiście w starszych architekturach było to samo z z tą różnicą, że istniało bezpośrednio przywiązanie L2 do ROP i kontrolera pamięci.

GPU wykonuje równolegle wiele obliczeń jednocześnie takie rozwiązanie ma wpływ na efektywniejsze wykorzystanie GPU.

Rozmiar został dobrany tak by zwiększyć Hit rate przy konkretnych obliczeniach i poprawić działanie podsystemu pamięci. W pamięci podręcznej są tylko trzymane dane, które nie zmieściły się w L1, ale zarazem do których GPU potrzebuje częsty i szybki dostęp dlatego lądują w L2. Zwiększanie L2 w nieskończoność nic nie da ;)

Przykładowo w 5090 rzeczywista przepustowość wynosi 0.9x względem teoretycznej po przepełnieniu L2 co jest doskonałym wynikiem. Do rozmiaru L2 przepustowość wynosi ~2.2x.

  • Like 1

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.

×
×
  • Dodaj nową pozycję...