Techniki rekonstrukcji obrazu w grach - NVIDIA DLSS, AMD FSR, Intel XeSS, Sony PSSR oraz inne

Phoenix. · Czwartek o 16:56

Nie wiem dlaczego ludzie nadal mysla, ze te mody to to samo co MFG na Blackwell

skypan · Czwartek o 17:21

32 minuty temu, sideband napisał(a):

nie musi wspierać starego parcha

Parcha mówisz.

Edytowane Czwartek o 17:21 przez skypan

musichunter1x · 13 godzin temu

Heh, pewnie znowu jestem spóźniony z tematem lub mam błędne informacje.

Podłubałem trochę w temacie mieszczenia się DLSS transformer w cache. Ampere traci nawet na presecie K, mimo że używa FP16, ponieważ 4mb cache w takim rtx3070 nie pomieści transformera, a opóźnienia Vramu są wielokrotnie większe.

Aby zmieścić 4K DLSS Performance preset K potrzeba ~40mb, mniejsze rozdzielczości i tryby mieszczą się w 32mb.

Natomiast preset M zajmuje mniej niż 32MB przy 4K Performance, ale preset L przebija już 32mb, okolice 35-40mb..
Przy Ultra Performance preset L spada już poniżej 32mb...
Więc najpewniej tutaj leży jedna z przyczyn zalecania tych presetów do trybu Performance, a drugiego do 4K UP.
48mb ma dopiero rtx4070super oraz rtx5070...

Edit. RR dodaje jest swoje, więc ciekawe na ilu skończy się. Muszą dodać RR do FP8, bo inaczej dopiero 1440p DLSS Perfomance z RR ledwo nie przekracza 32mb.

Edytowane 12 godzin temu przez musichunter1x

VRman · 12 godzin temu

o, bardzo ciekawe.

Nie patrzyłem na testy 5080tki, ale ona ma 64MB.

Może wypadki przy pracy typu -10% wydajności względem DLSS4 na 5070tkach się nie zdarzają na 5080?

PS. Nie wiem czy trafiłeś z dedukcją, ale ja od dawna się śmieję z pelikanów co łyknęli "przecież to jest preset do ultra performance" bo tak powiedziały ludki z Nvidii.

musichunter1x · 12 godzin temu

33 minuty temu, VRman napisał(a):

PS. Nie wiem czy trafiłeś z dedukcją, ale ja od dawna się śmieję z pelikanów co łyknęli "przecież to jest preset do ultra performance" bo tak powiedziały ludki z Nvidii.

Poczekajmy aż dodadzą RR na FP8 to wtedy 32MB pewnie nie starczy, no chyba że w 1080p.
AI coś tam plecie, że RR dla presetu K to dodatkowy koszt 10-20-30MB, oczywiście zależy od rozdzielczości. FP8 powinno obniżyć to o ~połowę i wtedy będzie działać z presetem M oraz L.

Dodając....

RR niby dalej działa na FP16, więc mogą zmniejszyć zużycie cache, gdy przejdą na FP8 i chyba na to czekamy?
1080p DLSS quality, preset K + RR = 28-32MB, ale może wyskoczyć poza 32MB.
1440p DLSS balance, preset M + RR = 24-28MB, quality dobija już do ~40MB

2160p DLSS performance, preset M + RR = 32-36MB, przynajmniej rtx4070 już ma 36MB
To samo ale na quality = 42-48MB

ALE, jeszcze inne rzeczy walczą o miejsce w L2 cache, więc dobrze mieć zapas. Ta reszta może zając 6-24MB, a może nawet więcej, bo przy natywnej pokazuje mi do ~50MB w 4k.

Więc jeśli gry już wrzucają te swoje drobnostki do cache to wtedy architektury z >=32MB zyskują i takie rtx4060ti / 5060 będą lepsze od rtx3070.

Edit... Jeszcze jedno dodając:
PS5 i PS5 Pro maja tylko 4MB cache, więc nic dziwnego że nie mogą ogarnąć lepszego skalowania w sposób nie zjadający wydajności. :boink:
Xbox Series X podobnie -5MB, Switch 2 - 4MB, więc na szeroką optymalizację do bufora trochę poczekamy...

Edytowane 12 godzin temu przez musichunter1x

sideband · 11 godzin temu

Dobra rada polecam dokształcić się w kwestii działania GPU i pamięci podręcznej różnych poziomów.

Niezła produkcja dyrdymałów

musichunter1x · 5 godzin temu

6 godzin temu, sideband napisał(a):

Dobra rada polecam dokształcić się w kwestii działania GPU i pamięci podręcznej różnych poziomów.

Niezła produkcja dyrdymałów

? Jest cache na każdy SM - L1, L2 wspólny o którym pisałem i od biedy AMD dorobiło sobie "L3" - infinity cache.
Pomaga to szczególnie mocno, gdy mieszczą się małe kluczowe elementy, co skraca czas dostępu, bo Vram ma znacznie większe opóźnienia.
Skupiłem się na DLSS, ponieważ komplet danych zajmuje sporo miejsca i musi być w całości w cache, inaczej dostaje opóźnieniem z Vramu i karta czeka, choć nadal to niewiele.
Gdy załaduje pewne rzeczy do cache to nie czeka potem na dostęp do nic, dzięki niższemu opóźnieniu.

Nvidia wręcz chwali się optymalizacją DLSS, tak aby dane zmieściły się w cache...

Edit. Doprecyzuję że chodzi głównie o DLSS Transformer, ponieważ ma "całościowy" kontekst obrazu, a nie małe, najbliższe wycinki, stąd zajmuje więcej cache lub siedzi we Vram, działając wolnej przez opóźnienia.

Edytowane 4 godziny temu przez musichunter1x

sideband · 1 godzinę temu

Nawet nie wiesz jak zbudowane jest L2 w ADA/Blackwell

Tam nie masz jednego dużego L2 tylko składa się z kawałków i jest podzielona na partycje Oczywiście w starszych architekturach było to samo z z tą różnicą, że istniało bezpośrednio przywiązanie L2 do ROP i kontrolera pamięci.

GPU wykonuje równolegle wiele obliczeń jednocześnie takie rozwiązanie ma wpływ na efektywniejsze wykorzystanie GPU.

Rozmiar został dobrany tak by zwiększyć Hit rate przy konkretnych obliczeniach i poprawić działanie podsystemu pamięci. W pamięci podręcznej są tylko trzymane dane, które nie zmieściły się w L1, ale zarazem do których GPU potrzebuje częsty i szybki dostęp dlatego lądują w L2. Zwiększanie L2 w nieskończoność nic nie da

Przykładowo w 5090 rzeczywista przepustowość wynosi 0.9x względem teoretycznej po przepełnieniu L2 co jest doskonałym wynikiem. Do rozmiaru L2 przepustowość wynosi ~2.2x.

VRman · 1 godzinę temu

O, post bez szydery, po prostu czyste info.

Można? Można!

Tak trzymać!

Zaloguj się

Techniki rekonstrukcji obrazu w grach - NVIDIA DLSS, AMD FSR, Intel XeSS, Sony PSSR oraz inne

Rekomendowane odpowiedzi

Phoenix. 5 357

Top użytkownicy w tym temacie

Popularne dni

Top użytkownicy w tym temacie

Popularne dni

Popularne posty

sideband

SebastianFM

skypan

Opublikowane grafiki

skypan 1 886

musichunter1x 1 440

VRman 3 147

musichunter1x 1 440

sideband 2 192

musichunter1x 1 440

sideband 2 192

VRman 3 147

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Zarejestruj nowe konto

Zaloguj się

Ostatnio przeglądający 0 użytkowników

sideband

SebastianFM

skypan

Popularne tematy

Najnowsze posty

Aktywni użytkownicy

ITHardware Portal

Przeglądaj

Cała aktywność