-
Postów
5 -
Dołączył
-
Ostatnia wizyta
Osiągnięcia WebCM
Nowy (1/5)
2
Reputacja
-
📝 Instrukcja wykonywania kopii zapasowej tematów z Forum PCLab.pl
WebCM odpowiedział(a) na Filip454 temat w Dyskusje na tematy różne
HTTrack jest o tyle fajny, że kopiuje witrynę dokładnie tak, jak wygląda i zapisuje także zewnętrzne obrazki. Można potem wygodnie przeglądać całe forum offline. Jak się przygotować: szybkie łącze dużo miejsca na dysku (2 TB lub więcej) lub: dysk zewnętrzny (zalecana opcja) domowy serwer NAS WinHTTrack Do programu jest dołączona instrukcja - po uruchomieniu wciskamy F1. Klikamy pierwszy link pod "How to use". Bardzo fajny jest też rozdział "How not to use", czyli czego nie robić. Wszystko jest po angielsku, a kto nie umie angielskiego, to niżej w tym wątku będzie opis po polsku. Po uruchomieniu programu klikamy Dalej i pojawia nam się ekran, w którym podajemy: nazwę projektu (jeśli zaczęliśmy już robić kopię, to wybieramy nasz projekt z listy) kategorię projektu - można wpisać cokolwiek (np. Forum) Klikamy Dalej i musimy wybrać sposób działania programu. Nas będą interesować dwie opcje: Pobierz stronę(y) Web - jeśli zaczynamy tworzyć lustro lub aby stworzyć je od nowa Wznów tworzenie lustra - jeśli przerwaliśmy tworzenie kopii i chcemy kontynuować Podajemy adres lub adresy URL, które chcemy skopiować, w tym przypadku forum PCLab. Klikamy "Ustaw opcje", bo trzeba dodać wyłączenia. Jak widać na zrzucie ekranu, w zakładce Filtry są wyjątki, gdzie robot ma się nie zapuszczać. Nie mam gotowej listy i być może takie latają po sieci dla każdego silnika forum. Trzeba ręcznie wejść na stronę i poszukać linków, których bot nie powinien klikać. Cel jest taki, aby nie ściągać wiele razy tych samych tematów lub zignorować niektóre podstrony. Nawet bez tych wyjątków HTTrack powinien poradzić sobie z forami na silniku Invision Community, ale na innych silnikach się zapętlał. Jeśli zaobserwujecie taką sytuację, że ciągle ściągane są te same podstrony, bo mają różne URL-e, to przerwijcie kopiowanie i dodajcie kolejne filtry. W kolejnej zakładce Ograniczenia możemy ograniczyć: głębokość - zostawiamy puste pole głębokość zewnętrzna - wpisujemy 0 pozostałe pola zostawiamy puste Forum nie miało ograniczenia ilość zapytań / IP, ale są strony, co używają WAF, np. Cloudflare i jak będziecie walić zbyt szybko, to wyświetli się captcha lub serwer zablokuje wasz IP. Może też wykryć zautomatyzowany ruch przez analizę zachowań. Wtedy warto ograniczyć częstotliwość. W zakładce Kontrola przepływu N# połączeń ustawiamy na 10 lub więcej, jeśli zależy nam na czasie. W zakładce Łącza zaznaczamy pierwszą opcję. Interesująca jest też ostatnia opcja. Nie zaleca się jej włączać, bo jeśli nie zdążymy wykonać kopii wszystkich plików HTML, to nie będziemy mieć żadnych obrazków, stylów, tak że strona się posypie po otwarciu offline. Pobierajmy wszystko od razu. W zakładce Struktura możemy pozostawić wszystkie opcje wyłączone. Opis: Bez stron z błędami - jeśli jakiś link prowadzi do nieistniejącej strony lub serwer zwróci kod błędu, np. 404 Not Found, to HTTrack nie stworzy dedykowanej strony z ostrzeżeniem Bez stron zewnętrznych - dla wszystkich linków zewnętrznych, które nie zostaną zarchiwizowane, HTTrack stworzy stronę z ostrzeżeniem, że należy przełączyć się w tryb online Schowaj paski zapytań - nie dołącza parametrów po pytajniku do nazw plików, bo starsze przeglądarki mają problem z otwieraniem takich plików - w przypadku PCLaba można włączyć (zaznaczyć ptaszka), bo Invision Community używa tzw. przyjaznych adresów (mod_rewrite) Nazwy ISO9660 - jeśli chcemy wypalić kopię na CD Nazwy DOS-owe - relikt przeszłości W zakładce Poszukiwacz (Pająk) zaznaczamy opcje jak na zrzucie ekranu: W zakładce ID przeglądarki warto ustawić innego user-agenta niż HTTrack. Wpisz w Google "jaki jest mój user agent" i skopiuj odpowiedź do pola "Identyfikacja". Opis opcji: Identyfikacja - jak robot się przedstawia (na zrzucie ekranu podszywamy się pod Chrome) Stopka HTML - wybieramy (none), nie chcemy wstawki "Mirrored by HTTrack" w każdym pliku Languages - zostawiamy pl, en, * Additional HTTP Headers - jeśli chcemy być zalogowani, to kopiujemy wybrane nagłówki z przeglądarki, szczególnie Cookie: (można to sprawdzić w narzędziach deweloperskich - F12 lub CTRL+SHIFT+I) Default Referrer URL - zazwyczaj nie ma potrzeby uzupełniania W zakładce Raport, indeks, cache ustawiamy wszystko jak na zrzucie ekranu. Utwórz indeks - tworzy index.html z listą pobranych witryn Utwórz bazę słów - tworzy index.txt z listą słów - tylko spowalnia pracę No i to wszystko. Klikamy OK, aby zapisać zmiany w ustawieniach. Ostatni etap to okienko jak poniżej. Kilka opcji, które mogą się niektórym przydać, w tym wyłączenie komputera po skończeniu wykonywania kopii. Klikamy Zakończ. Program rozpocznie pobieranie plików. Moment, chcesz właśnie odejść od komputera i wrócić za kilka dni? A jaką masz pewność, że wszystko dobrze ustawiłeś, że robot sobie radzi, a serwer nie blokuje możliwości wykonania kopii? Przez jakiś czas obserwuj, co się dzieje. Zwróć uwagę, czy: pająk nie zaplątuje się we własną sieć (odwiedza wielokrotnie te same strony) program nie buszuje tam, gdzie nie powinien (np. strony tylko dla zalogowanych) program nie blokuje się na czymś (np. na zewnętrznych obrazkach) Co jakiś czas obserwuj pracę programu. Otwórz kopię lokalnie i sprawdź: czy da się przechodzić między podstronami czy linki działają prawidłowo czy zewnętrzna zawartość jest osadzona Jeśli wszystko jest OK, to prawdopodobnie będziesz się cieszył kopią offline dokładnie tak jak wygląda. Szkoda, że ten poradnik nie powstał miesiąc wcześniej. Szukałem innych skryptów. HTTrack mógłby przez rok ściągać forum. Nie odpaliłem, bo kończyło się miejsce na dysku. Później zająłem się innymi tematami i totalnie zapomniałem o PCLabie. Zapuściłem dopiero dzień przed zamknięciem i HTTrack radził sobie całkiem dobrze. Inne skrypty pobierają samą treść i zapisują np. w formacie wątku na grupie dyskusyjnej. Natomiast HTTrack zapisuje witrynę w oryginale, ze wszystkimi stylami i obrazkami (nawet zewnętrznymi na innych hostingach) i potem można taką kopię przeglądać offline. Udało się przez noc zedrzeć 2 GB, niestety tylko pojedyncze strony wątków z pierwszych stron, a dużo było tematów do zachowania. Możecie bić. Próbuję dotrzeć do osób, co umiały się posługiwać tym szatańskim wynalazkiem i skopiowały większą część forum. Jeśli nie, to pozostaje nam to, co udało się w różny sposób pobrać + Internet Archive. Edit: Dużo osób stwierdziło, że całego forum nie da się skopiować, więc odpuściło temat, ale przez miesiąc dużo by się udało skopiować. Jeśli kiedyś nastąpi podobna sytuacja (chyba nie nastąpi, bo nie znam innego dużego forum z kilkunastoletnią historią z potężną dawką wiedzy), to trzeba się dogadać, żeby jeden użytkownik kupił duży dysk i wykonał kopię, a potem jakoś będziemy sobie to przekazywać pocztą pantoflową. Koszt dużego dysku zewnętrznego to 1000 zł, co obecnie dla wielu osób nie jest dużym wydatkiem, a przyda się do archiwizacji swoich danych. Udostępnić publicznie tego raczej nie możemy, niech się jakiś prawnik wypowie, więc można to zrobić na zasadzie, że po skompletowaniu tego, co udało się nam uratować, przekażemy sobie prywatnie kopie na własny użytek. Co jeszcze można zrobić, to podpytać ChatGPT, jak do pobranego HTTrackiem fragmentu forum dołączyć wszystko, co zachowało się w archive.org i innych miejscach. Teraz nie mam na to czasu, ale jak nikt nie da rady, to po nowym roku postaram się pomóc.- 53 odpowiedzi
-
- 1
-
- archiwizacja forum pclab.pl
- archiwizacja
-
(i 7 więcej)
Oznaczone tagami:
-
Migracja użytkowników z forum PCLab (*)
WebCM odpowiedział(a) na azgan temat w Dyskusje na tematy różne
Napisali "z dniem 29 listopada", a nie "do 29 listopada", więc wszystko się zgadza. Ktoś się łudził, że nie nastąpi to w godzinach pracy korpo? Adminowi musieliby zapłacić nadgodziny, aby w nocy wyłączył forum i ustawił przekierowanie. Co masz zrobić dziś, zrób od razu i nie zostawiaj koniec. W kwestii zarchiwizowania forum zawiodłem. Niestety wpadły mi inne tematy. Pytanie, które wątki forum PCLab warto zachować dla przyszłych pokoleń i które mają wartość historyczną. Korpo przynajmniej dało miesiąc na zapisanie swoich treści, natomiast znam wiele forów, gdzie administratorzy ukrywali całe działy lub z dnia na dzień forum przestawało istnieć, puszczając wkład społeczności i prywatny czas w niebyt. Szkoda jedynie historii polskiego Internetu. Ktoś kojarzy, czy oprócz archive.org są inne strony, co archiwizują treści? Wyszukiwarki odpadają, bo od dłuższego czasu nie wykonują kopii. Może to efekt zmian w przepisach, RODO, itd. Edit: Jak ktoś robił kopię całego forum, to priv. -
Migracja użytkowników z forum PCLab (*)
WebCM odpowiedział(a) na azgan temat w Dyskusje na tematy różne
Mam 2.57 GB zapisanych i 21 049 plików, niestety zachowały się tylko tematy z pierwszych stron działów i pojedyncze strony wątków. Gdyby od razu po ogłoszeniu zapuścić HTTracka, to większą część forum udałoby się zapisać. Może komuś się udało, dlatego pytam. Przestrzeń dyskowa jest tania, załóżmy 10 TB to koszt koło 800 zł, choć i tak tyle nie udałoby się zedrzeć w miesiąc. Nie czytałem całego wątku. Sam szukałem lepszych narzędzi i wygląda na to, że HTTrack to najlepsza opcja. Chcesz zachować część Internetu dokładnie taką, jak wyglądała, ze wszystkimi stylami, z dołączonymi obrazkami i wpisami z Twittera, itd. Nie znalazłem lepszego narzędzia do tego, a sam kopiowałem już kilka forów HTTrackiem, tylko trzeba wiedzieć, co poustawiać i dodać wyjątki, żeby robot się nie zapętlił i nie indeksował wiele razy tych samych podstron. -
Migracja użytkowników z forum PCLab (*)
WebCM odpowiedział(a) na azgan temat w Dyskusje na tematy różne
Dobrze przewidziałem, że admin przyjdzie do pracy, zaparzy kawę i zrobi, co mu kazano. Wykonał ktoś pełną kopię? No nie bardzo, bo główna przekierowuje do komputerswiat.pl, a inne podstrony 404 Not Found. -
Zestaw do programowania, foto/wideo i sztucznej inteligencji
WebCM opublikował(a) temat w Zestawy komputerowe
Temat był już na forum PCLab, ale może ktoś tutaj rzuci inne spojrzenie. Potrzebuję sprzętu do: programowania (web, mobile, kontenery, emulatory, może gry) czytania, nauki, Internetu, oglądania filmów i poradników obróbki zdjęć i wideo (czasami) uczenia maszynowego (czasami) grania (sporadycznie) Oczekuję w szczególności: cichej pracy, jeśli komputer nie jest obciążony (programowanie, czytanie, pisanie, www, itd.) wsparcia sprzętowego do odtwarzania HEVC, VP10 i innych obecnie popularnych formatach płynnej pracy z edytorami wideo i zdjęć, szybkiego kodowania filmów, itd. niskiego zużycia energii (zwłaszcza gdy komputer nie jest obciążony) wysokiej bezawaryjności (rzadko zmieniam sprzęt) dobra jakość dźwięku/muzyki Rozważałem różne opcje (nowy prywatny laptop, minikomputer, stacjonarka) i zdaje się, że jednak stacjonarka jest najlepszą opcją. Rozszerzając temat, to: Programowanie Obecnie zajmuję się technologiami webowymi, a więc Dockery, wirtualizacja, płynna obsługa wielu maszyn wirtualnych (Docker pod Windą używa wirtualizacji). Chcę wejść mocniej w aplikacje mobilne. Możliwe, że zahaczę też o gry 3D i inne dziedziny. Obróbka foto/wideo Chcę mocniej wkręcić się w fotografię. Możliwe, że skuszę się na Lightroom, bo darmowe programy są toporne. Co do filmów, to też trudno powiedzieć. Darmowy DaVinci ma ograniczone funkcje i nie obsługuje Quick Sync. Próbowałem działać na lapku z Core i7 10gen, to po dodaniu efektu film tnie i nie da się odtwarzać podglądu. Kiedyś tworzyło się proxy do edycji (film w niższej rozdzielczości i mniej fps) i może to dalej jest rozwiązanie. Jeśli miałbym kupić płatny program, to wszystko jedno, jaki to będzie. Granie Nie gram w FPS-y i nie potrzebuję najwyższej rozdzielczości ani max klatek. Ale od czasu do czasu chętnie bym w coś zagrał, w jakieś klasyki. Na Sylwestra zamiast odpalać stream, to może w końcu w coś zagram. Sztuczna inteligencja To jest najważniejszy punkt. Nie wiem, czy znajdę czas na zabawy z AI i czy na domowej maszynce to ma jakikolwiek sens, jednak chciałbym spróbować. Wg mojej wiedzy to procesor powinien obsługiwać AVX-512, ale współcześnie obliczenia wykonuje się na GPU (a można na obu?). Przechodząc do podzespołów: Procesor - Intel Core Ultra czy AMD Ryzen? Większość doradza Ryzena. Do gier to najlepsza opcja. Ale do pracy i do multimediów temat się komplikuje. Ryzen zużywa mniej energii na max obciążeniu, oferując podobną wydajność. Ale przy małym obciążeniu zdecydowana przewaga na korzyść Intela. Wynika to pewnie z innej budowy, gdyż Intel ma rdzenie E (energooszczędne) i P (wydajne), a AMD ma rdzenie tego samego typu i wyższe minimalne taktowanie. Intel ma obsługę Quick Sync Video. I tu mam pytanie, czy dotyczy to tylko transkodowania, czy ten układ pomaga także w odtwarzaniu filmów. Na laptopie z Intelem 10 gen jak odtwarzam HEVC 2.7K 50fps, to odtwarzanie idzie płynnie, a komputer nie wchodzi na wyższe obroty. Nie wiem, czy to zasługa obsługi kodeku przez kartę graficzną, czy właśnie technologii Quick Sync. W moim starym laptopie takiego filmu nawet nie obejrzę, a YouTube tnie i 100% CPU. Intel ma układ NPU. Pytanie, czy obecnie jest do czegoś wykorzystywany i jak może pomóc w uczeniu maszynowym porównując do kart graficznych. Ewentualnie jak można ten układ wykorzystać w przyszłości. To jest jeden z powodów, dla którego rozważam jednak Intela. No i w końcu wg niektórych testów Intel lepiej radzi sobie w programach i w JavaScript. Rozważam tylko procesory z serii Intel Core Ultra oraz AMD Ryzen (np. 7950X3D). Czytałem wątek o procesorach Intel Core Ultra i że to jest przejściowy procek, a Intel ma zaplanowane kolejne z zupełnie inną podstawką, a kupując Ryzena będziesz mógł kupić nowy model bez wymiany połowy podzespołów. Ok, to też jest argument, ale z drugiej strony rzadko wymieniam sprzęt i raz kupiony dobry procesor powinien spełniać zadanie na długie lata. Ale trudno przewidzieć, co się wydarzy w najbliższych latach. Nie wiem, czy potrzebny mi CPU z najwyższej półki, czy bezpiecznie można zejść niżej. Bardziej chodzi o hałas, wydzielanie ciepła i zużycie energii niż o cenę. Karta graficzna Najczęściej polecane to 4070 Ti Super oraz 4080 Super (jeśli do AI, to ta druga). Inne podzespoły Z innych rzeczy to mam wątpliwości co do chłodzenia. Wiele osób przy mocnym sprzęcie odradza chłodzenie powietrzne i zaleca chłodzenie wodne. Ale raz, czy to jest 100% bezpieczne, bo jednak jakieś ryzyko jest, a po drugie to czy pompka i/lub przepływ cieczy nie hałasuje sama z siebie, nawet jeśli komputer nie jest obciążony? Cena Chciałbym się zmieścić w 10 000 zł, ale jeśli wyjdzie trochę więcej, to do zaakceptowania. Do tego monitor(y) i peryferia - też możecie polecić.-
- 1