Skocz do zawartości

Rekomendowane odpowiedzi

Opublikowano (edytowane)
15 godzin temu, Camis napisał(a):

Co?, moje wpisy latają mi kalafiorem, można udostępniać zezwalam. 

 

Co Ty? Chyba miałeś zły muchomor Camis :E Moim zdaniem są bardzo wartościowe ;)

 

3 godziny temu, espio napisał(a):

Pytanie, czy pobrał ktoś może narzędzie do aktualizowania Windowsa 7 od atak snajpera? Miałem to zrobić, ale zapomniałem...

Proszę, trzymaj - wraz z instrukcją. Link pochodzi z oficjalnego tematu jak coś. Nawet możesz z obrazka przepisać i sprawdzić ;)

 

https://download2443.mediafire.com/btyymmeyqu2gjwrF__4J_ehYX7VA9nhax72E1mSkDBMXz6YKheuBRFkV4GINs5UJQLPDOM4bhT7NekY_XGIuem2dfMaDXFhvWeb9tqZBq5QSfaEK_-tmxorzkoc3ypcMimMPrN1IWV3rUcjTbC-W6tnaejzFL3jq5XjPKYg1sy6b/rboz5cp9glofjd0/Windows_7_Image_Updater.7z

 

instrukcja.png

Edytowane przez Filip454
Opublikowano

HTTrack jest o tyle fajny, że kopiuje witrynę dokładnie tak, jak wygląda i zapisuje także zewnętrzne obrazki. Można potem wygodnie przeglądać całe forum offline.

 

Jak się przygotować:

  • szybkie łącze
  • dużo miejsca na dysku (2 TB lub więcej) lub:
    • dysk zewnętrzny (zalecana opcja)
    • domowy serwer NAS
  • WinHTTrack

Do programu jest dołączona instrukcja - po uruchomieniu wciskamy F1. Klikamy pierwszy link pod "How to use". Bardzo fajny jest też rozdział "How not to use", czyli czego nie robić. Wszystko jest po angielsku, a kto nie umie angielskiego, to niżej w tym wątku będzie opis po polsku.

 

help.png.b37a3aabb25b0a7d0e19a1c5d22a6f9c.png

 

Po uruchomieniu programu klikamy Dalej i pojawia nam się ekran, w którym podajemy:

  • nazwę projektu (jeśli zaczęliśmy już robić kopię, to wybieramy nasz projekt z listy)
  • kategorię projektu - można wpisać cokolwiek (np. Forum)

help2.png.670442823b28161263ac7f718cc55c4f.png

 

Klikamy Dalej i musimy wybrać sposób działania programu. Nas będą interesować dwie opcje:

  • Pobierz stronę(y) Web - jeśli zaczynamy tworzyć lustro lub aby stworzyć je od nowa
  • Wznów tworzenie lustra - jeśli przerwaliśmy tworzenie kopii i chcemy kontynuować

Podajemy adres lub adresy URL, które chcemy skopiować, w tym przypadku forum PCLab.

 

help3.png.6db1bc8b7169dba9b2d52431200a8711.png

 

Klikamy "Ustaw opcje", bo trzeba dodać wyłączenia. 

 

Jak widać na zrzucie ekranu, w zakładce Filtry są wyjątki, gdzie robot ma się nie zapuszczać. Nie mam gotowej listy i być może takie latają po sieci dla każdego silnika forum. Trzeba ręcznie wejść na stronę i poszukać linków, których bot nie powinien klikać. Cel jest taki, aby nie ściągać wiele razy tych samych tematów lub zignorować niektóre podstrony. Nawet bez tych wyjątków HTTrack powinien poradzić sobie z forami na silniku Invision Community, ale na innych silnikach się zapętlał. Jeśli zaobserwujecie taką sytuację, że ciągle ściągane są te same podstrony, bo mają różne URL-e, to przerwijcie kopiowanie i dodajcie kolejne filtry.

 

help4.png.b794d6a5e475ba01968820b19972632c.png

 

W kolejnej zakładce Ograniczenia możemy ograniczyć:

  • głębokość - zostawiamy puste pole
  • głębokość zewnętrzna - wpisujemy 0
  • pozostałe pola zostawiamy puste

Forum nie miało ograniczenia ilość zapytań / IP, ale są strony, co używają WAF, np. Cloudflare i jak będziecie walić zbyt szybko, to wyświetli się captcha lub serwer zablokuje wasz IP. Może też wykryć zautomatyzowany ruch przez analizę zachowań. Wtedy warto ograniczyć częstotliwość.

 

help5.png.ebe6a2662ac507a95ee526753e8631e1.png

 

W zakładce Kontrola przepływu N# połączeń ustawiamy na 10 lub więcej, jeśli zależy nam na czasie.

 

help6.png.b27fd16516bb26a3309845f65e6fcca6.png

 

W zakładce Łącza zaznaczamy pierwszą opcję. Interesująca jest też ostatnia opcja. Nie zaleca się jej włączać, bo jeśli nie zdążymy wykonać kopii wszystkich plików HTML, to nie będziemy mieć żadnych obrazków, stylów, tak że strona się posypie po otwarciu offline. Pobierajmy wszystko od razu.

 

help7.png.22b88261fab908756551c81b5b1fdf26.png

 

W zakładce Struktura możemy pozostawić wszystkie opcje wyłączone. Opis:

  • Bez stron z błędami - jeśli jakiś link prowadzi do nieistniejącej strony lub serwer zwróci kod błędu, np. 404 Not Found, to HTTrack nie stworzy dedykowanej strony z ostrzeżeniem
  • Bez stron zewnętrznych - dla wszystkich linków zewnętrznych, które nie zostaną zarchiwizowane, HTTrack stworzy stronę z ostrzeżeniem, że należy przełączyć się w tryb online
  • Schowaj paski zapytań - nie dołącza parametrów po pytajniku do nazw plików, bo starsze przeglądarki mają problem z otwieraniem takich plików - w przypadku PCLaba można włączyć (zaznaczyć ptaszka), bo Invision Community używa tzw. przyjaznych adresów (mod_rewrite)
  • Nazwy ISO9660 - jeśli chcemy wypalić kopię na CD
  • Nazwy DOS-owe - relikt przeszłości

help8.png.5a60f2599a3969a4aeed588217b4e3bd.png

 

W zakładce Poszukiwacz (Pająk) zaznaczamy opcje jak na zrzucie ekranu:

 

help9.png.9d467dc66351861f216a3b7840a12f77.png

 

W zakładce ID przeglądarki warto ustawić innego user-agenta niż HTTrack. Wpisz w Google "jaki jest mój user agent" i skopiuj odpowiedź do pola "Identyfikacja". Opis opcji:

  • Identyfikacja - jak robot się przedstawia (na zrzucie ekranu podszywamy się pod Chrome)
  • Stopka HTML - wybieramy (none), nie chcemy wstawki "Mirrored by HTTrack" w każdym pliku
  • Languages - zostawiamy pl, en, *
  • Additional HTTP Headers - jeśli chcemy być zalogowani, to kopiujemy wybrane nagłówki z przeglądarki, szczególnie Cookie: (można to sprawdzić w narzędziach deweloperskich - F12 lub CTRL+SHIFT+I)
  • Default Referrer URL - zazwyczaj nie ma potrzeby uzupełniania 

help10.png.5a766e638b285015edabd633ec979ff3.png

 

W zakładce Raport, indeks, cache ustawiamy wszystko jak na zrzucie ekranu.

  • Utwórz indeks - tworzy index.html z listą pobranych witryn
  • Utwórz bazę słów - tworzy index.txt z listą słów - tylko spowalnia pracę

help11.png.c0921576987fb4ee3984073cc5d3df70.png
 

No i to wszystko. Klikamy OK, aby zapisać zmiany w ustawieniach.

 

Ostatni etap to okienko jak poniżej. Kilka opcji, które mogą się niektórym przydać, w tym wyłączenie komputera po skończeniu wykonywania kopii.

 

help12.png.64de0fdb0e678cbf71bd8e46e8abc15a.png

 

Klikamy Zakończ. Program rozpocznie pobieranie plików.

 

Moment, chcesz właśnie odejść od komputera i wrócić za kilka dni? A jaką masz pewność, że wszystko dobrze ustawiłeś, że robot sobie radzi, a serwer nie blokuje możliwości wykonania kopii?

 

Przez jakiś czas obserwuj, co się dzieje. Zwróć uwagę, czy:

  • pająk nie zaplątuje się we własną sieć (odwiedza wielokrotnie te same strony)
  • program nie buszuje tam, gdzie nie powinien (np. strony tylko dla zalogowanych)
  • program nie blokuje się na czymś (np. na zewnętrznych obrazkach)

Co jakiś czas obserwuj pracę programu. Otwórz kopię lokalnie i sprawdź:

  • czy da się przechodzić między podstronami
  • czy linki działają prawidłowo
  • czy zewnętrzna zawartość jest osadzona

Jeśli wszystko jest OK, to prawdopodobnie będziesz się cieszył kopią offline dokładnie tak jak wygląda.

 

Szkoda, że ten poradnik nie powstał miesiąc wcześniej. Szukałem innych skryptów. HTTrack mógłby przez rok ściągać forum. Nie odpaliłem, bo kończyło się miejsce na dysku. Później zająłem się innymi tematami i totalnie zapomniałem o PCLabie. Zapuściłem dopiero dzień przed zamknięciem i HTTrack radził sobie całkiem dobrze. Inne skrypty pobierają samą treść i zapisują np. w formacie wątku na grupie dyskusyjnej. Natomiast HTTrack zapisuje witrynę w oryginale, ze wszystkimi stylami i obrazkami (nawet zewnętrznymi na innych hostingach) i potem można taką kopię przeglądać offline. Udało się przez noc zedrzeć 2 GB, niestety tylko pojedyncze strony wątków z pierwszych stron, a dużo było tematów do zachowania. Możecie bić. :niegrzeczny:

 

Próbuję dotrzeć do osób, co umiały się posługiwać tym szatańskim wynalazkiem i skopiowały większą część forum. Jeśli nie, to pozostaje nam to, co udało się w różny sposób pobrać + Internet Archive.

  • Upvote 1
Opublikowano (edytowane)

@WebCM, nie biję (bo nie uznaję przemocy i psychicznego znęcania się bez powodu :E), ale wielka szkoda, że nie wykorzystałeś mojej instrukcji. Zdążyłbyś bez problemu skopiować znacznie więcej.

 

@Michaelred wysyłałem proste ustawienia, na których miałbyś wszystko bez problemu - musisz tylko sam wygenerować linki. To było 27 listopada w środę. Poniżej PW wysłane do niego - wyciąłem prywatne fragmenty jak coś. Odpisałem mu lakonicznie, bo po prostu nie miałem czasu tego wszystkiego opisywać. Do tego jeszcze ustawienia nazewnictwa plików, a nie miałem już nawet siły przygotowywać całego presetu, niestety... Sam nie tworzyłem nic pod PCLab, ponieważ po prostu użyłem Monolitha.

 

obraz.thumb.png.39a4d5ab793b553c2c8a6f61348a983f.png

 

Czasem programy nie pomagają, a bardziej zwykły spryt :)

 

Te ustawienia, które zapodałeś trochę nijak mają się do realiów kopiowania forum na IPB i niestety, ale są niepoprawne - niezbyt by się komukolwiek przydały. Nikt o zdrowym rozsądku nie będzie w tak krótkim czasie używał autocrawlera, bo to strata tego czasu... Ponadto HTTrack musi być ustawiony w tryb pojedynczego HTMLa, by stworzyć cokolwiek podobnego do Monolith.

 

Ręcznie się po prostu generuje listę linków, w Notepad++ dopracowuje i jazda z tematem w Monolith CLI :)

 

Gdybym miał więcej czasu i sił, to tak naprawdę skopiowałbym wszystkie najważniejsze wątki sam z @Camis i @Dermi. Zanim zabrałem się za kopiowanie właściwe to przyszedł 28... Sam tylko się mogę winić i swój organizm, no ale co poradzę.

 

Jednak nic straconego, bo mamy chyba wszystkie kluczowe wątki z ostatnich lat, które naprawdę miały w sobie cokolwiek interesującego. Przynajmniej te "gorące". Jestem zadowolony z całego procesu. W miesiąc i tak nie ma szans skopiować całego forum.

 

Pytajcie czegokolwiek potrzebujecie, to się znajdzie... już user zapytał o jeden program użytkownika Atak Snajpera i jest bez problemu do osiągnięcia. Cały wątek z tym programem też mamy - na luzie.

 

Na koniec przypominam, że jako jedyny podzieliłeś się tak po prostu bez pytania swoim archiwum i to chciałem podkreślić. Dzięki wielkie za cegiełkę, którą dołożyłeś. Innym userom również dziękuję za chęć podzielenia się. Na razie nic nie mówiłem dokładnie w jakiej formie to się udostępni, bo sam na razie chciałbym zrobić to tak, by było dobrze i nikt za to nie poszedł do sztumu :E

Edytowane przez Filip454
  • Upvote 2

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.

×
×
  • Dodaj nową pozycję...