Red Hat Certified Linux Geek: Pobieranie całej strony do czytania offline

sobota, 15 listopada 2014

Pobieranie całej strony do czytania offline

Celem jest pobranie całej strony, następnie konwertowanie plików html do plików txt, usunięcie wszystkich pustych wierszy i zapisanie w jednym wielkim pliku.

Całość rozbiła się o dwie pętle plus pobranie całe zawartości:
wget -r http://nazwa_strony.pl/
for i in $(find ./* -name index.html*); do html2text -utf8 $i > $i.txt ; done
for i in $(find ./* -name index.html.txt*); do cat $i | grep -v ^$ >> plik.txt ;done

Wget pobiera rekurencyjnie całą stronę.
Pierwsza pętla for wyszukuje wszystkie pliki index.html* i dla każdego z nich przeprowadza konwersję na plik txt (ustawiam też kodowanie utf-8).
Druga pętla wyszukuje wszystkie przerobione pliki txt, usuwa z nich puste wiersze za pomocą grep -v ^$ i przekierowuje do pliku.

Pozostaje jeszcze w notatniku zrobić zamień z powtarzających się elementów strony np. menu na nic zapisać zmiany i strona do czytania offline gotowa.

Niektóre osoby wolałby prawdopodobnie podzielić sobie zawartość strony na różne pliki, ale w tym przypadku zleceniodawca miał ściśle określone preferencje :).

Red Hat Certified Linux Geek

sobota, 15 listopada 2014

Pobieranie całej strony do czytania offline

Brak komentarzy:

Prześlij komentarz