sobota, 15 listopada 2014

Pobieranie całej strony do czytania offline

Celem jest pobranie całej strony, następnie konwertowanie plików html do plików txt, usunięcie wszystkich pustych wierszy i zapisanie w jednym wielkim pliku.

Całość rozbiła się o dwie pętle plus pobranie całe zawartości:
wget -r http://nazwa_strony.pl/
for i in $(find ./* -name index.html*); do html2text -utf8 $i > $i.txt ; done
for i in $(find ./* -name index.html.txt*); do cat $i | grep -v ^$ >> plik.txt ;done

Wget pobiera rekurencyjnie całą stronę.
Pierwsza pętla for wyszukuje wszystkie pliki index.html* i dla każdego z nich przeprowadza konwersję na plik txt (ustawiam też kodowanie utf-8).
Druga pętla wyszukuje wszystkie przerobione pliki txt, usuwa z nich puste wiersze za pomocą grep -v ^$ i przekierowuje do pliku.

Pozostaje jeszcze w notatniku zrobić zamień z powtarzających się elementów strony np. menu na nic zapisać zmiany i strona do czytania offline gotowa.

Niektóre osoby wolałby prawdopodobnie podzielić sobie zawartość strony na różne pliki, ale w tym przypadku zleceniodawca miał ściśle określone preferencje :).

Brak komentarzy:

Prześlij komentarz