WGet — загрузка файлов по сети или пылесос для любого сайта | Сайт oleglav

Узнавайте о новых статьях по почте

WGet — загрузка файлов по сети или пылесос для любого сайта

Автор / 0 Комментариев / 2671 Просмотров / 14.12.2015

 

 

Новый надёжный способ утренней побудки: 1. Будильник устанавливаем на 07:00. 2. Форматирование жёсткого диска — на 07:03. И только попробуй проспать!
Просто шутка юмора)

[audio:http://f-bit.ru/uploads/724941.mp3]
Ссылка на файл.

Привет, друзья! Обзор из серии «а на фиг нам это нужно, лучше бы про Windows 10 рассказал» , так как неинтерактивная программа Wget горячо любимая в unix-системах совершенно не подходит для нас виндовс-форточников. Кто-нибудь помнит когда последний раз открывал интерпретатор командной строки (клавиши Win+R — в окне «выполнить» команда CMD). Сам такой. А в Linux-системах консоль — это жизнь!
 
В один солнечный, прекрасный день сдуру ума захотелось набрать «Как скачать сайт» , чтобы промониторить и в будущем поведать о программе-качалке веб-ресурсов. И откуда не возьмись появилась чудо-юдо консольная программа без каких-либо нам привычных кнопочек, ползунков, менюшек, разделов и вкладок. Набор непонятных ключей в командной строке и весь интернет «сдувается» на жёсткие диски компьютеров. Заинтересовало!
 
Сразу хочется сказать следующее — для линуксоводов качать любые файлы через wget проблем не вызывает, а вот нам «смертным» нужна адоптация, понимание того что творишь в этой «чёртовой» консоли. Например совершенно не понял как качать с торрент-трекеров и Одноклассников. Знатокам Что? Где? и Куды? есть возможность помощь нам в этом вопросе. В комментариях пишите каким—таким хитрым способом можно при помощи утилиты качать торрент файлы, буду рад любым полезным советам.
 
Скачать wget можно как с домашней страницы, так и со страницы стороннего разработчика The Moluccas. Вот ссылка. C:\Program Files создаём новую папку wget и выгружаем туда все файлы из ранее скачанного архива.

 


 

 

Копируем путь, нажав в адресной строке проводника пр.кн.мыши — копировать.

 


 

 

Далее Пуск — Компьютер — Свойства (для Windows 7) — Дополнительные параметры системы.

 


 

 

Переменные среды…

 


 

 

Находим Path и нажимаем кнопку Изменить…

 


 

 

В конце строки Значения переменной ставим точку с запятой (;) и вставляем ранее скопированный путь C:\Program Files\wget. Нажимаем кнопки OK-OK-OK (три раза).

 


 

 

Собственно на этом и вся установка утилиты. Перекур .

 

 

Открываем командную строку можно без прав админисратора администратора. Прописываем wget и нажимаем Enter. Видим что дополнительные параметры (ключи) выводятся по команде wget —help (можно wget -h). Если наберёте эту команду появиться большой набор ключей нужных при работе с утилитой.

 


 

 

А теперь о главном. Как применить пылесос для любого сайта (скачать сайт на компьютер и смотреть его потом в оффлайн режиме). На просторах YouTube мне понравились всего два ролика на эту тему. В одном предлагалась следующая команда:

 


 

 

В другом ролике вот такая:

 


 

 

После долгих часов издевательства над мозговыми клетками (уже хотел вызывать психотерапевта) «сварганил» свою оригинальную команду (возможно и неправильную, просьба не копировать) для выдувания сайта.

 


 

 

Нажимаем клавишу Enter.

 


 

 

Не советую экспериментировать на моём сайте, так как он немаленький и будете качать часа три. Тренируйтесь сперва на простых интернет-ресурсах.

 

-r Ходим по ссылкам (рекурсивное скачивание)
-k Преобразовываем ссылки к локальному виду
-p Указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.).
-l (level) позволяет указать насколько «глубоко» программа должна следовать по ссылкам; 0 — бесконечно глубоко, по умолчанию установлено 5
-nc При использовании этого параметра существующие файлы не будут перезаписаны. Это удобно, когда нужно продолжить загрузку сайта, прерванную в предыдущий раз
-np Не подниматься выше начального адреса при рекурсивной загрузке
—m Зеркалирование сайта. Удобно при обновлении ранее скачанного сайта. Вытаскивает только изменившиеся файлы
-i Загрузить URL-ы согласно локальному или внешнему файлу
-c Режим докачки. Указывает wget продолжать закачку файла. Если файл в текущей директории уже есть, на сервер будет отправлен запрос на продолжение закачки
-E Добавлять к загруженным файлам расширение .html
-P C:\Site Назначаем путь к файлам
—user-agent=»Mozilla/5.0″ Также, в ряде подобных (и не только) случаев, бывает весьма полезна опция представления wget — «User Agent». Некоторые серверы выдают требуемую информацию только для обозревателей, идентифицирующихся как «Mozilla» или Microsoft «Internet Explorer». Этот параметр позволяет обмануть такие серверы. —user-agent=»Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″ на всякий случай попросим wget прикинуться виндовым firefox’ом
—limit-rate=50k -w 3 Чтобы не создавать излишнюю нагрузку на сайт
-A.mp3 (скачать только mp3 файлы) Для этого применяется опция -A. После этой опции указывается список разрешенных для скачивания имен (точнее шаблонов имен файлов). Используется следующим образом:
-A ‘.jpg,.jpeg’ (скачать файлы с расширением jpg и jpeg)
-e robots=off Wget при рекуррентном скачивании учитывает Протокол Web-роботов, и пропускает часть файлов, запрещенных в файле robots.txt . Чтобы отключить эту функцию используется ключ «-e robots=off».

В ролике показаны дополнительные возможности по закачке музыкальных файлов из соц.сети VK, фильмов с сервиса Zona.mobi, а так же увидите как качать большой набор разных картинок со страниц любых сайтов (оптом). Мозголомам посвящается .

Помогите жертве капиталистического катаклизма. Делитесь постом в соц. сетях:

Комментарии: