Вытянуть сайт из Вебархива, как?

Статус
В этой теме нельзя размещать новые ответы.
Можно вручную просто скопировать :)
 
Ещё ОДНИН монстр - Offline EE

Недавно открыла для себя одну программу Offline Explorer Enterprise .При правильных настройках утянет всё что надо . Раньше пользовалась Teleport Pro .
 
Недавно открыла для себя одну программу Offline Explorer Enterprise .При правильных настройках утянет всё что надо . Раньше пользовалась Teleport Pro .

А может кто-то поделится шаблоном для Offline Explorer для качественного выкачивания из web архива.

Кстати, от себя еще добавлю, что для востановления старых заброшенных сайтов, частенько подходит установка старых ns серверов. Правда их не всегда просто узнать. Но для ruнета особой проблемы нет можно юзать например

для того чтобы их узнать.
 
Недавно открыла для себя одну программу Offline Explorer Enterprise .При правильных настройках утянет всё что надо . Раньше пользовалась Teleport Pro .

подскажи, а ты придумал как сделать чтобы прога не сохраняла все индексные страницы с именем default ?
 
default.html в качестве индекса лечится в .htaccess директивой:

Код:
DirectoryIndex index.html index.htm index.php default.html default.htm

Это, правда, научит только отображать сохраненное, соханять как index не научит.
 
default.html в качестве индекса лечится в .htaccess директивой:
Код:
DirectoryIndex index.html index.htm index.php default.html default.htm
Это, правда, научит только отображать сохраненное, соханять как index не научит.

нашел решение этой проблемы, написал не сложный батник который переименовывает во всех папках имя файла
 
Человек каторый создал очень известный плагин feedmaster счас еще и выпустил скрипт каторый грабит arhive.org. Счас сайт Для просмотра ссылки Войди или Зарегистрируйся поэтому полную ссылочку на скрипт дать не могу. :(
 
Собственно пишу сам грабилку сайтов с Веб.архива, на php.

Есть несколько моментов:
1) Не все страницы сохранены а архиве
2) Есть несколько копий (разные по времени) одной и той же страницы
3) Некоторые элементы страницы могут отсутствовать (например картинки или подключаемый файл css)
4) Внутри html файлов есть две вставки, которые надо убирать (HEAD вверху, JavaScript внизу) И еще вставки со ссылкой на вебархив, их несколько.

Теперь о том как это должно работать на новом серваке
Как бы там ни было, с веб архива удастся стащить только статику. Восстановить с веб архива все как было в движке CMS или движке Форума получится только руками. Никакая восстанавливалка не будет укладывать данные в базу mysql.

Так вот, есть разные запросы к серваку и сервак что то возвращает. Например:
а) Для просмотра ссылки Войди или Зарегистрируйся
б) Для просмотра ссылки Войди или Зарегистрируйся
в) Для просмотра ссылки Войди или Зарегистрируйся

Контент возвращаемый серваком может быть разным внутри: html css картинки pdf xml и т.д.

Сначала я возился с сайтом у которого не было страниц с передачей параметра скрипту, было как (б). Восстанавливал структуру папок внутрь сохранял контент в index.html - все получилось.

На других сайтах увидел что ссылки типа (а) и (в) возвращают все что угодно. По совету решил переделать: сохранять контент в файлы со случайными именами, хранить в таблице пару: ссылка - файл, и через htaccess прописать чтобы все запросы шли через index.php.

Этот index.php обращается в таблицу ищет ссылку и отдает соответствующее ей содержимое файла.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху