[Ищу] Content Cutter

Статус
В этой теме нельзя размещать новые ответы.
Я за!
Из того, что обещалось во второй версии:
1. Синонимайзер
2. Редактор словаря синонимайзеры
3. Редактируемый словарь замены слов (собственный словарь к синонимайзеру отношения неимеет)
4. Изменена структура БД, позволяет снизить нагрузку на БД к минимуму.
5. В экспорт html добавлены новые возможности (перелинковка внутри текста, перелинковка по списку и т.д.)
6. В экспорт html добавлен smarty, благодаря чему можно создать почти любую структуру и навигацию.
7. Добавлены настройки к экспорту в текстовый формат.
8. Добавлен экспорт в Sql, можно задать свои имена полей, начало счетчика, при желании кодировку.
9. Добавлен RSS экспорт под блогораму.
10. Добавлен экспрт в свой формат, довольно гибкие настройки.
11. Экспорт под minicms
12. Оптимизация по списку кеев.
13. Улучшена работа с текстом.
14. Добавлены keywords и description.

но я лично не верю в пользу синомайзера! Качество, как правило, портится, а дубликат определяется за нефиг петь.
что надо:
1. чтоб работало с объемами в десятки тысяч страниц
2. чтоб парсило изображения/видео, если такие есть
3. чтоб импортировалось все в бд cms (и лучше бы сделалть это как-то так, чтоб без проблем привязать к другой cms)
3. пункты 5-6
 
скрипт - ***но. его можно хоть с хайдом в 1 пост выкладывать, нужен кому еще он без зенда?


идея скрипта хорошая, но в массы качественный продукт пускать нельзя. а эта ерунда пусть будет, на шоколадку с ней можно заработать :)
 
ну что , на этом и заглохло?
Хоть бы просто подправить его.ч тоб с большими объемами справлялся, и то спасибо.
 
ну что , на этом и заглохло?
Хоть бы просто подправить его.ч тоб с большими объемами справлялся, и то спасибо.

Я подозреваю, что те, кому надо было подправить - давно подправили и спокойно для себя юзают. Тот же Nou - мог это сделать, хотя, скорее всего, просто взял какие-то куски для своих скриптов.
Врятли кто-то отважится выложить в паблик, давать никто не любит, все любят только брать и желательно на халяву.
 
а нельзя ли перезалить последний достопный релиз
 
Вопрос:
Те кто тестил(работал) продолжительное количество времени скрипт - как он парсит:
а) Нормально.
б) Плохо, но достаточно небольшой ручной модерации.
в) Плохо или очень плохо.

п.с. Имею ввиду, что тестировалось именно на больших количествах сайтов.

 
а - хорошо
Вопрос:
Те кто тестил(работал) продолжительное количество времени скрипт - как он парсит:
а) Нормально.
б) Плохо, но достаточно небольшой ручной модерации.
в) Плохо или очень плохо.

п.с. Имею ввиду, что тестировалось именно на больших количествах сайтов.

*** скрытое содержание ***
 
Вопрос:
Те кто тестил(работал) продолжительное количество времени скрипт - как он парсит:
а) Нормально.
б) Плохо, но достаточно небольшой ручной модерации.
в) Плохо или очень плохо.

п.с. Имею ввиду, что тестировалось именно на больших количествах сайтов.

*** скрытое содержание ***

Парсит нормально, модерация не требуется. Скрипт втупую ищет на странице самый большой кусок текста - и вырезает его. Чтоб не парсились мелкие мусорные тексты - можно задать в параметрах парсинга минимальную длину текстового блока в символах. Всё просто и незатейливо, только с мускулем работает отвратительно. На файловые базы переводить есть ли смысл, как оно будет работать? Не проще ли будет оптимизировать работу скрипта с мускулем?
 
Пропарсил сайт с кодировкой utf-8....мдя, в админку каттера попало иероглифами....т.е. админка на ср1251, а текст, который парсился в утф. Может как-то криво базу залил...но что-то мне кажеться что там нет перекодировки текста....ну это фигня, можно с вп-импорта взять.

Сам попробовал попарсить....один мой сайт взял на ура, ничего лишнего...значит нормально в этом деле работает(все же думаю что иногда могут быть косяки(разные сайты бывают, мало ли), но это уже мелочи).


3К статей - и каттер дохнет
Мускуль или файлы...ну тут вечный спор. Мускуль вроде бы как лучше, но смотря для каких задач. Лично моё мнение, что для задач каттера лучше файлы....если уж очень большие объёмы будут....ну скажем тисяч 500...хотя нет с одного сайта это слишком. :confused:
Ну скажем - тисяч 100(все одно много,но уже ближе к реальной фантастике) то с файлами все будет ок...смотря как реализовать эти файлы. ;) К примеру если парсить сайт 1 раз(а каттер вроде бы так и сделан) - то проблем вообще не будет.

Оптимизировать наверное проще...но я наверное вообще с нуля перепишу этот каттер....благо исходники tikiwiki у меня есть.


п.с. Чего-то я загнул с 500 тисячами постов на сайте. Интересно, сколько записей на всем блоггере? :crazy:

п.п.с. ппц я слепой...прям под списком текстов есть перекодировка, ну да все равно, сначала потестирую ее, а потом подумаю, надо ли прикручивать на всяк случай от вп-импорта, там вроде бы сделано это лучше.


Добавлено:
Перевёл в нужную кодировку той кнопкой, потом еще раз запустил cron/get.php иперевел опять в ср1251.....хех, наивный :)
То что уже было в ср1251 стало непонятной формы.

Ну это так себя косяк....но тут появился вопрос - а не проще ли за первый запуск пропарсить весь сайт?
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху