4 из 10. СистемаTabson - Создание сайтов Вебмастер
Вятские Поляны
Новости Tabson - Создание сайтов Вебмастер

Tabson - Создание сайтов Вебмастер

Создать сайт в Вятских Полянах

Получить скидку 10%

Получить скидку 10%

Что бы Получить скидку 10%, в компании: Tabson - Создание сайтов Вебмастер, введите свои данные:

жителям Кировско
Звонок Отзыв Нравиться Ссылка

Заказать обратный звонок:

Поделиться страницей

Компания: Tabson - Создание сайтов Вебмастер

Постоянная ссылка: https://webmaster.vp43.ru

Или выберите сервис:

28 Ноября 2023 в 18:11

4 из 10. Система

4 из 10. Система сбора новостей.

Отдельно хочу рассказать о системе, СМИ которую я придумал, внедрил, победил и она до сих пор работает.

Первое что я сделал это брал RSS ленты, есть такие старые штуки на сайтах и добавлял их к себе в базу данных. По этой ленте я получал: Название и ссылку на публикацию.

Вторым шагом было пройти по ссылке и забрать текст новости, все сайты разные поэтому я добавлял шаблон из какого блока на сайте брать текст.

Третий шаг собрать картинки, они живут отдельной жизнью. Поэтому я сканировал весь получаемый текст на присутствие картинок, и копировал к себе на сервер.

Таким образом у меня получилось собирать информацию с муниципальных сайтов и СМИ в одну кучку. Робот раз в час заходил на сайты и добавлял записи ко мне в базу.
Данные приходили кривые, поэтому нужно править заголовки, реформировать текст, проверять размеры картинок. Без человека не обойтись.

Четвертым этапом, когда ВКонтакте разросся, был парсинг постов из ВК. Тут система по интереснее. Есть список из каналов, который можно быстро пополнять, указав только ссылку на канал.

Пятый это настраиваем Google.Alert по ключевым словам и настраиваем там RSS ленту которую обрабатываем в первом пункте.

Что делает робот, парсер, паук, скрипт? (называйте как вам удобнее :)

Каждый час проверяет стену на новые записи сверяя с тем какие записи уже есть в системе. Когда видит новую запись копирует её к себе. И да в этот момент мы начали собирать кучу не нужных публикаций типа: С добрым утром и как дела? Но в 50% случаем контент был уместный.

Работа модератора заключалась в том, что он заходил в 8,12,16 часов в систему, где его ждало в среднем по 100 публикаций. Легким взмахом удалялось не нужные. И потом кропотливо, вычитывая заголовки и прочитывая каждую новость что бы подобрать под нее хэштеги и нажать опубликовать.

Таким образом на сайте города vp43.ru появилось 64 000 новостей. Новости дальше распространялись по социальным сетям с помощью кроспостинга.
Загрузить ещё новостей