Skip to content

QSquirreld/requests-parser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Парсер данных с использованием requests

Программа реализует парсинг данных с сайта, с последующим выводом данных в гугл таблицы, который вместе с этим являются пользовательским интерфейсом.

Requests + Pydantic + Google API

Описание

  1. Парсер осуществляет сбор различных данных о товарах, с целью последующего использования этих данных для аналитики.

  2. Парсер имеет два режима сбора информации:

  • Поиск по словам;
  • Поиск по артикулу.
  1. Данные которые собирает парсер:
  • Артикул;
  • Бренд;
  • Наименование;
  • Цена со скидкой;
  • Базовая цена;
  • Ссылка.
  1. Интерфейс программы выстроен внутри гугл таблиц, где в одном листе задаются параметры для парсинга, а два других выводят результаты в соответствии с выбранным режимом.

  2. Лист запросов осведомляет пользователей о текущем статусе парсера и возникших ошибках.

  3. Для удобства, в результат также записывается дата сканирования и данные запроса.

Структура

  • run.py:

    • Запускает парсер, проверяет целостность размеки таблиц и считывает текущий режим сканирования.
  • parser_wb.py:

    • Содержит два класса, которые используются для разных режимов сканирования.
    • Выполняет парсинг в выбранном режиме, проверяет входящие json файлы на корректность информации.
    • Собранную информацию отправляет в гугл таблицы.
  • gtab.py:

    • Выполняет функции связанные с гугл таблицами.
    • Содержит функцию проверки целостности разметки таблиц.
    • Функции считывающие параметры запросов.
      • Флаг "Запуск" - определяет нужно ли сейчас отправить именно этот запрос;
      • Параметр "Прочитано" - определяет завершилось ли сканирование по запросу;
      • Параметр "Ссылка" - определяет запрос(параметры ключевого слова, интервала цен, бренда, продавца), который будет передан на сканирование;
      • Параметр "Количество страниц" - определяет, сколько страниц будет просканировано по запросу в режиме "Ссылка";
      • Параметр "Артикул" - определяет запрос, содержащий последовательность требуемых для сканирования артикулов.
    • Отслеживает и отображает в таблице текущие ошибки в процессах сканирования.
    • Отслеживает и отображает текущее состояние парсера.
    • Записывает полученные данные в таблицы в соответствии с выбранным режимом.
  • models.py:

    • Обеспечивает валидацию данных полученных из json'ов.

Требования

  • Код был написан на Python 3.12
  • Зависимости из файла requirements.txt

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages