Рецепты веб-скрапинга Python
после оплаты (24/7)
(для всех устройств)
(в т.ч. для Apple и Android)
Интернет содержит огромное количество данных. Эти данные предоставляются как через структурированные API, так и через контент, доставляемый непосредственно через веб-сайты. Хотя данные в API хорошо структурированы, информация, содержащаяся на веб-страницах, часто неструктурирована и требует сбора, извлечения и обработки, чтобы иметь ценность. И сбор данных — это только начало пути, поскольку эти данные также необходимо хранить, анализировать, а затем предоставлять другим в форме добавленной стоимости. С помощью этой книги вы узнаете многие основные задачи, необходимые для сбора различных форм. информации с веб-сайтов. Мы расскажем, как их собирать, как выполнять несколько распространенных операций с данными (включая хранение в локальных и удаленных базах данных), как выполнять типичные задачи, связанные с мультимедиа, такие как преобразование изображений и видео в миниатюры, как очищать неструктурированные данные с помощью NTLK, как изучить несколько инструментов интеллектуального анализа и визуализации данных и, наконец, основные навыки создания парсера и API на основе микросервисов, которые могут и будут запускаться в облаке. Используя подход, основанный на рецептах, мы изучим независимые методы решения конкретных задач. задачи, связанные не только со сбором данных, но и с манипулированием данными и управлением ими, интеллектуальным анализом данных, визуализацией, микросервисами, контейнерами и облачными операциями. Эти рецепты развивают навыки прогрессивным и целостным образом, не только обучая основам парсинга, но и переходя от результатов парсинга к услуге, предлагаемой другим через облако. Мы будем создавать настоящий веб-скребок как услугу, используя общие инструменты в экосистемах Python, контейнерах и облаках. Для кого предназначена эта книгаЭта книга предназначена для тех, кто хочет научиться извлекать данные с веб-сайтов, используя процесс парсинг, а также как работать с различными инструментами управления данными и облачными сервисами. Для кодирования потребуются базовые навыки языка программирования Python. Книга также предназначена для тех, кто хочет узнать о более широкой экосистеме инструментов для извлечения, хранения и поиска данных, а также об использовании современных инструментов и библиотек Pythonic для создания API данных. и облачные сервисы. Вы также можете использовать Docker и Amazon Web Services для упаковки и развертывания парсера в облаке.
Характеристики
- Язык
- Английский