Классический форум-трекер
canvas not supported
Нас вместе: 4 252 643

Дж. Денсмор | Конвейеры данных. Карманный справочник [2 книги] (2021, 2024) [PDF] [RU, EN]


 
 
RSS
Начать новую тему   Ответить на тему    Торрент-трекер NNM-Club -> Компьютерная литература -> Программирование
Автор Сообщение
te5670 ®
Стаж: 6 лет 2 мес.
Сообщений: 909
Ratio: 1.656
Поблагодарили: 135702
100%
Дж. Денсмор | Конвейеры данных. Карманный справочник [2 книги] (2021, 2024) [PDF]
Автор: Дж. Денсмор
Издательство: O’Reilly; АЛИСТ
ISBN: 9781492087830, 9786010925618
Жанр: Программирование
Язык: Русский, английский

Формат: PDF
Качество: Изначально электронное (ebook), Обработанный скан
Иллюстрации: Цветные и черно-белые

Описание:
Книга посвящена передовым методам построения конвейеров данных, сбору данных из множества разнообразных источников и преобразованию их для аналитики. Дано введение в конвейеры данных, раскрыта их работа в современном стеке данных. Описаны стандартные шаблоны конвейеров данных. Показан процесс сбора данных от их извлечения до загрузки в хранилище. Затронуты вопросы преобразования и проверки данных, оркестровки конвейеров, методов их обслуживания и мониторинга производительности. Примеры программ написаны на Python и SQL и задействуют множество библиотек с открытым исходным кодом.
Предисловие
Для кого эта книга
Условные обозначения, используемые в этой книге
Скачивание примеров кода
Благодарности

Глава 1. Введение в конвейеры данных
Что такое конвейеры данных?
Кто строит конвейеры данных?
Основы SQL и хранилища данных
Python и/или Java
Распределенные вычисления
Основы системного администрирования
Понимание общих целей
Зачем создавать конвейеры данных?
Как строятся конвейеры?

Глава 2. Современная инфраструктура данных
Разнообразие источников данных
Принадлежность исходной системы
Интерфейс сбора и структура данных
Объем данных
Чистота и достоверность данных
Задержка и пропускная способность исходной системы
Облачные хранилища данных и озера данных
Инструменты сбора данных
Инструменты преобразования и моделирования данных
Платформы для оркестровки рабочих процессов
Направленные ациклические графы (DAG)
Настройка вашей инфраструктуры данных

Глава 3. Стандартные шаблоны конвейеров данных
Шаблоны ETL и ELT
Преимущество ELT перед ETL
Подшаблон EtLT
ELT в анализе данных
ELT в науке о данных
ELT для информационных продуктов и машинного обучения
Этапы конвейера для машинного обучения
Включение обратной связи в конвейер
Дополнительная литература по конвейерам машинного обучения

Глава 4. Сбор данных: начнем с извлечения
Настройка среды Python
Настройка облачного хранилища файлов
Извлечение данных из БД MySQL
Полное или инкрементное извлечение таблицы MySQL
Репликация двоичного журнала данных MySQL
Извлечение данных из БД PostgreSQL
Полное или инкрементное извлечение таблицы Postgres
Репликация данных с использованием журнала упреждающих записей
Извлечение данных из MongoDB
Извлечение данных из REST API
Сбор потоковых данных с помощью Kafka и Debezium

Глава 5. Сбор данных: загрузка в хранилище
Настройка хранилища Amazon Redshift в качестве места назначения
Загрузка данных в хранилище Redshift
Инкрементные и полные загрузки
Загрузка данных, извлеченных из журнала CDC
Настройка хранилища Snowflake в качестве пункта назначения
Загрузка данных в хранилище Snowflake
Использование вашего файлового хранилища в качестве озера данных
Фреймворки с открытым исходным кодом
Коммерческие альтернативы
Глава 6. Преобразование данных
Неконтекстные преобразования
Удаление дубликатов записей в таблице
Парсинг URL-адресов
Когда лучше выполнять преобразование?
Основы моделирования данных
Ключевые термины моделирования данных
Моделирование полностью обновляемых данных
Медленно меняющиеся измерения для полностью обновленных данных
Моделирование инкрементно собираемых данных
Моделирование данных только для добавления
Моделирование данных об изменениях

Глава 7. Оркестровка конвейеров
Направленные ациклические графы
Настройка и знакомство с Apache Airflow
Установка и настройка
База данных Airflow
Веб-сервер и пользовательский интерфейс
Планировщик
Исполнители
Операторы
Создание DAG Airflow
Простой DAG
Конвейер ELT и DAG
Дополнительные задачи конвейера
Оповещения и уведомления
Проверка данных
Расширенные конфигурации оркестровки
Связанные и несвязанные задачи конвейера
Когда следует разделять DAG
Координация нескольких DAG с сенсорами
Управляемые варианты развертывания Airflow
Другие фреймворки для оркестровки

Глава 8. Проверка данных в конвейерах
Проверяйте раньше, проверяйте чаще
Качество данных исходной системы
Риски процесса сбора данных
Проверка данных с участием аналитиков
Простой фреймворк проверки данных
Простой фреймворк проверки данных
Структура проверочного теста
Запуск проверочного теста
Использование фреймворка в DAG Airflow
Когда нужно остановить конвейер, а когда предупредить и продолжить
Дополнения к фреймворку
Примеры проверок
Дубликаты записей после сбора данных
Неожиданное изменение числа строк после сбора данных
Колебания значения показателя
Коммерческие и открытые фреймворки проверки данных

Глава 9. Передовые методы обслуживания конвейеров
Как реагировать на изменения в исходных системах
Добавление абстракции
Поддержка контрактов данных
Ограничения схемы при чтении
Масштабирование сложности конвейеров
Стандартизация сбора данных
Повторное использование логики модели данных
Обеспечение целостности зависимостей

Глава 10. Измерение и мониторинг
производительности конвейера
Ключевые показатели конвейера
Подготовка хранилища данных
Структура данных
Журналирование и получение данных о производительности
Получение истории выполнения DAG из Airflow
Добавление журналирования в инструмент проверки данных
Преобразование данных о производительности
Коэффициент успешного выполнения DAG
Отслеживание времени выполнения DAG
Объем выполненных тестов и доля успешных результатов
Оркестровка конвейера производительности
DAG конвейера производительности
Раскрытие информации о производительности

Предметный указатель
Об авторе
Об изображении на обложке

Джеймс Денсмор. Конвейеры данных. Карманный справочник. Сбор и обработка данных для аналитики.
В оригинале:
Densmore James. Data Pipelines Pocket Reference: Moving and Processing Data for Analytics

Data pipelines are the foundation for success in data analytics. Moving data from numerous diverse sources and transforming it to provide context is the difference between having data and actually gaining value from it. This pocket reference defines data pipelines and explains how they work in today's modern data stack.
You'll learn common considerations and key decision points when implementing pipelines, such as batch versus streaming data ingestion and build versus buy. This book addresses the most common decisions made by data professionals and discusses foundational concepts that apply to open source frameworks, commercial products, and homegrown solutions.
You'll learn:
What a data pipeline is and how it works
How data is moved and processed on modern data infrastructure, including cloud platforms
Common tools and products used by data engineers to build pipelines
How pipelines support analytics and reporting needs
Considerations for pipeline maintenance, testing, and alerting
Скриншоты:

Время раздачи: с 10.00 до 21.00 (минимум до появления первых 3-5 скачавших)
[NNMClub.to]_Dzh. Densmor. Konveyeryi dannyih.torrent
 Торрент:   Зарегистрирован
 
Зарегистрируйтесь и скачайте торрент!
8 KB

Примагнититься
 Зарегистрирован:   15 Апр 2025 16:03:59
 Размер:   49 MB  (
 Рейтинг:   4.9 (Голосов: 44)
 Поблагодарили:   197
 Проверка:   Оформление проверено модератором 15 Апр 2025 16:33:11
Как cкачать  ·  Как раздать  ·  Правильно оформить  ·  Поднять ратио!  
Показать сообщения:   
Начать новую тему   Ответить на тему    Торрент-трекер NNM-Club -> Компьютерная литература -> Программирование Часовой пояс: GMT + 3
Страница 1 из 1