Мы начнем наше погружение в современный мир аналитических хранилищ данных с Amazon Redshift. Этот продует появился в 2012 году и породил целую индустрию облачных продуктов и решений. Сам по себе Redshift прост и удобен, и если вы в облаке AWS, то скорей всего вы будете использовать Amazon Redshift. Я использовал его много раз на различных проектав в Амазоне и за пределами, и он никогда не подводил. С развитием другой облачной DW, в последние годы, Redshift получил много новых фич, такие как ML, разделение storage&compute, и многое другое. Из видео вы узнаете: В чем заключается роль Инженера Данных В чем заключается роль BI инженера История Amazon Redshift S curve в технологическом прогрессе Решение по аналитики мобильного приложения на Amazon Redshift Решения миграции с Oracle DW на Amazon Redshift в Амазоне Дизайн таблиц и оптимизация производительности в Amazon Redshift Способы загрузки данных в Amazon Redshift (COPY, Bulk Insert, Row Insert) Работа с ETL или ELT для Amazon Redshift Утилиты для адмиинстрирования и мониторинга Amazon Redshift Встроенный ML для Amazon Redshift Про главный недостаток Amazon Redshift - колличество одновременных сессий Про Хранилище данных Амазон Алекса и трудности масштабирования Несколько примеров архитектуры из индустрии На лабораторной работе вам нужно будет: Создать свой кластер Amazon Redshift Настроить сетевой доступ к нему и подключиться SQL Client - DBeaver Сгенерировать данные утилитой TPC, той самой, которую используют для benchmarking все вендоры баз данных Загрузить данные с использование COPY и манифеста Оптимизировать таблицы и запросы с использование функционала Redshift - Distribution, Sort, Compression и Encoding Так же, вы легко можете запустить другую виртуальную мащину и установить на нее Tableau Server и/или ETL решение. Или вы можете подключить свои решения с локальной машины. Вы можете загрузить данные superstore и построить модель данных, как было в модуле 4. Возможности безграничны, все в ваших руках, и главное ничего нового! ========================================= В 6 модуле мы узнаем про аналитические и облачные хранилища данных которые используются в индустрии. Крупные компания Amazon, Microsoft, Airbnb, и многие другие из списка SP500 используют одну или сразу несколько решений для аналитических хранилищ данных - Amazon Redshift, Microsoft Synapse, Google BigQuery или Snowflake. Но кроме облачных хранилищ есть еще много on-premise Teradata, Greenplum, Vertica, Exasol и тп. Из модуля вы узнаете: Основы аналитических хранилищ данных MPP vs SMP Практика с Redshift, Snowflake и Azure Synapse Облачные ETL инструменты Обзор вакансий мирового рынка Обзор решений для операционной аналитики - Splunk, Azure Data Explorer и ElasticSearch Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки! Записывайтесь и проходите курс Инженера Данных. КУРС БЕСПЛАТНЫЙ! Записаться вы можете на нашем портале
Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса. Самые актуальные новости про аналитику в Telegram канале: