1. Мы открыли доступ к ранее скрытому контенту.

    Вам доступно более 44 000 видео уроков, книг и программ без VIP статуса. Более подробно ЗДЕСЬ.
    Скрыть объявление

Активно [OTUS] Pазработчик BigData. Часть 2 из 5

Тема в разделе "Программирование", создана пользователем Солнышко, 31 май 2018.

0/5, Голосов: 0

Метки:
Этап:
Набор участников
Цена:
10500.00 руб.
Участников:
0 из 35
Организатор:
требуется
0%
Расчетный взнос:
330 руб.
  • (Записывайтесь, чем больше участников, тем меньше расчетный взнос)

  1. Солнышко

    Солнышко Администратор Команда форума

    Сообщения:
    57.895
    Симпатии:
    143.124
    Складчина только для участвовавших в предыдущих частях!
    [​IMG]

    [​IMG]
    [​IMG]

    Программа курса:
    Для разработки в области анализа данных необходимо понимать, как устроены основные алгоритмы, какая у них сложность и скорость работы, сколько требуется ресурсов для их успешной работы, область применимости.В первом модуле программы разбираются все базовые алгоритмы машинного обучения. Изучение проходит на сгенерированных данных, не требующих времени на преобразование и доработку. Разъясняется значение и влияние параметров алгоритмов на результат. Каждый этап обучения сопровождается наглядной визуализацией.Будут рассмотрены алгоритмы: линейная регрессия, логистическая регрессия, деревья решений, knn, SVM, k-means, EM, иерархическая кластеризация, DBScanВ результате слушатели уверенно освоят базовые алгоритмы анализа данных и инструменты для базового анализа данных на Python

    Занятие 1: Базовые инструменты анализа данных в Python.

    Подготовка к курсу. Git, окружение Python. Обзор курса.
    Введение в Python, Numpy, Pandas, Sklearn. API Sklearn.
    Что такое DS, ML, классы решаемых задач.
    ДЗ
    Реализация библиотеки. Реализация библиотеки для подсчета статистик и преобразования датасетов в формате csv. Отработка инструментов для преобразования данных в pandas и sklearn.

    Занятие 2: Вводная в математические операции.
    Интеграл, производная, их свойства, вероятность, плотность вероятности, мат.ожидание, дисперсия, ковариация, матричные вычисления, определитель, обратная матрица и т.п.

    Занятие 3: Визуализация
    Визуализация на matplotlib, seaborn, plotly
    ДЗ
    Построение визуализаций по данным

    Занятие 4: Линейная регрессия
    Математика линейной регрессии. Проблема многомерных пространств и переобучения на примере регрессии. Проблема разреженных данных. Регуляризация.
    Простая линейная регрессия на Python. Оценка качества регресcии. Проверка точности модели: обучающая и тестовая выборки. Обучающая и тестовая выборка, кросс-валидация.

    Занятие 5: Логистическая регрессия
    Математика логистической регрессии. Мультиклассовая регрессия. Оценка качества логистической регрессии.
    Теория вероятностей: условные вероятности, теорема Байеса.
    Обучение регрессии, градиентный спуск. Регуляризация: L1, L2.
    ДЗ
    Реализация алгоритма логистической регрессии. Реализация алгоритма логистической регрессии на простых данных. Оценка качества, подбор параметров модели.

    Занятие 6: KNN, наивный байес
    Метрики и расстояния между объектами: евклидова и другие.
    Обучение модели kNN. Ограничения.
    Метрики качества: accuracy, precision, recall, др.
    Алгоритм наивного байеса. Байесовский классификатор, Принцип Maximum A-Posteriori

    Занятие 7: kMeans, EM
    Обучение без учителя. Алгоритмы кластеризации, области применения. k-means. Оценка качества обучения, ограничения и подбор алгоритма для задачи.
    Байесов подход к вероятности. Алгоритмы с lower-bound. Em алгоритм.
    ДЗ
    Реализация EM-алгоритма. Реализация EM-алгоритма на простых данных. Оценка качества кластеризации.

    Занятие 8: Иерархическая кластеризация, DB-Scan
    Иерархическая кластеризация, DB-Scan. Optics. Спектральная кластеризация.
    От сгенерированных данных переходим к данным в табличном виде. Такие данные встречаются в конкурсах по анализу данных, а также могут быть собраны, например, напрямую из баз данных. Для применения алгоритмов машинного обучения обычно такие данные требуют дополнительных преобразований.Во втором модуле рассматриваются задачи преобразования и отбора признаков, вопросы подготовки данных для использования в машинном обучении.Также будут рассмотрены более сложные алгоритмы в анализе данных - понижение размерности, определение выбросов в данных, построение ансамблей моделей.

    Занятие 9: Feature engineering

    Feature engineering. Статистический анализ данных, выбор фич на основе корреляции.
    ДЗ
    Преобразование набора данных и подбор фич.

    Занятие 10: Поиск выбросов в данных

    Занятие 11: Уменьшение размерности

    Principle component analysis, t-sne. Поиск подмножества фич (subset selection).
    ДЗ
    Применение снижения размерности для использования в модели.

    Занятие 12: Методы оптимизации
    SGD, модификации SGD

    Занятие 13: Деревья решений
    Ограничения и недостатки деревьев решений. Классификация и регрессия с помощью деревьев решений. Выбор оптимального сплита, суррогатный сплит.
    ДЗ
    Реализация алгоритма дерева решений на простых данных. Реализация некоторых эвристик в деревьях решений.

    Занятие 14: Ансамбли моделей
    Случайный лес. Обзор методов ансамблирования: бустинг, бэггинг, стекинг, случайные подпространства.

    Занятие 15: Бустинг
    Xgboost, catboost, lightgbm, Стекинг, блендинг
    ДЗ
    Применение бустинга для построения лучшей модели.

    Занятие 16: SVM, Support vector machine
    Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.
    Чаще всего в окружении, в котором приходится работать, данные не готовы для анализа, у них произвольный формат и много ошибок. Например, это данные из баз знаний, открытых API, данные из различных информационных систем партнеров.В третьем модуле рассматриваются вопросы сбора и очистки данных, разбираются типичные задачи бизнеса. Например, это предсказание ctr, ltv. Дополнительно рассмотрим специальные алгоритмы анализа данных - это работа с временными рядами, рекомендательными системами, текстами, графами.

    Занятие 17: Анализ текстовых данных

    Сбор данных из открытых источников. Очистка данных, подготовка данных для анализа.Задача обработки текста. Введение, обзор задач, токенизация, лемматизация. Python + sklearn для обработки текстов. Понятие мешка слов, TF.IDF и когда они могут быть нужны, feature selection для NLP.
    ДЗ
    Реализация процесса сбора данных через API. Преобразование текста, подготовка текста для анализа. Применение машинного обучения для предсказания характеристики в собранных данных

    Занятие 18: Анализ текстовых данных
    Выделение объектов в тексте (named entity recognition, named entity linking)
    Неструктурированные данные. Структурированные данные. Сбор текстов (scraping)
    Word2vec для извлечения похожих слов, sentiment analysis

    Занятие 19: Рекомендательные системы
    Типы рекомендательных систем. Векторное пространство (тот же TF-IDF) и content-based модели, повторение стандартных метрик корреляций: Пирсон, косинусная мера, Джаккарт. Offline метрики и метрики ранжирования. Построение простой content-based модели. Item(user)-based CF. Использование CF для implicit feedback. Построение CF модели (item-based или MF)
    ДЗ
    Применение алгоритма рекомендаций для датасета фильмов.

    Занятие 20: Временные ряды
    Что такое временные ряды и простые модели построения прогнозов. Разложение временного ряда на компоненты: тренд, сезонность, цикл, ошибка. Стационарность ряда. Модели класса AR, MA, ARMA, ARIMA. Построение прогноза на примере данных. Модели ARIFMA. Нелинейные модели, библиотека Prophet от Facebook. Векторные модели

    Занятие 21: Latent Dirichlet Allocation
    ДЗ

    Применение LDA для категоризации текстов.

    Занятие 22: Алгоритмы на графах
    Социальные сети

    Занятие 23: Нейронные сети, обучение нейронных сетей
    Основы: перцептрон и синапсы, функция активации, примеры задач. Обучение: функция потерь, обратное распространение ошибки, стохастический градиент.
    ДЗ
    Реализация алгоритма обратного распространения ошибки и применение простой сети на mnist.

    Занятие 24: Сверточный слои, каскады, визуализация признаков
    Сверточный слои, каскады, визуализация признаков. Нормализация и регуляризация: batchnorm, dropout. Архитектуры нейросетей: обзор архитектур AlexNet, ResNet, GoogLenet.
    Большую часть времени любого разработчика процессов анализа данных занимает разработка самого процесса по преобразованию данных на разных этапах. Предполагаются этапы сбора, очистки, агрегации данных, построения модели и предсказания характеристик.
    В четвертом модуле рассматриваются возможности построения надежных процессов преобразования данных.В более крупных компаниях данные превышают возможности одной типичной разработческой машины. Появляется потребность работы с алгоритмами, обрабатывающими данные в потоке, а также с кластером.
    В четвертом модуле разбираются процессы преобразования данных, слои данных, потоки данных и различные способы хранения и преобразования таких данных на кластере. Разберем возможности построения моделей на кластере. К концу модуля слушатели смогут уверенно использовать стек технологий Hadoop: писать задачи на MapReduce с использованием Java или Hadoop Streaming, использовать Hive и Spark для быстрого преобразования данных, расчета статистик, построения моделей на кластере.

    Занятие 25: Процесс CRISP-DM. Выбор хранилища, запросы к базе (Реляционная, нереляционная). Большие данные и параллельные вычисления.

    Кластер, hdfs, запросы к hdfs. Map Reduce, Java, Python, Необходимость в кластерных вычислениях. Парадигма MapReduce. Инструменты работы с большими данными. Hadoop, Spark, обзор других компонентов экосистемы. Развертывание кластера Hadoop локально для выполнения учебных примеров. Выполнение учебных примеров на кластере.
    ДЗ
    Настройка окружения для локальной работы с кластером. Выполнение на локальном кластере набора учебных задач.

    Занятие 26: Vowpal Wabbit для обучения линейных моделей на одной машине

    Занятие 27: MapReduce на Java, Hadoop Streaming - MapReduce на Python, bash
    ДЗ

    Реализация алгоритма с использованием MapReduce.

    Занятие 28: Пайплайны. Способы выстроить поток задач, обеспечить выполнение. Отказоустойчивость, мониторинг.

    Занятие 29: Слои данных для оптимизации процессов использования данных. Hive.
    ДЗ

    Реализация алгоритма с использованием Hive.

    Занятие 30: Организация хранения данных для решения задач машинного обучения

    Занятие 31: Spark

    Spark как инструмент быстрого доступа к данным. Spark как инструмент для машинного обучения.
    ДЗ
    Реализация алгоритма с использованием Spark.

    Занятие 32: Обзор решений для аналитики больших данных
    Vertica, Clickhouse. Основные преимущества и недостатки, для хранения и обработки данных.
    Агрегация, управление, эксперименты, анализ, визуализация и BI
    В рамках курса предусмотрена защита проекта. Проект представляет из себя программный комплекс, решающий задачу извлечения и использования знаний из реальных данных с использованием машинного обучения. Проект готовится в течение месяца и включает в себя следующие этапы:

    - Постановка задачи.
    Предлагается самостоятельно найти предметную область и обосновать применение в ней машинного обучения
    - Разработка данных. Одно из требований к проекту
    - Использование данных из открытых источников. Необходимо разработать процесс сбора и очистки данных
    - Поиск алгоритма и модели для решения задачи. Необходимо выполнить подготовку данных, выбрать алгоритм и подобрать параметры для построения модели
    - Использование модели для достижения поставленной цели. Необходимо реализовать применение разработанной модели
    - Построение процесса. Решение задачи необходимо оформить в единый процесс по обработке данных от источника до предсказания, не требующий участия эксперта
    - Обоснование процесса

    Длительность: 5 месяцев
    Занятия: 4 часа теория + 4 часа практика
    Складчина на 2 модуль

    Скрытый контент.
    Курс "Разработчик BigData" для junior специалистов | OTUS -
     
Мы в Telegram: Сохранить в соц. сетях:
Оценить эту тему:
/5,
  1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie.
    Скрыть объявление