Учебный центр IBS

EAS-028 Машинное обучение для анализа естественного языка (NLP)

Начало: По мере набора группы
Длительность: 1 неделя
СертификатОнлайн

Описание курса

Практический курс по обработке текстов методами машинного обучения. Участники узнают и разберутся с тем, для каких задач применяется машинное обучение, как правильно ставить задачи, собирать и готовить данные, как работать с признаками, как оценивать качество результата. В курсе рассмотрены различные методы предобработки текстов, векторные представления слов и их использование для классификации и других задач. Участники изучат методы разметки текстов, извлечения именованных сущностей и снижения размерности. Отдельное внимание будет уделено предобученным языковым моделям, таким как BERT и GPT, и их применению для работы с текстовыми данными.

  • Задачи машинного обучения.
  • Базовые библиотеки для машинного обучения:
    • Pandas.
    • Scikit-learn.
    • Matplotlib.
  • Признаки и работа с ними.
  • Валидация данных и оценка качества алгоритмов.
  • Функции потерь, метрики качества.
  • Разделение набора данных.
  • Кросс-валидация.
  • Практика: Предобработка и визуализация данных, классические модели ML. [Теория — 2 часа, практика + демо — 2 часа, д/з — 1,5 часа]

  • Задачи обработки текстов.
  • Методы предобработки и выделения признаков в анализе текстов.
  • Предобработка текстов:
    • “Мешок слов”.
    • TF-IDF.
    • Регулярные выражения.
    • Сегментация.
    • Лемматизация.
    • Стоп-слова.
    • Части речи.
  • Простые векторные представления слов:
    • One-hot векторы.
    • SVD.
    • Hashing Trick.
  • Библиотеки:
    • NLTK.
    • gensim.
    • SpaCy.
    • Yargy.
  • Практика: Предобработка текстов. [Теория — 1 час, практика + демо — 3 часа, д/з — 1 час]

  • Обучаемые векторные представления слов:
    • word2vec (CBOW, SkipGram).
    • GloVe.
    • fastText.
  • Методы обучения и донастройки неглубоких эмбеддингов.
  • Использование неглубоких эмбеддингов для классификации.
  • Практика: Использование word2vec и fastText. [Теория — 1 час, практика + демо — 3 часа]

  • Архитектура и применение сверточных нейронных сетей для задач классификации.
  • Разметка последовательностей:
    • Скрытые марковские модели.
    • Рекуррентные сети.
  • Сети:
    • RNN.
    • LSTM.
    • GRU.
  • Извлечение именованных сущностей.
  • Практика: Использование CNN и LSTM. [Теория — 1 час, практика + демо — 3 часа, д/з — 3 часа]

  • Извлечение ключевых слов.
  • Суммаризация текстов.
  • Тематическое моделирование:
    • PLSA.
    • LDA.
    • ARTM.
  • Практика: Использование BigARTM. [Теория — 1 час, практика + демо — 3 часа, д/з — 2 часа]

  • Архитектура трансформеров, механизмы внимания.
  • Энкодерные архитектуры:
    • ELMo.
    • BERT.
    • RuBERT.
  • Декодерные архитектуры:
    • GPT2.
    • GPT3.
    • RuGPT.
  • XLNet.
  • Мультиязычные модели.
  • Практика: Использование BERT, RuGPT. [Теория — 1 час, демо — 3 часа, д/з — 1,5 часа]

Отзывы о курсе

Отзывов пока нет
Будьте первым, напишите отзыв и поставьте оценку этому курсу.