🔥 Weekly Tutorials Digest
🔘Туториал: очистка и предварительная обработка текстовых данных в Pandas для задач NLP.
В туториале приведены практические примеры операций по удалению пропущенных значений, нормализации текста, удалению шумов, токенизации, удаления стоп-слов, техники стемминга и лемматизации, преобразования текста в числовые представления с использованием TF-IDF векторизации.
🔘Статья в блоге: Марковские цепи лучше в задачах генерации юмора, чем LLM
Статья обсуждает уникальное чувство юмора, генерируемое Марковскими цепями по сравнению с крупными LLM, такими как ChatGPT.
Автор утверждает, что Марковские цепи, хотя и примитивны, могут создавать неожиданные и забавные фразы благодаря своей простоте. В отличие от них, LLM более предсказуемы и в меньшей степени подходят для создания юмора.
🔘Статья: Семь основных правил причинно-следственного инференса.
Автор подробно и лаконично рассматривает семь ключевых правил, которые помогают понять, как причинно-следственные механизмы в реальности отражаются в данных.
В статье описаны фундаментальные структуры причинных графов и продемонстрированы примеры кода на R для иллюстрации каждого правила.
🔘Практический кейс: Классификация большого набора PDF-документов.
Подробное описание процесса классификации огромного набора PDF-документов с помощью LLM – эмбеддингов и XGBoost.
Автор проводит несколько экспериментов по созданию и обучению эмбеддингов и делает акцент на сложности обработки 8,4 миллиона PDF-файлов.
@ai_machinelearning_big_data
#Tutorials #ml
View Source
Просмотры: 161