В задачах машинного обучения мы начинаем с небольших объемов табличных данных. С ними отлично справляется библиотека pandas, предоставляя API, к которому привыкли все, кто занимается ML. Но наступает момент, когда данных становится больше. Они всё еще влезают в память ноутбука (например, в 32 Гб), но время их обработки в pandas уже не устраивает. Тогда на помощь приходит параллельная обработка через multiprocessing напрямую или pandarallel. И мы всё еще работаем с pandas API.
Время идет, и набор данных для нашей задачи уже не влезает в память ноутбука, однако еще помещается на жестком диске. И здесь на помощь приходит dask, который предоставляет pandas-like API и возможности по обработке данных с диска.
«MLOps» - https://otus.pw/G2tP/
Преподаватель: Павел Филонов - Ex-Data Science Manager в Kaspersky
Подключайтесь к обсуждению в чате - https://otus.pw/5Jsk/
Пройдите опрос по итогам мероприятия - https://otus.pw/7qav/
Следите за новостями проекта:
- Telegram: https://t.me/Otusjava
- ВКонтакте: https://otus.pw/850t
- LinkedIn: https://otus.pw/yQwQ/
- Хабр: https://otus.pw/S0nM/
Время идет, и набор данных для нашей задачи уже не влезает в память ноутбука, однако еще помещается на жестком диске. И здесь на помощь приходит dask, который предоставляет pandas-like API и возможности по обработке данных с диска.
«MLOps» - https://otus.pw/G2tP/
Преподаватель: Павел Филонов - Ex-Data Science Manager в Kaspersky
Подключайтесь к обсуждению в чате - https://otus.pw/5Jsk/
Пройдите опрос по итогам мероприятия - https://otus.pw/7qav/
Следите за новостями проекта:
- Telegram: https://t.me/Otusjava
- ВКонтакте: https://otus.pw/850t
- LinkedIn: https://otus.pw/yQwQ/
- Хабр: https://otus.pw/S0nM/
- Категория
- Кредит наличными
Комментариев нет.









