Забронировать отель или заказать пиццу через интернет стало возможным благодаря data science (наука о работе с данными. – Прим. ред.). В основе этих сервисов – тонны обработанной информации. Еще 50 лет назад такими базами данных занимались математики и статистики. Сегодня это задача программистов. Чем активнее развиваются технологии, тем больший спрос на специалистов в сфере data science.
Аналитики из Американского управления статистики утверждают: в 2021 году количество вакансий data scientist вырастет почти до 3 млн. По их подсчетам, уже сейчас такие специалисты нужны около 70% американских компаний. А в Украине за вторую половину 2020 года было опубликовано 1600 вакансий на позицию data scientist.
Редакция MC.today выяснила: кто такой data scientist, какие задачи для бизнеса он решает, где можно научиться этой профессии и сколько можно заработать.
Кто такой data scientist и с чем он работает
Data scientist – это специалист, который умеет работать с большими данными (от англ. big data. – Прим. ред.). Что такое big data? Это огромные объемы неструктурированной информации. Например, ежедневно в украинских банках совершаются миллионы операций: оплата коммунальных платежей, перевод на карту, покупка товаров. Информация об этих платежах хранится в Национальном банке Украины – это big data. Такие же базы данных собирают мобильные операторы, соцсети и поисковые сервисы.
Таким образом, big data включает в себя такие данные:
- о звонках;
- платежах;
- перемещениях;
- предпочтениях;
- погоде.
Задача data scientist – найти закономерности в этих данных и сделать на их основе выводы. Так, если правильно проанализировать все запросы интернет-магазина, можно увеличить продажи. В нужное время предложить клиенту нужный товар на нужном устройстве: рыбаку – современные удочки, а предпринимателю – новую книгу о бизнесе.
Списки любых рекомендаций – будь-то друзей или музыки – тоже результат обработки большого количества данных. Одним из первых такую модель запустил айтишник Джонатан Голдман. В 2006 году он устроился на должность аналитика по работе с базами данных в компанию LinkedIn.
Пока другие члены команды ломали голову над тем, как увеличить активность пользователей в сети, Джонатан придумал новый алгоритм. Он проанализировал данные всех зарегистрированных пользователей и спрогнозировал: вероятность того, что одни люди теоретически могут знать других, велика. Джонатан назвал алгоритм «Люди, которых вы можете знать» и убедил генерального директора использовать его в сети. В итоге по состоянию на 2020 год общее число пользователей LinkedIn достигло 675 млн, из них более 300 млн – активные.
Data scientist анализирует информацию не просто так, а чтобы на ее основе дать правдивый прогноз. Например, он может спрогнозировать эффективность рекламной кампании. Часто выводы дата-специалиста помогают в принятии решений. Например, дать клиенту банка кредит или отказать.
Кроме того, data scientist – это сотрудник, который разрабатывает решение сложных задач и может визуализировать информацию. Например, графически показать, какие платежи отклонил банк за последний год и почему.
Какие задачи бизнеса решает data scientist
У аналитика Сергея Шельпука более семи лети опыта в сфере обработки данных. Он возглавлял отделы data science в компаниях SoftServe и Eleks, а одно время даже преподавал машинное обучение и искусственный интеллект (ИИ) в одном из университетов Львова. В 2019 году Сергей запустил стартап DeepTrait: вместе с командой они разрабатывают новые методы изучения генома человека на основе ИИ. Так свои знания в data science Сергей применяет в медицине.
А вот какие задачи может решить data scientist в бизнесе:
- собрать информацию о пользователях и сгруппировать их по категориям;
- спрогнозировать, какой продукт вызовет интерес и как долго будет пользоваться спросом;
- предсказать, какое направление стоит открыть.
Стриминговый сервис Netflix начал работать с data science еще в начале 2000-х. Уже тогда зрителям предложили оценивать фильм, который они посмотрели. А потом на основе этих оценок формировали подборки фильмов для определенных категорий. И сегодня для этого Netflix собирает такие данные:
- дата и время просмотра;
- устройство, на котором посмотрели фильм;
- какой запрос вводили в поиске.
Так каждый зритель получает то, что будет интересно посмотреть именно ему. Благодаря такому подходу сегодня у Netflix более 200 млн пользователей по всему миру.
Что должен знать data scientist
Как правило, data scientist – это человек с аналитическим складом ума. Так, младший дата-специалист Елена Ивина – метролог по образованию. На протяжении 10 лет она изучала математику, статистику, программирование и электронику.
Елена говорит: data science – это сфера, в которой пересекаются компьютерные и математические науки. Здесь нужно обязательно знать:
- математику, статистику, теорию вероятностей;
- принципы машинного обучения;
- языки программирования SAS, R или Python;
- базы данных MySQL и Postgre;
- технологии визуализации данных и отчетности;
- хранилище данных Hadoop and MapReduce.
Особое внимание Елена советует уделять языкам программирования. Она считает, что Python нужно знать в совершенстве.
Дата-специалист Теренс Шин в марте 2021 года проанализировал около 15 тыс. вакансий в сфере data science. В результате он собрал самые востребованные навыки для специалистов по работе с данными в 2021 году. Так, среди языков программирования в нем первое место занимает Python, второе – SQL.
Нужно также отлично знать библиотеки TensorFlow и Scikit-learn. Шин подчеркивает: в последнее время все больше специалистов требуется со знанием облачных технологий AWS и GCP. Более подробная информация о навыках data scientist в 2021 году здесь.
Руководитель отдела data science компании Youscan Евгений Терпиль считает: стать успешным data scientist можно и без специализированного вуза. Для этого нужно ориентироваться в теме, обладать достаточными знаниями в информатике и математике и действительно «болеть» data science. Сам Евгений – выпускник Киевского политехнического института.
С ним согласен и дата-специалист Андрей из SomoBot. Он рассказывает: для его работодателя диплом о высшем техническом образовании был неважен. Главное было справляться с нагрузкой и выполнять задачи.
Где и как учиться на data scientist
Дата-аналитик Елена Ивина говорит: ей понадобилось полтора года, чтобы из бизнес-аналитика перейти в специалисты по обработке данных. И это притом что у нее уже было базовое техническое образование. Чтобы процесс шел быстрее, Елена рекомендует тренироваться на «живых» проектах. Например, брать заказы на биржах фриланса.
Начинать изучать алгоритмы лучше с наставником. И лишь со временем, когда придет уверенность, переходить на самостоятельное обучение. Эталонным курсом в data science Елена Ивина называет Deep Learning Specialization на Coursera. Его проводит доцент Стэнфордского университета и сооснователь Coursera Эндрю Нг. Курс научит разбираться в нейросетях, и пройти его можно бесплатно.
Украинский специалист по работе с базами данных Сергей Шельпук рекомендует еще такие бесплатные курсы по data science от университета Стэнфорда:
- Artificial intelligence: по искусственному интеллекту;
- Machine Learning: по машинному обучению;
- Databases: по базам данных.
Канадский data scientist Кристофер Зита советует пройти обучение на курсах от Udemy:
- Machine Learning A-Z: по машинному обучению. Стоимость – $25;
- The Complete SQL Bootcamp 2021: по языку программирования SQL. Стоимость – $11;
- Python A-Z: Python For Data Science: по языку программирования Python. Стоимость – $10;
- Data Analysis with Pandas and Python: по анализу данных. Стоимость – $10.
Дата-специалист Евгений Терпиль делится своими сайтами и блогами, где он черпает информацию:
- arxiv.org: на сайте Корнуэльского университета публикуют все самое свежее из сферы data science и machine learning;
- medium.com: здесь можно найти экспертные статьи на любые темы;
- data science google news: последние новости в сфере data science;
- datasciencecentral.com: практические рекомендации по data science;
- kdnuggets: здесь собрана теоретическая информация по аналитике, обработке данных, машинному обучению.
Редакция MC.today рекомендует также такие курсы для дата-специалистов:
- Data Engineering: научитесь обрабатывать данные и освоите главные инструменты для data science. Стоимость курса доступна после регистрации.
- Математика и статистика для data science: научитесь проводить статистический анализ данных с помощью математических методов. Стоимость курса доступна после регистрации.
Вот книги по data science:
- Big Data: The Essential Guide To Work, Life And Learning In The Age Of Insight, Kenneth Coquier, Victor Mayer-Schönberger: авторы изучают проблему взаимодействия человека и искусственного интеллекта;
- «Data Science для бізнесу. Як збирати, аналізувати і використовувати дані», Том Фоусет, Фостер Провост: эксперты делятся опытом, как применять полученные данные в бизнесе и развивать его.
- «Нейронные сети и глубокое обучение», Майкл Нильсен: знакомство с основными математическими принципами;
- «Математический анализ», Липман Берс: введение в матанализ.
Сколько зарабатывают data scientist
Зарплата data scientist зависит не только от опыта работы и навыков специалиста, но и от сложности конкретного проекта. По последним данным портала DOU, зимой 2021-го зарплата data scientist в Украине в среднем составила $2 тыс.
При этом специалист с опытом работы от одного до трех лет может рассчитывать на $1,5 тыс. зарплаты. А data scientist с опытом работы от четырех до шести лет – на $3,8 тыс.