Профессия аналитик данных

Здесь мне хотелось бы рассказать о различиях между профессиями, которые часто путают или вообще считают тремя названиями одной и той же деятельности.
Вот они, эти профессии:
1. Data Analyst (аналитик данных)
2. Data Mining Specialist (специалист по интеллектуальной обработке данных)
3. Data Scientist (ученый по данным)
Хочу сразу оговориться, что на самом деле не существует каких-либо официальных определений каждой из этих профессий и, соответственно, непонятно, как их отличать друг от друга.
Поэтому я предлагаю свою версию того, чем же эти профессии отличаются — на основе данных с зарубежных блогов, зарубежных же объявлений о вакансиях и, само собой, своих собственных соображений.
Data Analyst
Итак, Data Analyst (аналитик данных) — это человек, который проводит описательный (дескриптивный) анализ данных, интерпретирует их и представляет отчет заинтересованным лицам.
То есть основными навыками данного персонажа являются:
- отличное знание предметной области, в пределах которой он анализирует данные. Под предметной областью понимается определенная сфера бизнеса (например, нефтегазовая отрасль или, скажем, торговля элитным алкоголем).
- знание особенностей ведения бизнеса той компании, где он работает
- хорошие презентационные навыки
- знание каких-то средств для визуализации данных (например, Tableau) и умение делать симпатичные и понятные неспециалистам графики-диаграммы
- базовые знания статистики, умение пользоваться простыми системами для анализа данных (например, Excel)
- возможно (но совсем необязательно) знание какого-нибудь языка программирования
Если собрать это все в одну картинку, то получится как-то так:

Data Mining Specialist
Data Mining Specialist (специалист по интеллектуальной обработке данных) — это технически подкованный специалист, который проводит полный цикл работы с данными — начиная с поиска этих самых данных и заканчивая созданием предиктивной модели. В процессе обработки данных он фокусируется на выявлении каких-то неизвестных доселе скрытых закономерностей и вовсю применяет технологии машинного обучения (Machine Learning).
То есть основными навыками данного персонажа являются:
- Неплохая математическая подготовка
- Умение находить и правильно готовить данные
- Умение программировать на одном или нескольких языках. Языки эти обычно высокоуровневые, вроде Python, Java, Matlab или R
- Знание методов и алгоритмов машинного обучения. Сюда могут входить и статистические алгоритмы, и нейросети, и генетические алгоритмы — тысячи их.
- Возможно (но необязательно), умение работать с большими данными (Big Data) — имеется в виду Hadoop, его стандартные и нестандартные модули.
Если собрать это все в одну картинку, то получится как-то так:

Data Scientist
Data Scientist (ученый по данным) — это универсальный игрок, который может делать как то, что делает аналитик данных, так и то, что делает специалист по интеллектуальной обработке данных. И плюс к этому он имеет какое-то особенное умение или особо узкую специализацию.
То есть основными навыками данного персонажа являются:
- отличные презентационные навыки, знание предметной области и умение представлять результаты своей работы неспециалистам (это от аналитика данных)
- хорошая математическая подготовка, навыки подготовки данных, машинное обучение (это от специалиста по интеллектуальному анализу данных)
- умение работать с Big Data (очень желательно, почти обязательно)
- какое-то особенное умение или дополнительная специализация (например, познания в области лингвистики — несколько иностранных языков, умение работать с текстом на продвинутом уровне, т.е. Natural Language Processing)
Впрочем, с ученым по данным не все так чисто — он может не иметь и половины указанных выше навыков, но все равно считаться ученым по данным, если, например, другими навыками он владеет в совершенстве. Скажем, он может не очень хорошо знать математику, но быть великолепным знатоком предметной области. Надеюсь, когда-нибудь позже я подробнее рассмотрю классификацию ученых по данным.
Если собрать это все в одну картинку, то получится как-то так:

Надо заметить, что здесь рассмотрены, так сказать, «чистые» представители профессий. В реальной жизни, например, навыков у аналитика данных может быть больше, а у ученого по данным может и не быть какого-нибудь хитрого умения.
Дисклеймер: безусловно, это всего лишь моя версия происходящего, и можно найти аргументы против этой версии в пользу какой-либо иной. Если эти аргументы найдутся — я всегда рад их выслушать ?
Рекомендуемые ресурсы:
Зарубежная версия различий Data Analyst и Data Scientist (англ.)
Обзор того, что же есть Data Science (англ.)
29,676 просмотров всего, 8 просмотров сегодня