25 февраля в рамках NES Points Online ведущий менеджер по Data Science в Microsoft CSE Константин Голяев (MAE’2006) рассказал, как устроен Data Science-процесс в современных технологических компаниях, и как в этой сфере найти себе применение человеку с экономическим образованием. Модератором встречи выступил associate-профессор финансов в Университете штата Мичиган (MSU) Дмитрий Муравьев (MAE’2005).
Константин Голяев представил три основных направления, в которых работают специалисты по данным в технологических компаниях. Первое из них – Data Science Analytics – похоже на консалтинг: на основе данных специалисты анализируют эффективность бизнес-решений. Среди ежедневных задач аналитиков данных – дизайн и отслеживание метрик, интерпретация данных и формирование рекомендаций для бизнеса. Многие специалисты, приходящие в Data Science без технического бэкграунда, на старте карьеры занимаются именно аналитикой данных, подчеркнул Константин.
Один из важнейших навыков для аналитика данных – владение SQL. «Если есть что-то, чему не учат в школе и недостаточно учат в университетах, это SQL – язык запросов к базам данных», – отметил эксперт. Чтобы преуспеть здесь, также важно понимать, как устроен процесс сбора данных, какой источник данных для какого запроса можно использовать, до какой степени этому источнику можно доверять, и где это доверие должно заканчиваться.
Второе направление в работе с данными – Data Science Inference and Experimentation. Здесь специалисты занимаются установкой и вычислением причинно-следственных связей: либо через квази-экспериментальные методы, либо через дизайн и мониторинг A/B-тестов.
«Задачка: пользователь на Amazon купил Kindle. За год с момента покупки он потратил на маркетплейсе вдвое больше, чем за тот же период времени до покупки. Можем ли вычислить, какой объем выручки не пришел бы, если бы не эта покупка? Data Science Inference and Experimentation – это попытка квантифицировать влияние каких-то интервенций или событий, которые происходят с платформой, с пользователями и продавцами на платформе», — привел пример Константин Голяев.
Специалисту необходимы глубокие знания в статистике и эконометрике, чтобы правильно спроектировать эксперимент. Чтобы преуспеть, также важно иметь общее понимание того, как устроена software-архитектура компании и думать, как тестировщик. «Подводных камней уйма, никому нельзя верить, лучше подозревать, что все всё ломают, вот почему мышление тестировщика полезно», – подчеркнул Константин.
Еще одно направление работы с данными – алгоритмика, работа на стыке c software-инжинирингом. Часто это первое, что приходит в голову при мысли о Data Science и Machine Learning. Специалисты по работе с алгоритмами обучают предсказательные модели и выкатывают их в эксплуатацию. В числе важнейших навыков для этой работы – Python, владение Linux-системами, понимание разных алгоритмов ML и умение выбирать наиболее эффективный из них в зависимости от задачи.
«Задача профессионала, работающего с алгоритмами, — уметь услышать конкретную просьбу от бизнеса, перевести ее на язык математики, статистики и Machine Learning, решить ее и перевести обратно на язык бизнеса», – пояснил эксперт.
К обсуждению в качестве второго эксперта также присоединилась Елена Лабзина (MAE’2010), Data & Applied Scientist в Microsoft. Она рассказала, как специалисту найти свою первую работу в крупной технологической компании без опыта в Data Science. По ее словам, главный вызов для трудоустройства в этой сфере – широкая трактовка понятия Data Science. В каждой компании, в каждом подразделении за специалистом могут быть закреплены очень разные задачи. Быть экспертом на 100% и покрывать весь спектр возможных задач практически невозможно. На собеседовании возможно будет сложно понять, какие ваши навыки важны для работодателя, т.к. зачастую интервьюер не погружен глубоко в детали Data Science-процессов в организации.
Как представить свои умения и навыки в выгодном свете? Где искать контакты и как расширять собственный network? Зачем начинающему специалисту репозитория на GitHub? Ответы – в полной версии встречи с Константином Голяевым и Еленой Лабзиной.
Смотреть запись NES Points Online с Константином Голяевым >>
NES Points Online – пространство, где выпускники и друзья РЭШ говорят о важном с точки зрения профессиональной экспертизы, жизненного опыта, личных ценностей, принципов и мировоззрения. Гости делятся видением современного общества, обсуждают события в мире финансов, экономики и науки, общаются на насущные темы, связанные с общечеловеческими ценностями, карьерой, развитием и образованием.
Об экспертах
Константин Голяев (MAE’2006) – Principal Data Science Manager в Microsoft. Выпускник НИУ ВШЭ, Российской экономической школы. В 2011 году получил степень PhD в области экономики в Университете Миннесоты. Более 4 лет строил карьеру экономиста в Amazon, с 2015 года работает в Microsoft. Эксперт в сфере эконометрики, анализа данных и машинного обучения. Автор ряда публикаций и патентов про сочетание методов машинного обучения и эконометрических моделей для решения задач прогнозирования временных рядов. Соавтор учебника по введению в вычислительные методы анализа данных для аспирантов: A Gentle Introduction to Effective Computing in Quantitative Research: What Every Research Assistant Should Know.
Елена Лабзина (MAE’2010) — Data & Applied Scientist в Microsoft. Выпускница ВМК МГУ, РЭШ и CEU (Будапешт). В 2018 году получила степень PhD в области политической науки и MA по статистике в Washington University in St Louis. В 2018/20 работала исследователем в ETH (Цюрих). В различные моменты специализировалась на теории экспериментов, статистических методах и теории игр в рамках политологии. Занималась междисциплинарными исследованиями на пересечении вычислительной и социальной наук. Соавтор публикации в топовых политологических журналах (AJPS, BJPS). C 2020 работает в Microsoft, где занимается анализом данных и машинным обучением.
Дмитрий Муравьев (MAE’2005) — associate-профессор финансов в Университете штата Мичиган (MSU), специалист по большим данным в академических финансах.