АБИТУРИЕНТАМ

Зачем дата-сайентисту экономика? Часть 1: Сергей Лактионов

В этой серии материалов выпускники будут делиться своими кейсами из работы в Data Science, справиться с которыми им помогают экономические знания. Сергей Лактионов (EDS’21) — специалист HFT фонда Pinely объясняет, почему при построении моделей важен экономический бэкграунд и в чем сложность предсказания цены.

Предсказания и практическое знание экономики

На четвертом курсе математического бакалавриата я начал свое развитие в Data Science, стал принимать участие в проектах, связанных с биоинформатикой и компьютерным зрением для детектирования предметов на изображения. В тот момент также пришло осознание, что предиктивная аналитика развилась настолько, что позволяет предсказывать различные макроэкономические и микроструктурные факторы с высокой точностью. Эти предсказания впоследствии можно использовать для построения торговых стратегий.

Так я узнал об области Quantitative Research, где количественные методы применяются для выявления причинно-следственных связей на основе финансовых данных. Эта область достаточно эффективно синтезируется с новейшими методами анализа данных. Здесь я начал свой самостоятельный путь, изучал литературу и писал какие-то модели в свободное от учебы время. Было очень приятно найти практическую ценность от своих фундаментальных знаний, полученных за время учебы в университете. До этого у меня был небольшой кризис актуальности этих знаний из-за отсутствия достаточной информации, где знания фундаментальной и прикладной математики можно применять в современной индустрии. По анализу данных у меня был неплохой набор прикладных навыков, полученных самостоятельно, но не хватало систематизации всех знаний с best practices по применению.

Мне хотелось получить фундаментальное образование по Data Science, чтобы развить мощный аппарат анализа любого рода данных, и изучить экономику для понимания различных микро и макро явлений в современном мире. Это основные причины, почему я выбрал именно совместную программу РЭШ и ШАД «Экономика и анализ данных».

Абстрактные модели в числовом представлении

Если мы говорим про экономику как об инструменте анализа происходящего вокруг, то она связана с Data science тем, что также работает с данными и ставит фундаментальные задачи. Перед двумя этими областями знаний стоит одна и та же задача – описать действительность на основе каких-то моделей. При этом в экономике эти модели часто описательные, то есть in sample, в Data science же модели в большинстве своем прогнозные, на основе предсказаний можно сделать вывод о поведении какой-то величины в будущем или out of sample. Тем не менее прогнозные задачи довольно часто возникают, например, в макроэкономике.

Наиболее близкое соприкосновение экономических дисциплин с анализом данных в привычном понимании я вижу в таких дисциплинах как эконометрика временных рядов, прикладная макроэконометрика, вычислительная макроэкономика, деривативы, математические финансы и микроструктуры рынка. Задачи, решаемые в рамках этих курсов, достаточно близки к тому, с чем приходится сталкиваться кванту в своей ежедневной деятельности.

Самая распространенная, но от этого не менее важная задача – предсказание цены актива в будущем. Эта же задача рассматривается, например, в курсе математических финансов, где при некоторых предположениях, можно выписать стохастическое дифференциальное уравнение, описывающее динамику цены.

Также многие модели и теоретический аппарат макроэкономики очень близки с Reinforcement Learning, поскольку обе дисциплины эксплуатируют принцип оптимальности Беллмана и одноименное уравнение.

Data-science в HFT фонде и применение там знаний экономики

Я занимаюсь разработкой и внедрением в production алгоритмов для высокочастотной торговли на основе машинного обучения (классический ML, deep learning, reinforcement learning). Также разрабатываю инструменты для анализа поведения торговых стратегий и рынка в целом, улучшаю и автоматизирую процесс подбора гиперпараметров алгоритмов. Работа очень разноплановая, интенсивная и интересная.

В HFT очень много данных, а модели должны быть максимально быстрыми, потому что важна не только правильность, но и скорость совершения определенного действия. Кванту необходимо иметь отличные навыки программирования и сильный математический аппарат, чтобы анализировать данные, быстро и качественно реализовывать свои идеи и проверять те или иные гипотезы.

В HFT данные могут приходить с постоянной частотой (time driven, например, раз в секунду) или же на каждое изменения в биржевом стакане (information driven). Такие данные обычно приходят в виде биржевого стакана (сводная таблица, в которой указывается спрос и предложение на покупку и продажу ценной бумаги в актуальное время). Есть две стороны: одна хочет купить актив, другая продать. Есть минимальный шаг цены, соответственно сделки могут проходить только по ценам, кратным этому шагу. На каждом ценовом уровне стоит какой-то объем. Это хороший инструмент визуализации реального процесса торгов на микроуровне. Есть много моделей из Market Microstructure, которые могут быть полезны для анализа этих процессов и предсказания динамики внутри стакана. Я бы упомянул модели ликвидности, волатильности и оптимального исполнения торговых стратегий, которые очень релевантны для HFT.

Мне кажется, что самые существенные точки соприкосновения моей профессии, да и data science в целом, с экономикой – это процесс калибровки экономических моделей под реальные данные и попытки эти модели улучшить или, изменив какие-то базовые предположения, сделать применимыми для своей задачи.

Задержка у фирмы и соревнование

Представьте, у нас есть несколько HFT market making фирм, отсортированных в порядке возрастания задержки от получения биржевых данных до постановки заявки в стакан. Цена актива фиксирована, а фирмы соревнуются только по объему поставленной заявки. Задача состоит в том, чтобы понять, какой объем для каждой фирмы оптимален. Стоит учитывать, что если у них разная задержка, то когда фирма с наименьшей задержкой выставляет какой-то объем, то остальные фирмы, у которых задержка выше, видят этот объем. Получается последовательное соревнование – каждый следующий видит ходы предыдущих. В такую парадигму очень хорошо ложится модель олигополии и соревнование по Штакельбергу. Можно математически вывести, какие объемы будут оптимальными для этих фирм, когда каждая фирма максимизирует свой суммарный профит. Когда мы говорим про высокочастотную торговлю, мы действительно имеем в виду большое количество игроков, соревнующихся друг с другом, поэтому задача достаточно актуальна.

Что касается каких-то задач, связанных с моей работой, то мне очень часто приходится применять базовые эконометрические модели. Одна из основных – это модель линейной регрессии, позволяет измерить эффект изменения объясняющей переменной на целевую. На микроуровне многие зависимости действительно неплохо можно аппроксимировать с помощью линейных моделей. Например, наблюдается линейная зависимость между изменением задержки посланной заявки и изменение порядкового номера, который был выставлен этой заявке от биржи. И даже изменение задержки на доли микросекунд может привести к изменению этого порядкового номера.

Нюансы построения модели для предсказания цены

Возвращаясь к задаче предсказания цены, мы можем столкнуться с массой проблем, поскольку цена сама по себе – нестационарный случайный процесс, то есть его характеристики меняются со временем. Все эконометрические модели и модели машинного обучения при применении к временным рядам предполагают, что объясняющие и зависимые переменные имеют постоянные характеристики во времени. Трудно добиться обобщающей способности алгоритма при переходе от тренировочной к тестовой выборке, если сами характеристики этих выборок очень сильно отличаются, то есть наблюдается так называемый domain shift. Стационарность – это первое требование, которое всегда стоит держать в голове при работе с временными рядами. В данном задаче мы можем предсказывать, например, изменение цены от текущего момента на каком-то временном горизонте. При этом никто не утверждает, что этот таргет единственно верный. Вышеописанный процесс – процедура выбора и анализа таргет переменной, как правило, достаточно долгая и глубокая.

Вторым важнейшим моментом является процесс выбора объясняющих переменных, фичей. На них тоже накладывается требование стационарности. Цена актива может зависеть от большого количества факторов, наблюдаемых и ненаблюдаемых, микро и макро. В своей деятельности мы по большей части опираемся на микроструктурные переменные из-за маленьких горизонтов предсказания. Однако стоит также помнить о переменных из макро мира. Так цены многих активов очень охотно реагируют на различные новости, например, на новость об изменении процентной ставки. Задачу выбора наиболее информативного подмножества этих факторов на основе уже имеющихся знаний о полезности той или иной фичи мой коллега, например, решает прямо сейчас.

Мне кажется, что экономическое образование дает априорное знание о природе тех или иных экономических переменных и позволяет оценить их потенциальную пользу для предсказания зависимой переменной еще до построения модели. Также такие знания помогают более аккуратно работать с данными, комбинировать их для построения еще более информативных фичей, придумывать метрики для оценки эффективности торгового алгоритма, придумывать более применимый для будущего алгоритма таргет, который возможно предсказывать легче, чем текущий.

Экономика или Data science?

Понять, чем ты хочешь заниматься в будущем, бывает сложно. Чтобы разобраться, куда ты хочешь идти, можно попробовать себя и в сфере Data science, и в сфере экономики, не забывая, что наибольшая ценность заключается в преодолении себя в процессе обучения. Также стоит учесть, что для работы экономистом нужно обширное экономическое образование, в то время как Data Science на базовом уровне можно выучить по онлайн-курсам и учебникам. Важно общаться с людьми, которые смогли прочувствовать один из этих путей, а может и оба. Работа квантом, как мне кажется, соединяет эти две сферы. Если окружение мотивированное, то и ты будешь таким же. Это одна из причин, почему я когда-то выбрал совместную программу РЭШ И ШАД «Экономика и анализ данных». Хороший коллектив, проба пера в разных направлениях и усилие над собой помогут достичь результата.

Регистрируйтесь на Олимпиаду РЭШ 23 апреля 2022 по ссылке >>>

Пт, 25 марта 2022

EDS

Зачем дата-сайентисту экономика? Часть 1: Сергей Лактионов

Темы новостей

Подписка на новости

Теги

Архивы