• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Больше и точнее: зачем исследователям административные данные. Евгений Яковлев для платформы ИНИД


Где брать необходимые для исследования данные, да еще такие, чтобы исследование получилось качественным, а результаты – достоверными и применимыми, – очень актуальный и важный вопрос. И пожалуй, лучший ответ на него – у государственных учреждений. О том, зачем исследователям, в частности экономическим, нужны именно административные данные и чем они лучше всех прочих, в колонке для платформы доступа исследователей к данным о государстве и обществе «Инфраструктура научно-исследовательских данных» рассказывает профессор РЭШ Евгений Яковлев.

Административные данные – это микроданные государственных учреждений: данные ОМС по визитам к врачу, данные налоговых органов по зарплате и налогам граждан, данные банков по кредитам, данные ЗАГСов по рождаемости и так далее. Именно такие данные в силу их объема и качества представляют наибольший интерес для исследователей.

Можно возразить, что для получения статистически значимых и робастных (т.е. независящих от разного рода выбросов) результатов достаточно иметь не 145 миллионов наблюдений, а, скажем, 100 или даже 10 тысяч. Это отчасти так, и самая популярная альтернатива административным данным – обследование и опрос. На протяжении полувека они являются основным источником данных для социальных наук, в том числе для экономики. 

В России есть, пожалуй, одно из лучших, если не самое лучшее, обследование среди всех стран Восточной Европы и постсоветского пространства – Российский мониторинг экономического положения и здоровья населения (РМЭЗ) НИУ ВШЭ. Ежегодно с 1994 года РМЭЗ опрашивает 18 тысяч россиян – о здоровье, семейном положении, потреблении продуктов и прочих социальных и демографических аспектах.

Это качественное обследование, которое является главной базой данных для многих российских исследователей, в том числе для меня. Однако не на все вопросы эти данные могут дать ответ в силу объективных причин и проигрывают административным данным сразу по двум критериям – количество и качество.

Недостаточно много

Рождение ребенка, покупка дома, смерть – эти события среди всех прочих достаточно редкие (если рассматривать отдельно взятую семью), но для экономики и общества всё равно очень важные. Для того чтобы изучить их, базы РМЭЗ не хватит. В ней попросту нет достаточного количества наблюдений. 

Из тех 18 тысяч человек, что ежегодно опрашивает мониторинг, новорождённых, например, всего 200. Такая выборка для хорошего исследования достаточно мала. Более того, она станет ещё меньше, если сузить объект исследования до рождаемости, например, у матерей без образования.

Альтернативой РМЭЗ в данном случае могли бы стать переписи и ЗАГСы. В России ежегодно рождается более миллиона человек. С таким количеством наблюдений можно изучить характеристики семей, в которых рождались дети, более подробно.

Недостаточно точно

Другой момент, который важно понимать, – РМЭЗ проводят с помощью опросов. То есть людей спрашивают, сколько они зарабатывают, чем болеют, что и в каких количествах едят и прочее. В силу таких человеческих факторов как, например, забывчивость или нежелание называть точную цифру, ответы на вопросы не всегда оказываются точными. Это, собственно, проблема всех опросов.

Если мы, скажем, изучаем, как введение плоской шкалы налогообложения повлияло на изменение структуры заработков или как кризис повлиял на заработную плату, мы увидим, что эти переменные в РМЭЗ недостаточно качественные. Административные данные налоговой системы же дали бы нам гораздо более качественную информацию для гораздо большего количества наблюдений. Соответственно, и исследование на таких данных тоже получилось бы более точным и применимым к реальности.

Более того, административные данные содержат длинный панельный ряд, мы наблюдаем всех людей из года в года. В то время как в обследованиях есть свой, пусть и небольшой, коэффициент выбытия из выборки (attrition rate) – то есть не все опрошенные в прошлом году пройдут опрос и в этом тоже. Суммарно, скажем, за десять лет этот attrition rate уже становится достаточно приличным и существенно сокращает возможности для анализа долгосрочных трендов внутри того или иного домохозяйства.

Необходимость доступа исследователей к административным данным – вовсе не новый тезис, в частности среди эмпирических экономистов. Еще десять лет назад нобелевский лауреат Дэвид Кард, лауреаты медали Кларка (вторая после Нобелевской премии по значимости награда в экономике) Эммануель Саез и Радж Четти и профессор Гарварда Мартин Филсдейн написали очень важную статью для Национального научного фонда США (NSF – ведущая организация обеспечивающая лидерство в научном мире. – Прим. ред.). Авторы отметили, что доступ к административным данным для исследователей и полисимэйкеров является самой важной текущей задачей для научных учреждений. Именно эти данные и исследования, построенные на них, сейчас – в это десятилетие – двигают экономическую науку вперед.

Пт, 3 декабря 2021
Евгений Яковлев
2808 человек прочитали эту новость, 5 отметили, что она им понравилась. А вам интересна эта новость?