Integrating Population Data: Challenges and Prospects ; Интеграция данных о населении: проблемы и перспективы
The article deals with methodological, organizational, and technological issues of integrating population data obtained from various administrative sources and corporative big data. The article proves the particular relevance of the interaction between official statistics and other governmental and corporative information systems amidst the digitization of the economy and social life and the incipient establishment of the federal population data register. The authors propose a system of interrelated aggregates, characterizing various categories of population, which differ according to criteria of citizenship, permanent residence, duration, and purposes of stay on the territory of Russia. Challenges associated with estimating these aggregates are analyzed. The article considers possibilities and legal limitations in the work of statisticians on systematizing information, rationalizing the selection and subsequent joint use of information, characterizing an individual (i.e. matching) for addressing various tasks faced by social and demographic statistics. Special attention is paid to the various options for resolving the issue of a personal code (one or more) that allow linking information on the individual from different databases. The need to ensure the transparency of the methodology used by the various participants of informational interaction is emphasized, which in turn shall pave the way for the harmonization and, where possible, the unification of such methodology. The paper demonstrates the crucial role of preliminary qualitative analysis of data from different sources and explains mechanisms for further interaction of statistical authorities with organizations, interested in this information, and social structures. Using mobile operators' and providers' data on the population of the city, necessary conditions for their adequate interpretation – transparent methodology, clear description of population aggregates to estimate, and assumptions used for such estimations – are characterized. ; В статье рассматриваются методологические и организационно-технологические вопросы интеграции данных о населении, полученных государственной статистикой из административных источников и корпоративных «больших данных». Аргументируется особая актуальность взаимодействия государственной статистики с другими государственными и корпоративными информационными системами в условиях цифровизации экономики и общественной жизни, и начавшегося формирования федерального регистра данных о населении. Предлагается система взаимосвязанных показателей, характеризующих типологические группы населения, различающиеся по следующим критериям: гражданства, месту постоянного жительства, длительности и целям пребывания на территории России. Анализируются причины трудностей практического расчета этих показателей. Рассматриваются возможности и правовые ограничения в работе статистиков по систематизации сведений, обоснованию подбора и последующего совместного использования в анализе сведений, характеризующих физическое лицо (т.е. матчинга), для решения различных задач социальной и демографической статистики. Особое внимание уделяется различным вариантам решения вопроса о персональном коде (одном или нескольких) позволяющих увязывать находящуюся в различных базах данных информацию о данном физическом лице. Подчеркивается необходимость обеспечения прозрачности методологии, используемой различными участниками информационного взаимодействия, что, в свою очередь, создаст предпосылки для гармонизации, а там, где это возможно, и унификации такой методологии. Показывается принципиально важная роль предварительного качественного анализа данных, полученных из различных источников, и объясняются пути дальнейшего взаимодействия органов официальной статистики с заинтересованными в данной информации организациями и общественными структурами. С использованием данных провайдеров и сотовых операторов о населении города характеризуются необходимые условия их адекватной интерпретации: прозрачность методологии; аргументированная характеристика групп населения как объектов рассматриваемого статистического наблюдения, численность которого оценивается; характеристика предположений, которые используются при такой оценке.