API de codificación automática de respuestas abiertas en encuestas del Instituto Nacional de Estadísticas

ODS

Clasificación DIPRES

Objetivo 8: Trabajo decente y crecimiento económico

Servicios Públicos Generales

INSTITUCIÓN PÚBLICA
(Tipo institución)

Instituto Nacional de Estadísticas (INE).

UNIDAD DE LA INSTITUCIÓN

Subdirección Técnica INE.

EJECUTOR

Instituto Nacional de Estadísticas (INE).

REGIÓN

Todo Chile.

OBJETIVO

Mejorar la eficiencia y calidad de la clasificación de la actividad económica y ocupación de las personas

DESCRIPCIÓN

Algunas de las encuestas que el Instituto Nacional de Estadísticas (INE) aplica contienen preguntas abiertas, cuyo procesamiento requiere la clasificación y codificación de las respuestas para efectos estadísticos. Al tratarse de un proceso intensivo en recursos humanos, el INE implementa desde 2019 una metodología de clasificación y codificación automática de dicha información, la que utiliza en varios de sus instrumentos. [1]
La aplicación de este método comenzó con el procesamiento de los datos correspondientes al trimestre febrero-abril de 2019 de la Encuesta Nacional de Empleo, específicamente para dos categorías: Clasificador Internacional Uniforme de Ocupaciones (CIUO) y Clasificador de Actividades Económicas Nacional para Encuestas Sociodemográficas (CAENES). Profesionales del INE desarrollaron un modelo basado en minería de textos y aprendizaje de máquinas (técnica support vector machines), el que entrenaron con 505.958 registros de personas ocupadas entre 2015 y 2017, y que posteriormente utilizó los datos actualizados de la última encuesta aplicada (2018). La evaluación del modelo arrojó un margen de error final de 2,6% y una reducción del tiempo requerido, en tanto la codificación manual ocupaba 3.500 horas de trabajo en un mes, mientras la automática toma menos de 4 horas [2].
Desde entonces, el INE extendió el uso de esta metodología a la Encuesta Nacional de Seguridad Ciudadana (ENUSC), en 2019, y en la prueba piloto de la Encuesta de Presupuestos Familiares (EPF), en 2020, instrumento en el que se agregó un modelo de deep learning para codificar la Clasificación de Consumo Individual por Finalidades (CCIF). Además, con el fin de disminuir los errores de los modelos, el INE ejecuta un proyecto de actualización de los datos de entrenamiento y optimización de los algoritmos de codificación automatizada. [1] La API desarrollada por el Instituto se encuentra disponible para ser consultada en R y Python y se dispone de un tutorial para su uso. [3, 4]

FECHA DE LANZAMIENTO

trimestre febrero-abril de 2019

ESTADO CONOCIDO

En Uso (27-dic-2023)

FINANCIAMIENTO
Sin información disponible.
FUENTE
  1. Subdirección Técnica, Instituto Nacional de Estadísticas (octubre de 2022). Codificación automática de clasificadores CIUO-08.CL y CAENES a partir de técnicas de machine learning. Creación de sets de entrenamiento y optimización de algoritmos. https://www.ine.gob.cl/docs/default-source/api-codificacion-automatica/codificacion-automatica-de-clasificadores-ciuo-08-cl-y-caenes-tecnicas-de-machine-learning.pdf
  2. Departamento de Estudios Laborales, Subdirección Técnica, Instituto Nacional de Estadísticas (mayo de 2019). Sistema de Clasificación y Codificación Automática en la Encuesta Nacional de Empleo. https://www.ine.gob.cl/docs/default-source/ocupacion-y-desocupacion/metodologia/espanol/cca_2019.pdf?sfvrsn=ceea6423_5
  3. Conferencia Latinoamericana sobre Uso de R en Investigación + Desarrollo. (14 de octubre, 2022). API DE CODIFICACIÓN AUTOMÁTICA PARA LA PRODUCCIÓN DE ESTADÍSTICAS OFICIALES. GitHub. https://github.com/LatinR/presentaciones-LatinR2022/blob/main/papers/LatinR2022_propuesta_9322.pdf
  4. Instituto Nacional de Estadísticas (s/f). Tutorial API de codificación automática. https://www.ine.gob.cl/calidad-estadistica/clasificaciones/api-codificacion

Fuente

1Subdirección Técnica, Instituto Nacional de Estadísticas (octubre de 2022). Codificación automática de clasificadores CIUO-08.CL y CAENES a partir de técnicas de machine learning. Creación de sets de entrenamiento y optimización de algoritmos. https://www.ine.gob.cl/docs/default-source/api-codificacion-automatica/codificacion-automatica-de-clasificadores-ciuo-08-cl-y-caenes-tecnicas-de-machine-learning.pdf

2Departamento de Estudios Laborales, Subdirección Técnica, Instituto Nacional de Estadísticas (mayo de 2019). Sistema de Clasificación y Codificación Automática en la Encuesta Nacional de Empleo. https://www.ine.gob.cl/docs/default-source/ocupacion-y-desocupacion/metodologia/espanol/cca_2019.pdf?sfvrsn=ceea6423_5

3Conferencia Latinoamericana sobre Uso de R en Investigación + Desarrollo. (14 de octubre, 2022). API DE CODIFICACIÓN AUTOMÁTICA PARA LA PRODUCCIÓN DE ESTADÍSTICAS OFICIALES. GitHub. https://github.com/LatinR/presentaciones-LatinR2022/blob/main/papers/LatinR2022_propuesta_9322.pdf

4Instituto Nacional de Estadísticas (s/f). Tutorial API de codificación automática. https://www.ine.gob.cl/calidad-estadistica/clasificaciones/api-codificacion

close