API de codificación automática de respuestas abiertas en encuestas del Instituto Nacional de Estadísticas
(Tipo institución)
Instituto Nacional de Estadísticas (INE).
Subdirección Técnica INE.
Instituto Nacional de Estadísticas (INE).
Todo Chile.
Mejorar la eficiencia y calidad de la clasificación de la actividad económica y ocupación de las personas
Producto Estratégico
Algunas de las encuestas que el Instituto Nacional de Estadísticas (INE) aplica contienen preguntas abiertas, cuyo procesamiento requiere la clasificación y codificación de las respuestas para efectos estadísticos. Al tratarse de un proceso intensivo en recursos humanos, el INE implementa desde 2019 una metodología de clasificación y codificación automática de dicha información, la que utiliza en varios de sus instrumentos. [1]
La aplicación de este método comenzó con el procesamiento de los datos correspondientes al trimestre febrero-abril de 2019 de la Encuesta Nacional de Empleo, específicamente para dos categorías: Clasificador Internacional Uniforme de Ocupaciones (CIUO) y Clasificador de Actividades Económicas Nacional para Encuestas Sociodemográficas (CAENES). Profesionales del INE desarrollaron un modelo basado en minería de textos y aprendizaje de máquinas (técnica support vector machines), el que entrenaron con 505.958 registros de personas ocupadas entre 2015 y 2017, y que posteriormente utilizó los datos actualizados de la última encuesta aplicada (2018). La evaluación del modelo arrojó un margen de error final de 2,6% y una reducción del tiempo requerido, en tanto la codificación manual ocupaba 3.500 horas de trabajo en un mes, mientras la automática toma menos de 4 horas [2].
Desde entonces, el INE extendió el uso de esta metodología a la Encuesta Nacional de Seguridad Ciudadana (ENUSC), en 2019, y en la prueba piloto de la Encuesta de Presupuestos Familiares (EPF), en 2020, instrumento en el que se agregó un modelo de deep learning para codificar la Clasificación de Consumo Individual por Finalidades (CCIF). Además, con el fin de disminuir los errores de los modelos, el INE ejecuta un proyecto de actualización de los datos de entrenamiento y optimización de los algoritmos de codificación automatizada. [1] La API desarrollada por el Instituto se encuentra disponible para ser consultada en R y Python y se dispone de un tutorial para su uso. [3, 4]
abril 2019
En Uso (27 diciembre 2023)
- Subdirección Técnica, Instituto Nacional de Estadísticas (octubre de 2022). Codificación automática de clasificadores CIUO-08.CL y CAENES a partir de técnicas de machine learning. Creación de sets de entrenamiento y optimización de algoritmos. https://www.ine.gob.cl/docs/default-source/api-codificacion-automatica/codificacion-automatica-de-clasificadores-ciuo-08-cl-y-caenes-tecnicas-de-machine-learning.pdf
- Departamento de Estudios Laborales, Subdirección Técnica, Instituto Nacional de Estadísticas (mayo de 2019). Sistema de Clasificación y Codificación Automática en la Encuesta Nacional de Empleo. https://www.ine.gob.cl/docs/default-source/ocupacion-y-desocupacion/metodologia/espanol/cca_2019.pdf?sfvrsn=ceea6423_5
- Conferencia Latinoamericana sobre Uso de R en Investigación + Desarrollo. (14 de octubre, 2022). API DE CODIFICACIÓN AUTOMÁTICA PARA LA PRODUCCIÓN DE ESTADÍSTICAS OFICIALES. GitHub. https://github.com/LatinR/presentaciones-LatinR2022/blob/main/papers/LatinR2022_propuesta_9322.pdf
- Instituto Nacional de Estadísticas (s/f). Tutorial API de codificación automática. https://www.ine.gob.cl/calidad-estadistica/clasificaciones/api-codificacion
Fuente
1Subdirección Técnica, Instituto Nacional de Estadísticas (octubre de 2022). Codificación automática de clasificadores CIUO-08.CL y CAENES a partir de técnicas de machine learning. Creación de sets de entrenamiento y optimización de algoritmos. https://www.ine.gob.cl/docs/default-source/api-codificacion-automatica/codificacion-automatica-de-clasificadores-ciuo-08-cl-y-caenes-tecnicas-de-machine-learning.pdf
2Departamento de Estudios Laborales, Subdirección Técnica, Instituto Nacional de Estadísticas (mayo de 2019). Sistema de Clasificación y Codificación Automática en la Encuesta Nacional de Empleo. https://www.ine.gob.cl/docs/default-source/ocupacion-y-desocupacion/metodologia/espanol/cca_2019.pdf?sfvrsn=ceea6423_5
3Conferencia Latinoamericana sobre Uso de R en Investigación + Desarrollo. (14 de octubre, 2022). API DE CODIFICACIÓN AUTOMÁTICA PARA LA PRODUCCIÓN DE ESTADÍSTICAS OFICIALES. GitHub. https://github.com/LatinR/presentaciones-LatinR2022/blob/main/papers/LatinR2022_propuesta_9322.pdf
4Instituto Nacional de Estadísticas (s/f). Tutorial API de codificación automática. https://www.ine.gob.cl/calidad-estadistica/clasificaciones/api-codificacion