Tu casa en Google Street View: ¿un dato a proteger?
Un paper publicado por una investigadora de la universidad de Varsovia y otro de Stanford (ficha en Arxiv y enlace al PDF) estudia la correlación entre el estado de conservación de tu casa y tu riesgo, desde la perspectiva de una aseguradora de automóvil.
La principal conclusión del estudio es que, efectivamente, los datos relacionados con el estado de conservación de la vivienda mejoran la capacidad predictiva del modelo.
Dónde interviene Google Street View
Hasta ahí, poca novedad. Al fin y al cabo, a diario se estudian todo tipo de variables en busca de mejores indicadores. Sin embargo, lo interesante de este enfoque es que los investigadores extrajeron el estado de conservación de las casas a través de las imágenes de Google Street View.
Crearon un panel de humanos para etiquetar las imágenes en función de una serie de parámetros (tipo de vivienda, antigüedad, estado de conservación).
Después, añadieron los nuevos datos al modelo predictivo usado por la aseguradora. Observaron que sí mejoraba su capacidad predictiva, aunque solo ligeramente.
¿Debemos preocuparnos?
Antes de alarmarse por completo, habría que asegurarse de que las conclusiones numéricas del paper son fiables. En una primera lectura, no me ha costado identificar varias pegas (alguna mencionada también por los autores) como, por ejemplo:
El dataset utilizado es pequeño (20.000 casos), máxime teniendo en cuenta que la frecuencia de siniestros es baja (5%)
Podría cuestionarse el proceso de etiquetado manual de las imágenes. Sobre todo, en la variable "renta del propietario", extremadamente subjetiva de calcular de esta manera y alcanzable por otros medios menos abiertos a interpretación.
Además de esa estimación de la renta, otras cinco nuevas variables actúan como un proxy de la renta del asegurado (tipo de vivienda, densidad del barrio, estado de conservación...)
Las variables nuevas se combinan con los resultados del modelo de la aseguradora, de cuya composición no se nos dice nada. Cabe especular, por tanto, que si en ese modelo la renta ya tenía un fuerte impacto, las nuevas variables se limitan a exacerbar esa característica.
Es decir, cabe poner en duda la aplicación práctica de este enfoque. Principalmente, porque etiquetar imágenes mediante un panel humano es caro y lento. No es el mejor método, por tanto, si lo máximo que ofrece es una forma alternativa de llegar a un dato, la renta, al que podemos llegar por métodos más directos.
Sin embargo, incluso aunque podamos poner en duda su utilidad práctica para este caso concreto, lo que se hizo en esta investigación debe hacernos reflexionar sobre el impacto que las imágenes de Google Street View (y de cualquier servicio similar) pueden tener en nuestras vidas.
No olvidemos que lo que hoy ha requerido un proceso manual, caro y no escalable, mañana puede automatizarse. De hecho, no es una tarea particularmente difícil. La reducción del coste del dato puede abrir muchas nuevas vías de explotación, así que probablemente nos esperan multitud de nuevas "sorpresas éticas" por el camino.