Machine learning en la física I

El aprendizaje automático o machine learning en inglés es un campo de la computación que se encuentra en pleno desarrollo gracias al creciente interés en desarrollar técnicas capaces de estructurar y obtener información de grandes cantidades de datos. El machine learning se puede aplicar para obtener ajustes regresivos que nos digan el precio que puede tener una casa en el mercado por sus características, en los filtros para clasificar los correos que nos llegan en spam o no, en las recomendaciones que nos llegan para las películas que nos podrían gustar según nuestras valoraciones a otras y así un largo etcétera. Y no solo se puede aplicar a estas situaciones sino que muchos campos de las ciencias están empezando a implementar estos procesos para sus propios problemas.

La física es una de las ciencias que está empezando a implementar estos procesos de cálculos en sus proyectos y por eso os traemos una serie de artículos sobre los principios básicos del machine learning y algunas aplicaciones ya desarrolladas en nuestra ciencia.

Qué es el machine learning

El machine learning es un conjunto de técnicas y algoritmos diseñados para analizar y estructurar grandes cantidades de datos por si mismo. Estos algoritmos son capaces de encontrar patrones en los datos y estructuras inmersas en los mismos y realizar una tarea que el usuario establezca, ya sea clasificar un conjunto de observaciones, ajustar los datos a una función según una tendencia que tengan en común o agrupar datos que presenten características similares. Por ejemplo, los programas de clasificación son capaces de «aprender» automáticamente los rasgos mas importantes para identificar los objetos que existen en una base de datos. Para ello es necesario que el programa cuente de antemano con información de qué valores de entrada se corresponden con los de salida pero una vez que ha ajustado su funcionamiento a un tipo aprendizaje podrá identificar cualquier otro tipo de dato similar, aunque no se encuentre en la base de datos con la que ha sido diseñado. Y esto es lo importante del machine learning, la capacidad de estos algoritmos de «aprender» por sí mismos de un conjunto de datos iniciales y poder luego aplicar ese aprendizaje a otros datos fuera del conjunto inicial con los que ha aprendido.

Como ya nos habremos dado cuenta, dependiendo de la base de datos que elijamos y sus características nuestro programa aprenderá de mejor o peor forma. También será importante tener en cuenta el tipo de algoritmo de aprendizaje que queremos implementar para la tarea que queremos resolver. Podemos diferenciar dos tipos de machine learning según utilicen una base de datos etiquetada o no etiquetada. Que una base esté etiquetada implica que conocemos una serie de valores de entrada (x1, x2,…,xn) que se corresponden con un valor de salida(y1,…,yn) que nosotros podemos identificar como tal. Por ejemplo, el precio de una casa y según su tamaño x1, su localización x2,…
Los algoritmos que utilizan una base de datos etiquetada se agrupan en el aprendizaje supervisado. Los que utilizan conjuntos de datos sin etiquetar , es decir de los que tan solo conocemos valores x y no tienen una solución «correcta» y se denominan aprendizaje no supervisado.

Aprendizaje supervisado

El aprendizaje supervisado es el tipo de machine learning en el que los algoritmos utilizan bases de datos compuestas de parámetros con sus correspondientes resultados. Existen diferentes tipos dentro de este campo. Los dos principales son la regresión y la clasificación.

En la regresión, los programas se diseñan para que sean capaces de ajustar los parámetros de una función para que represente los resultados de un conjunto de datos de la forma más cercana a la realidad posible. Por ejemplo, si tenemos un conjunto de datos sobre los precios de unas casas y los valores de los parámetros para los que valen ese precio, nuestro programa ajustará una función que describa estos datos. De esta forma, podremos estimar aproximadamente el valor de otras casas para las que no conozcamos el precio pero sí sus características.

En la clasificación, nuestro programa de machine learning será capaz de clasificar entre dos o más clases según los parámetros para los que se corresponda. Por ejemplo, si tenemos los síntomas para los cuales una persona tiene la gripe, nuestro programa podrá predecir si una persona tiene o no la gripe según estornude, moquee etc.

Los programas basados en estos procesos se encargan de obtener los parámetros óptimos minimizando una función, llamada función de coste, de la que hablaremos en próximos artículos.

Aprendizaje no supervisado

El aprendizaje no supevisado es aquel que utiliza una base de datos sin conocer los valores a los que se deben ajustar los resultados que obtenga. Por ejemplo, una base de datos que nos diga las diferentes medidas para ropa (caderas, espalda, altura…) de una selección de personas. Este tipo de machine learning identifica estructuras dentro de los datos, agrupándolas en algunos casos, para que el usuario extraiga información de ellas. Para el caso de las medidas corporales este tipo de algoritmos nos puede servir para crear varios grupos con tamaños similares y diseñar así una línea de tallas de ropa (XS, S, M, L, XL).

El problema principal de estos algoritmos es que nos pueden agrupar datos de forma que no nos aporte ninguna información nueva. Y además, en la gran mayoría de las situaciones no tendremos valores para contrastar que nuestros resultados sean correctos. Por ello, este campo todavía se encuentra en investigación, a pesar de que es el que mayor interés presenta, pues la mayoría y los más sencillos de conseguir son los datos sin etiquetar.

En artículos posteriores detallaremos estos aprendizajes y algunos algoritmos básicos muy interesantes que se pueden aplicar a la física.

Curso recomendado:

Curso Coursera del profesor Andrew Ng. Universidad de Stanford

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Nombre *

Correo electrónico *

Web

Comentario *

Acepto la política de privacidad.

Información básica sobre protección de datos
Responsable	Asociación Nacional de Estudiantes Universitarios de Ciencias Físicas - NUSGREM +info...
Finalidad	Gestionar y moderar tus comentarios. +info...
Legitimación	Consentimiento del interesado. +info...
Destinatarios	Automattic Inc., EEUU para filtrar el spam. +info...
Derechos	Acceder, rectificar y cancelar los datos, así como otros derechos. +info...
Información adicional	Puedes consultar la información adicional y detallada sobre protección de datos en nuestra página de política de privacidad.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.