Modelos supervisados
Perceptrón
Un Perceptrón unicapa no es más que un conjunto de neuronas no unidas entre sí, de manera que cada una de las entradas del sistema se conectan a cada neurona, produciendo cada una de ellas su salida individual: Un Perceptrón unicapa no es más que un conjunto de neuronas no unidas entre sí, de manera que cada una de las entradas del sistema se conectan a cada neurona, produciendo cada una de ellas su salida individual:
Modelo de Perceptron
Como ya hemos dicho, un conjunto de neuronas no sirve para nada si previamente no le enseñamos qué debe hacer. en el Perceptrón podemos utilizar los metodos que conocemos: Supervisado, Por Refuerzo y No Supervisado.
El Perceptrón multicapa
Esta estructura nació con la intención de dar solución a las limitaciones del Perceptrón clásico o unicapa, y supuso el resurgimiento del movimiento conexionista. Como su nombre indica, se trata de un unos cuantos (dos o tres) perceptrones unicapa conectados en cascada
El problema de este tipo de Perceptrón está en su entrenamiento, ya que es difícil modificar correctamente los pesos de la capa oculta (la capa 1 en el ejemplo anterior). Para poder hacer aprender cosas a un Perceptrón de este tipo, se implementó el algoritmo de BackPropagation, que tal como su nombre indica tiene la función de ir propagando los errores producidos en la capa de salida hacia atrás.
Modelo de Perceptrón Multicapa
Redes con alimentación hacia delante (no recurrentes) y sin capas ocultas (Rosenblatt) Cada unidad de salida es independiente de las otras ya que cada peso afecta sólo a una salida. Se puede construir cualquier multi-perceptron a partir de perceptrones de una salida Pueden representar funciones booleanas complejas. Ej: una función que detecta si más de la mitad de sus n entradas están a 1, se representan con un perceptron con todos los pesos a 1 y Sólo pueden representar funciones linealmente separables .
Un ejemplo práctico de un Perceptrón multicapa podría ser su uso en visión artificial. Dada su capacidad para generalizar, las redes neuronales ya han demostrado su importáncia en este campo. El unico problema és la lentitud que tiene para aprender.
Este es otro de los modelos pioneros de las ANNs i el mas simple a la hora de aproximar. se basa en el criterio del error cuadràtico médio line i fué introducido por Widrow. ADALINE sigue siendo de una sola capa como el perceptron, con la unica diferència de la función de transferencia lineal (imagen 5.3)
El método de entrenamiento que adopta este modelo és el de adaaptación a los datos i se basa en el algoritmo de descenso del gradiente.
Función de transferéncia lineal
Backpropagation
El aprendizaje con redes de neuronas se realiza actualmente siguiendo el enfoque de la Retropropagación de Gradiente Backpropagation y el de los algoritmos constructivos. El primero necesita introducir a priori el número y conexiones de las unidades ocultas, y determinar los pesos por minimización de un costo. La red así obtenida es eventualmente simplificada eliminando unidades y/o conexiones que parecen inútiles.
El principal defecto de este enfoque consiste en la búsqueda de la mejor arquitectura a través de prueba y error. Por otra parte, con un enfoque constructivo se aprende al mismo tiempo el número de unidades y pesos, en el marco de una arquitectura que comienza generalmente con un perceptron. La característica de estos algoritmos es que construyen una RN adaptada a cada problema particular, usando la información contenida en el conjunto de aprendizaje y evitando rediseñar la arquitectura. El primer algoritmo constructivo fue el algoritmo Tiling, de ahí surgieron Cascade Correlation, el algoritmo Upstart, Offset y GAL entre otros. Monoplan y NetLines son dos algoritmos recientemente introducidos por el autor. De aquí en adelante, nuestra discusión será basada únicamente en los métodos constructivos.
Una vez construida la red, ésta debe ser capaz de predecir la clase de datos nuevos que no estén presentes en el conjunto de aprendizaje. La calidad del algoritmo de aprendizaje se traduce en la capacidad de predicción de la RN. Esta calidad se mide a través del error de generalización, que es la proporción de clasificaciones correctas realizadas por la red sobre nuevos datos. Esta cantidad se mide empíricamente sobre una serie de problemas estándar (benchmarks) que sirven de prueba.
Otros Modelos
Dentro de los supervisados encontramos diversos modelos como los descritos brevemente a continuación:
Time Delay NN: Red multicapa feddforward donde las salidas de cada capa estan retenidas durante un tiempo, conectandose todas a la vez a la siguiente capa. La aplicación donde más se encuentran estas redes es en las tascas de reconociemeto optico.
Probabilistic NN: Red de tres capas, que en su forma standar no entrena. El aprendizaje se realiza similar a la red de Hamming. Su mayor ventaja és que no necesita entrenamiento i la mayor desventaja que sus matrices son muy largas.
Generalized Regresion NN: Red que por lo general no necesita un entrenamiento iterativo, se utiliza en problemas de clasificación o estimación de variables continuas.