Rulber Velásquez: AGENTE INTELIGENTE: “BÚSQUEDA DE PLANTAS MEDICINALES”

La época tecnológica actual nos lleva trabajar en un mundo donde la información es un territorio muy extenso por explorar, los buscadores actuales están en constante mejoramiento, con el fin de ofrecer mejores resultados a sus clientes, de aquí nace la idea de desarrolla un software inteligente, este agente tiene como finalidad el acelerar el proceso de búsqueda actual y que los resultados que presenta sean los más adecuados y los esperados.

En este entorno actual surge el presente trabajo, que tiene como finalidad abordar el estudio del desarrollo y diseño de un agente de búsquedas, basado en la recuperación y manejo de la información, aplicado en la búsqueda de plantas medicinales, donde el usuario ingresa la enfermedad para la cual necesita una planta medicinal y el agente responde a esta consulta, además cada búsqueda será valorada y sumará un peso a cada planta.

El uso de los algoritmos clasificadores o de aprendizaje supervisado, están siendo considerados en los agentes de búsqueda y recuperación de información, como se puede apreciar en los trabajos enunciados anteriormente.

Los algoritmos utilizados son muy diversos, esto se debe al tipo de problema que se aborda en cada trabajo, en el estudio de comparación de algoritmos los que resultaron más eficientes, fueron: BST-DT, RF, BAG-DT y el SVM.

Por lo que se puede decir que el presente trabajo se seleccionará el algoritmo SVM, ya que debido al principio de minimización de riesgo estructural, se convierte en algoritmo robusto y ágil.

Para el desarrollo del presente se estará utilizando el al algoritmo de clasificación de información SVM[1] o Máquinas de Vectores de Soporte, las cuales se han destacado en la clasificación de textos, ya que tienden a minimizar el error de generalización y los errores del clasificador sobre nuevas instancias.

Los fundamentos de este algoritmo se encuentran en los trabajos de Vapnik y otros actores sobre la teoría de aprendizaje estadístico, desarrollados a finales de los 70 y durante los 80. El modelo como se entiende hoy fue presentado en la conferencia de COLT, teoría de Aprendizaje Computacional en 1992 por Vapnik junto con Baser y Guyon y descrito con más detalle posteriormente en 1995 y 1998, posibilitando la práctica de la formulación teórica en problemas reales de reconocimiento de patrones.

Trabaja con un modelo que estructuralmente tenga poco riesgo de cometer errores ante datos futuros, este principio se denomina Minimización de Riesgo Estructural (SRM), lo que permite construir modelos confiables.[2]

Este algoritmo se caracteriza por tener un conjunto de puntos (datos de entrenamiento) ubicados en un plano dimensional (SVM), que se dividen en clases, estas se separan de acuerdo a la muestra que se está evaluando, mediante la construcción de un hiperplano que separa y maximicen la distancia entre ellas. [3]

Un problema que presenta este algoritmo es el sobrentrenamiento, este se da cuando han aprendido muy bien los datos de entrenamiento, pero no se pueden clasificar bien los ejemplos nuevos nunca antes vistos, esto nos da como resultado una mala generalización. [4]

--------------------------------------------------------------------

[1]Alberto Téllez Valero. 2005. EXTRACCIÓN DE INFORMACIÓN CON ALGORITMOS DE CLASIFICACIÓN. Pág 20

[2] Basilio Sierra Araujo. 2006. APRENDIZAJE AUTOMÁTICO: CONCEPTOS BÁSICOS Y AVANZADOS “MÉTODOS KÉRNEL Y MÁQUINAS DE VECTORES SOPORTE” Pág. 175

[3]Gerardo Colmenares 2009. MÁQUINAS DE VECTOR DE SOPORTE. Pág 1. http://www.webdelprofesor.ula.ve/economia/gcolmen/programa/economia/maquinas_vectores_soporte.pdf

[4] Gerardo Colmenares. 2009. MÁQUINAS DE VECTOR DE SOPORTE. Pág 11. http://www.webdelprofesor.ula.ve/economia/gcolmen/programa/economia/maquinas_vectores_soporte.pdf

---------------------------------------------------------------------

Referencia:

Trabajo realizado por Raquel Luzuriaga, puedes descargar el trabajo completo AQUÍ

Un póster de su presentación a continuación: