Proyecto Neruda: extracción de entidades usando modelos ocultos de Markov

Resumen

La cantidad de informacion en formato de texto digital ha aumentao a un ritmo inesperado en la ultima decada. Por ello las tecnicas de Mineria de Textos (Text Mining) han sido objeto de una intensa actividad investigadora. Una de sus tareas consiste en el reconocimiento y correcta clasificacion de las palabras en una frase. Las categorias en las cuales una palabra puede ser clasificada se denominan entidades siempre que estas tengan un cierto grado de interes como nombres de personas y lugares o numeros que representen fechas o cantidades de dinero. Por este motivo dicha tares se suele denominar Extracion de Entidades, Named Entity Recognition (NER) en su version inglesa. Este articulo pretende acercar la materia, sus fundamentos esenciales y las tecnicas mas exitosas. Ademas presenta el proyecto NERUDA, un extractor de entidades desarrollado por los investigadores del Instituto Interligare de Innovacion en Inteligencia (14); cuyos resultados le situan inmediatamente detras del ganador en la ultima competicion anual de NER.

Publicación
Anales de ingeniería técnica en informática de sistemas
J. Manuel Colmenar
J. Manuel Colmenar
Catedrático de Universidad

Mis intereses de investigación se centran en las metaheurísticas aplicadas a problemas de optimización. He trabajado en diferentes problemas de optimización combinatoria aplicando algoritmos trajectoriales como GRASP o VNS. Además, estoy muy interesado en las aplicaciones de la Evolución Gramatical, específicamente en el dominio de los modelos y la predicción, como alternativa a los enfoques de aprendizaje automático.

Alberto Herrán González
Alberto Herrán González
Profesor Titular de Universidad