Basado en corpus y basado en conocimiento

Trabajar en una aplicación TLH cualquiera es complejo. Hay que decidir cómo abordar la tarea de entre las varias opciones probadas que se conocen o intentar una nueva aproximación. El propio problema a resolver se compone de varios problemas más pequeños, a menudo en cascada porque nutren de datos a otros que los necesitan. Además, es más que probable que se necesite partir de recursos previamente confeccionados para asistir a esas tareas o para medir lo buenos que son los resultados obtenidos.

En este módulo se introducen aspectos fundamentales de toda aproximación a soluciones a problemas de PLN. Se entiende que establecemos un marco muy general en el que cada tarea realiza sus adaptaciones en aras de conseguir los mejores resultados.

En definitiva, hay dos enfoques principales, el basado en conocimiento y el basado en corpus y aprendizaje automático. Estos enfoques se introducen en las lecciones y actividades que se muestran a continuación, junto con algunas de las herramientas y recursos típicos y propios de cada uno.

Se ha incluido aquí también una tarea a menudo intermedia, de apoyo a otras tareas que podemos denominar finales. Es la extracción de información, con largo recorrido ya en la historia del PLN, y ejemplo muy válido de aplicación de los dos enfoques en busca de lo mejores resultados.

Comenzamos con Antoni Oliver, profesor de la Universitat Oberta de Catalunya (UOC) que nos muestra algo que se están nombrando constantemente: basado en corpus y basado en conocimiento. Son, en realidad, dos aproximaciones buscando soluciones a los problemas del PLN. Antoni Oliver lo enfoca desde el punto de vista de los recursos más conocidos y usados en las TLH.

Esta es una primera parte general que se completará en la próxima lección con un caso de aplicación concreto.