Dentro de los sistemas de recuperación y acceso a la información, se puede hacer una clara diferenciación entre recuperación y extracción de información.
Los sistemas de recuperación de información se encargan de procesar una colección de textos y entre todos ellos seleccionar aquellos que contengan algún término relacionado con la pregunta y descartando los que no estén relacionados.
Los sistemas de extracción de información, al contrario que los sistema anteriores, parten de una colección de textos pertenecientes todos a un mismo dominio y que contiene información considerada relevante para la aplicación. Estos sistemas tienen como objetivo principal localizar en los textos determinada información para poder rellenar una base de datos a la que podamos hacer preguntas. Con ello se consigue transformar información no estructurada en información estructurada.
Este tipo de extracción o recuperación de información esta basada en el aprendizaje de forma supervisada. Este aprendizaje se basa en un algoritmo que genera una función para establecer una correspondencia entre las entradas y las salidas deseadas del sistema. Un ejemplo de este tipo de algoritmo es el problema de clasificación, donde el sistema de aprendizaje trata de etiquetar (clasificar) una serie de vectores utilizando una entre varias categorías (clases). La base de conocimiento del sistema está formada por ejemplos de etiquetados anteriores.
En este wiki se presentarán una serie de métodos de extracción y recuperación de información basados en clasificación supervisada.
Página creada por David Miguel Campos Ramírez
Última Actualización: 28-03-2008
Wiki Grupo 15 - Recuperación y Organización de la información - Extracción y Recuperación de Información II