OntoPedia

Captura de ecra em 2013-03-04 00:28:31Uno de los mayores desafíos de la engeniería lingüística es conseguir extraer, almacenar, organizar y actualizar la información enciclopédica, en constante y dinámico crecimiento. En los últimos años, y concretamente a través del proyecto Datos Interconectados (Linked Data), están accesibles en la Web e interconectados un gran número de repositorios estructurados que contienen información sobre empresas, productos, términos científicos, escritores, compositores, obras de arte, música, lugares xeográficos, etc. Estos repositorios se actualizan a medida que se van modificando las fuentes externas de datos (también estructuradas) de las que dependen. Uno de los desafíos de los próximos años es actualizar esos datos buscando información, no solo en otras fuentes estructuradas de alto coste de manutención, sino también directamente en las fuentes textuales, es decir en los corpus lingüísticos.

Motivados por esta necesidad, el grupo de investigación ProLNat@GE coordinado por Pablo Gamallo (Citius) de la Universidad de Santiago de Compostela, matriz de la empresa Cilenis, trabaja desde 2011 en el proyecto OntoPedia. Este proyecto que cuenta con financiamiento del Ministerio de Ciencia e Innovación, tiene como objetivo adquirir, organizar y actualizar automáticamente grandes cantidades de información enciclopédica diseñando y aplicando técnicas de procesamiento del lenguaje natural y extracción de información. El proyecto se centra en el texto escrito en cuatro lenguas: inglés, español, portugués y gallego. Y todos los recursos y herramientas generados a partir del proyecto tendrán licencia libre (General Public License).

Concretamente el grupo desarrolló un sistema para extraer información sobre entidades con nombre (ENs) explotando corpus con conocimiento enciclopédico (por ahora, extraemos información de la Wikipedia). La información extraída se almacena en una base de conocimientos en forma de tripletas, que representan propiedades, eventos o hechos básicos relacionados con ENs y términos de especialidad. El proyecto cuenta ya con ONTOpedia, un buscador que opera sobre una colección de tripletas de 47GBs, y que permite el acceso a la información requerida por el usuario. Cada tripleta contiene información sobre cualquier EN o término de especialidad y está constituida por tres elementos (Objeto1, Relación, Objeto2). Ejemplos de tripletas son los siguientes:
Objeto1 Relación Objeto2
Mourinho- premios- premio Limón en 2002…
Rajoy- current age- 58
Aneto- elevation- 3404m

Las búsquedas pueden hacerse sobre cualquiera de los tres elementos de la tripleta. Así por ejemplo, si la búsqueda consta de dos palabras clave: “Mourinho” en el campo Objeto1 y “premios” en el campo Relación, el sistema devuelve todas las tripletas que mapean la consulta, incluyendo, además del premio Limón, el World Soccer y su Honoris Causa.

En fases posteriores, el proyecto tiene varios objetivos importantes: mejorar el buscador mediante una expansión de las tripletas por sinónimos y por equivalentes de traducción; construir una arquitectura computacional que permita la actualización constante de los corpus gracias al diseño e implementación de herramientas específicas de extracción para cada fuente de información (además de la Wikipedia, se extraerá información de diferentes periódicos y blogs); integrar un módulo con un analizador de preguntas en lenguaje natural para construir de este modo un sistema de búsqueda de respuestas (Question&Answering). Nuestro objetivo es que el usuario pueda consultar la base de conocimiento directamente mediante preguntas hechas en lenguaje natural: ¿qué premios ganó Mourinho?, ¿cuántos años tiene Rajoy actualmente?, ¿cuál es la altitud del Monte Aneto?

Queremos que ONTOpedia pueda competir y completar (el nuestro entiende más lenguas) el ya célebre sistema de IBM, Watson, el primer sistema de Búsqueda de Respuestas que ganó un concurso de televisión a dos concursantes humanos, en el popular programa americano Jeopardy.

Infórmate en nuestra ONTOpedia!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>