martes, 9 de diciembre de 2008

La importancia de... encontrar la información oculta en la red

Casi seguro que alguna vez habéis oido hablar de Data Mining o Minería de Datos, que no es más que el estudio y análisis de grandes fuentes de información para encontrar patrones o datos ocultos, que a primera vista no se aprecian, con el fin lograr mejoras en algún proceso determinado.

El crecimiento de la información que se encuentra en la web ha sido exponencial debido a la necesidad de los usuarios de contar con datos. La información de la web es finita pero el número de páginas web es infinita. Actualmente existen alrededor de 4 mil millones de páginas estáticas, es decir la información que poseen los buscadores web, pero sin embargo es importante mencionar que la mayoría de las páginas web no son dinámicas, es decir son aquellas que se generan automáticamente con datos extraídos de bases de datos.

Existen diferentes problemas a los que se enfrentan los usuarios debido al crecimiento exponencial. Uno de esos problemas es el que representa encontrar información relevante.

La Web Mining se define como el uso de técnicas para descubrir y extraer de forma automática información de documentos y servicios web. La Web Mining es el proceso de descubrir y analizar información “útil” de los documentos de la Web. Se puede definir como el descubrimiento y análisis de información relevante que involucra el uso de técnicas y acercamientos basados en la minería de datos (Data Mining) orientados al descubrimiento y extracción automática de información de documentos y servicios de la Web, teniendo en consideración el comportamiento y preferencias del usuario.


En la web mining, los datos pueden ser recolectados en diferente niveles; en el área del servidor, en el lado del cliente, en los servidores proxys, etc. El proceso general de web mining es el siguiente:
  • Recuperación de Información: Nos referimos básicamente al proceso de descubrimiento automático de documentos relevantes de acuerdo a una cierta búsqueda. Estos documentos relevantes pueden ser noticias electrónicas, newsgroups, newswires, contenido de las html, etc.
  • Extracción de Información: Tiene como objetivo transformar los documentos extraídos en el proceso de recuperación de información, en documentos que sean más fáciles de leer y de analizar.
  • Generalización: Reconocimiento de Patrones generales de una página en particular o bien también patrones de diferentes páginas.
  • Análisis: Una vez que los patrones han sido identificados, la parte humana juega un papel importante haciendo uso de herramientas adecuadas para entender, visualizar e interpretar los patrones
El proceso de web mining se divide en tres partes: la minería del uso (análisis de archivos de servidores Web, logs de acceso, logs de proxy, de navegador, sesiones, etc.), la minería del contenido (recogida de datos e identificación de patrones relativos a los contenidos de la web y a las búsquedas que se realizan sobre los mismos) y la minería de la estructura (revelar como están relacionados los hipervínculos entre las distintas páginas para generar un informe estructural sobre la página y el sitio web). En la figura siguiente se observa en detalle los pasos que utiliza cada tipo de minería en su proceso.

No hay comentarios: