El crecimiento de la información que se encuentra en la web ha sido exponencial debido a la necesidad de los usuarios de contar con datos. La información de la web es finita pero el número de páginas web es infinita. Actualmente existen alrededor de 4 mil millones de páginas estáticas, es decir la información que poseen los buscadores web, pero sin embargo es importante mencionar que la mayoría de las páginas web no son dinámicas, es decir son aquellas que se generan automáticamente con datos extraídos de bases de datos.
Existen diferentes problemas a los que se enfrentan los usuarios debido al crecimiento exponencial. Uno de esos problemas es el que representa encontrar información relevante.
La Web Mining se define como el uso de técnicas para descubrir y extraer de forma automática información de documentos y servicios web. La Web Mining es el proceso de descubrir y analizar información “útil” de los documentos de la Web. Se puede definir como el descubrimiento y análisis de información relevante que involucra el uso de técnicas y acercamientos basados en la minería de datos (Data Mining) orientados al descubrimiento y extracción automática de información de documentos y servicios de la Web, teniendo en consideración el comportamiento y preferencias del usuario.
En la web mining, los datos pueden ser recolectados en diferente niveles; en el área del servidor, en el lado del cliente, en los servidores proxys, etc. El proceso general de web mining es el siguiente:
- Recuperación de Información: Nos referimos básicamente al proceso de descubrimiento automático de documentos relevantes de acuerdo a una cierta búsqueda. Estos documentos relevantes pueden ser noticias electrónicas, newsgroups, newswires, contenido de las html, etc.
- Extracción de Información: Tiene como objetivo transformar los documentos extraídos en el proceso de recuperación de información, en documentos que sean más fáciles de leer y de analizar.
- Generalización: Reconocimiento de Patrones generales de una página en particular o bien también patrones de diferentes páginas.
- Análisis: Una vez que los patrones han sido identificados, la parte humana juega un papel importante haciendo uso de herramientas adecuadas para entender, visualizar e interpretar los patrones
No hay comentarios:
Publicar un comentario