Definición:
El web mining o minería web es el proceso de utilizar técnicas de minería de datos y algoritmos para extraer información directamente desde la Web ya sea a través de documentos Web y servicios Web, hipervínculos y registros del servidor. El objetivo de la minería Web es buscar patrones en los datos de la Web mediante la recopilación y análisis de información a fin de obtener información sobre las tendencias, la industria y los usuarios en general.
Tipos de web mining:
- Web mining de contenido: Proceso de extracción de información útil a partir de los contenidos de las páginas Web y documentos Web, que son en su mayoría texto, imágenes y archivos de audio o vídeo.
- Minería de estructura Web: Proceso de análisis de la estructura de nodos y la conexión de un sitio web a través del uso de la teoría de grafos. Hay dos cosas que se pueden obtener de esta: la estructura de un sitio web en términos de cómo se conecta a otros sitios y la estructura del documento de la propia página web, en cuanto a cómo se conecta cada página.
- Minería del uso de la web: Proceso de extracción de patrones e información de los registros del servidor para obtener conocimientos sobre la actividad del usuario, de dónde procede, cuántos usuarios han hecho clic en un elemento en el sitio y los tipos de actividades que se efectúa en el sitio.
Web mining frente a la minería de datos
Al comparar la minería web con la minería de datos tradicional, hay tres diferencias principales a considerar:
- Escala: En la minería de datos tradicional, el procesamiento de 1 millón de registros de una base de datos supondría un gran trabajo. En la minería web, incluso 10 millones de páginas no sería un número muy grande.
- Acceso: Al hacer minería de datos de información corporativa, los datos son privados y con frecuencia requieren derechos de acceso para leerlos. Para la minería web, los datos son públicos y rara vez requiere derechos de acceso. Sin embargo, la minería web tiene limitaciones adicionales, debido al acuerdo implícito con respecto a los webmasters del acceso automatizado a estos datos. Este acuerdo implícito es que un webmaster permite rastreadores de acceso a los datos útiles en el sitio web, y en cambio el rastreador promete no sobrecargar el sitio y tiene el potencial de atraer más tráfico a la página web una vez que el índice de búsqueda está publicado. Con la minería web, a menudo no hay tal índice, lo que significa que el rastreador tiene que ser muy cuidadoso durante el proceso de rastreo, para no causar ningún problema para el webmaster.
- Estructura: Una tarea de minería de datos tradicional obtiene información de una base de datos, lo que proporciona un cierto nivel de estructura explícita. Una tarea de minería web típica es procesar datos no estructurados o semi-estructurados de páginas web. Aun cuando la información subyacente para las páginas web proviene de una base de datos, esto a menudo es oscurecida por el formato HTML.