Web scraping
Web scraping (Web cosecha o extracción de datos Web) es una técnica de software de computadora de extracción de información De sitios web. Por lo general, dichos programas de software simulan la exploración humana de la World Wide Web implementando o bajo nivel Hypertext Transfer Protocol (HTTP), o incrustar un navegador web hecha y derecha, tales como Internet Explorer o Mozilla Firefox.
Raspado de Web está estrechamente relacionado con indexación de direcciones Web, que indexa información en la web usando un Bot o rastreador web y es una técnica universal adoptada por la mayoría de motores de búsqueda. En contraste, raspado de web se centra más en la transformación de los datos no estructurados en la web, normalmente en HTML formato, en datos estructurados que pueden ser almacenados y analizados en una base de datos local central u hojas de cálculo. Web scraping también está relacionado con la automatización de la web, que simula humano utilizando programas informáticos de navegación. Aplicaciones de web scraping incluyen la comparación de precios en línea, Contacta con raspado, el tiempo datos de monitoreo, detección de cambios de página web, investigación, Web mashup y la integración de datos web.
Web raspado relacionados con el tráfico ha aumentado en los últimos años. En promedio 23% de todo el tráfico fue raspado-relacionada en 2013.[1][¿fuente no fiable?]
Contenido
- 1 Técnicas
- 2 Cuestiones jurídicas
- 3 Herramientas de notables
- 4 Véase también
- 5 Medidas técnicas para detener los bots
- 6 Referencias
- 7 Véase también
Técnicas
Web raspado es el proceso de recoger automáticamente la información de la World Wide Web. Es un campo con desarrollos activos comparten un objetivo común con la web semántica visión, una ambiciosa iniciativa que aún requiere de avances en el proceso de texto, comprensión semántica, inteligencia artificial y la interacción persona-ordenador. Web actual raspado soluciones abarcan desde la ad hoc, que requieren esfuerzo humano, con sistemas completamente automatizados que son capaces de convertir sitios web completos en información, con limitaciones estructurada.
- Humano copiar y pegar: A veces incluso la tecnología web-que raspa mejor no puede substituir examen manual y copiar y pegar del ser humano, y a veces esto puede ser la solución viable sólo cuando los sitios web para raspar explícitamente establecen barreras para evitar la automatización de la máquina.
- Texto grepping y coincidencia de expresión regular: Un enfoque simple pero potente para extraer información de las páginas web se puede basar en el UNIX grep comando o instalaciones de coincidencia de expresión regulares de lenguajes de programación (por ejemplo Perl o Python).
- Programación HTTP: Estática y páginas web dinámicas puede ser obtenido mediante la publicación de las solicitudes HTTP al servidor web remoto mediante programación de socket.
- Analizadores de HTML: Muchos sitios web tiene grandes colecciones de páginas generadas dinámicamente desde una fuente subyacente estructurada como una base de datos. Datos de la misma categoría son típicamente codificados en páginas similares por un guión común o plantilla. En minería de datos, un programa que detecta estas plantillas en una fuente de información particular, extrae su contenido y lo traduce en una forma relacional, se llama un envoltura. Algoritmos de generación de envoltura asumen que páginas de entrada de un sistema de inducción de la envoltura se ajusten a una plantilla común y que puedan ser fácilmente identificados en términos de un esquema común de dirección URL.[2] Por otra parte, algunos los datos semiestructurados consulta de idiomas, tales como XQuery y el HTQL, puede utilizarse para analizar páginas HTML y para recuperar y transformar el contenido de la página.
- DOM análisis sintáctico: Incrustando un navegador web de pleno derecho, tales como la Internet Explorer o el Mozilla control de navegador, programas pueden recuperar el contenido dinámico generado por secuencias de comandos del cliente. Estos controles del navegador también analizan páginas web en un árbol DOM, basado en programas que pueden recuperar las partes de las páginas.
- Software web-raspado: Hay muchas herramientas de software disponibles que pueden utilizarse para personalizar soluciones web-que raspa. Este software puede intentar automáticamente reconoce la estructura de datos de una página o proporcionar una interfaz de grabación que elimina la necesidad de escribir manualmente Código web-raspado, o algunas funciones de secuencias de comandos que pueden utilizarse para extraer y transformar el contenido y las interfaces de bases de datos que pueden almacenar los datos rascados en bases de datos locales.
- Plataformas verticales de agregación: Hay varias empresas que se han desarrollado plataformas de recolección específicas vertical. Estas plataformas de crear y controlar una multitud de "bots" para verticales específicos con ningún "hombre en el lazo" (sin intervención humana directa) y ningún trabajo relacionado con un sitio de destino específico. La preparación consiste en establecer la base de conocimientos para toda la vertical y la plataforma crea los bots automáticamente. Robustez de la plataforma se mide por la calidad de la información que recupera (generalmente el número de campos) y su escalabilidad (qué tan rápido puede escalar hasta cientos o miles de sitios). Esta escalabilidad es mayormente usado al objetivo del Cola larga de sitios que agregadores común encuentran complicadas o demasiado intensivas para el contenido de la cosecha.
- Reconocimiento de anotación semántica: Las páginas se raspó puede abrazar metadatos o elementos de marcado semánticos y anotaciones, que pueden utilizarse para localizar fragmentos de datos específicos. Si las anotaciones están incrustadas en las páginas, como Microformatos Así, esta técnica puede considerarse como un caso especial de análisis sintáctico DOM. En otro caso, las anotaciones, organizados en una capa semántica,[3] son almacenados y gestionados por separado desde las páginas web, así que los rascadores pueden recuperar esquema de datos y las instrucciones de esta capa antes de raspar las páginas.
- Visión por computador Analizadores de la página web: Hay esfuerzos usando aprendizaje automático y visión por computador que intentan identificar y extraer información de páginas web por interpretar páginas visualmente como un ser humano.[4]
Cuestiones jurídicas
Web scraping puede estar en contra de la términos de uso de algunos sitios Web. La aplicabilidad de estos términos es incierta.[5] Mientras que en muchos casos, duplicación directa de expresión original será ilegal, en el Estados Unidos la Justicia dictaminó en Publicaciones de Feist v. servicio telefónico Rural la duplicación de datos es permisible. Los tribunales estadounidenses han reconocido que los usuarios de "robots" o "raspadores" pueden ser responsables por cometer allanamiento de inmuebles,[6][7] que implica un sistema informático considerados propiedad personal sobre el cual el usuario de un raspador es propiedad privada. El más conocido de estos casos, eBay v. borde del licitador, dio lugar a una medida cautelar ordenando borde del licitador para parar acceder a, recogiendo e indexación de las subastas del sitio web de eBay. Este caso involucra la colocación automática de ofertas, conocidas como Subasta "sniping". Sin embargo, para tener éxito en una demanda de traspaso a inmuebles, la demandante debe demostrar que el acusado intencionalmente y sin autorización interferido posesorios del demandante en el sistema informático y que el acusado está desautorizado uso causada daños al demandante. No todos los casos de spidering web ante los tribunales han considerado traspaso a inmuebles.[8]
Una de las primeras pruebas importantes de raspado de pantalla involucrados American Airlines (AA), y una firma llamada FareChase.[9] AA con éxito obtenida un medida cautelar de un Texas corte de primera instancia, impide la venta de software que permite a los usuarios comparar precios en línea si también la búsqueda Web de AA FareChase. La aerolínea argumentó que software de FareChase websearch traspasados en servidores de AA cuando recopilaron los datos disponibles al público. FareChase interpuso un recurso en marzo de 2003. En junio, FareChase y AA acordaron resolver y la apelación fue eliminada.[10]
Southwest Airlines también ha desafiado a prácticas de pantalla-que raspa y ha involucrado tanto FareChase y otra firma, Outtask, en una demanda legal. Southwest Airlines habían cargado que el raspado de pantalla es ilegal ya que es un ejemplo de "Fraude y abuso de computadora" y ha provocado "Daños y pérdidas" y "Acceso no autorizado" del sitio web de Southwest. Constituye, además, "Interferencia con relaciones comerciales", "Intrusión ilegal" y "Perjudiciales acceso por computadora". También afirmaron que la pantalla-que raspa constituye legalmente lo que se conoce como "La apropiación y el enriquecimiento injusto", además de ser una violación del acuerdo de usuario del sitio web. Outtask negado todas estas declaraciones, afirmando que la ley imperante en este caso debe ser Derecho de autor de Estados Unidos, y que el derecho de autor, las piezas de información que raspa no sería sujeto a protección de copyright. Aunque los casos nunca se resolvieron en el Corte Suprema de los Estados Unidos, FareChase finalmente fue cerrada por casa matriz Yahoo!, y Outtask fue comprado por la empresa de gastos de viajes Concur.[11] En 2012, una startup llamada 3Taps raspada anuncios clasificados vivienda de Craigslist. Craigslist envió 3Taps una carta de Cesar y desistir y sus direcciones IP bloqueadas y posteriormente demandó, en Craigslist v. 3Taps. El Tribunal sostuvo que la carta de Cesar y desistir y bloqueo de IP era suficiente para Craigslist a reclamar correctamente que 3Taps había violado el Ley de abuso y fraude informático.
Aunque estos son principios de raspar las decisiones, y las teorías de responsabilidad no son uniformes, es difícil ignorar un patrón que los tribunales están dispuestos a proteger contenidos propios en sitios comerciales de usos que son indeseables a los propietarios de dichos sitios. Sin embargo, el grado de protección para dichos contenidos no se resuelva y dependerá del tipo de acceso por el raspador, la cantidad de información accesible y copiado, el grado al que el acceso afecta negativamente el sistema del propietario del sitio y los tipos y forma de prohibiciones sobre tal conducta.[12]
Mientras que la ley en esta área se convierte en más calmada, entidades contemplando utilizando programas de raspado para acceder a un sitio web público también deben considerar si dicha acción está autorizada mediante la revisión de los términos de uso y otros términos o avisos publicado en o disponibles a través del sitio. En la última sentencia en el CVent, Inc. v. Eventbrite, Inc. En el Tribunal de distrito de Estados Unidos para el distrito oriental de Virginia, la corte dictaminó que las condiciones de uso se deben traer a la atención de los usuarios en orden para un buscar abrigo contrato de licencia o que se deben cumplir.[13]
Aparece en el sitio web de la demandante durante el período del juicio los términos de uso enlace entre todos los enlaces del sitio, en la parte inferior de la página como en la mayoría de sitios en internet. Este fallo contradice la decisión irlandesa que se describe a continuación. El Tribunal también rechazó el argumento del demandante que las restricciones de envoltura de examinar eran aplicables a la vista de adopción del estado de Virginia de la uniforme ordenador información transacciones Act (UCITA) — una ley uniforme que muchos creían era a favor en común abrigo de examinar las prácticas de contratación.[14]
Fuera de los Estados Unidos, en febrero de 2006, el danés marítimo y comercial corte (Copenhague) dictaminó que rastreo sistemático, indexación, y vinculación profunda por portal de ofir.dk de sitio de bienes raíces Home.dk no entra en conflicto con la ley danesa o la Directiva de base de datos de la Unión Europea.[15]
En 2009 Facebook ganó uno de los primeros trajes copyright contra un raspador web conocido. Esto sentó las bases para numerosos pleitos que atar cualquier web raspar con una violación directa del derecho de autor y daños y perjuicios monetarios muy claro, el caso más reciente es AP v aguanieve, donde los tribunales desnudaron de lo que se refiere al uso justo en la internet.[16]
En febrero de 2010 caso complicado por cuestiones de jurisdicción, Irlanda Un Ard-Chúirt entregó un veredicto que ilustra la incipiente estado de desarrollo del caso derecho. En el caso de Ryanair Ltd v Billigfluege.de GmbH, Tribunal Supremo de Irlanda falló acuerdo "click-wrap" de Ryanair a ser jurídicamente vinculante. En contraste con los resultados de los Estados Unidos Tribunal de distrito de distrito oriental de Virginia y los del danés marítima y comercial corte, el juez Michael Hanna dictaminó que el hipervínculo a términos y condiciones de Ryanair era claramente visible, y que colocar la responsabilidad recae en el usuario de acuerdo a los términos y condiciones para acceder a servicios en línea es suficiente para abarcar una relación contractual. [17] La decisión está en apelación ante el Tribunal Supremo de Irlanda, el Cúirt Uachtarach na hÉireann.[18]
En Australia, el Spam Act de 2003 forajidos algunas formas de recolección de la web, aunque esto sólo se aplica a las direcciones de correo electrónico.[19][20]
Herramientas de notables
- Apache Camel
- Automatización en cualquier lugar
- Convertigo
- Rizo
- Barra de datos
- Diffbot
- Firebug
- Greasemonkey
- HtmlUnit
- HTTrack
- iMacros
- Jaxer
- Node.js
- Nokogiri
- ScraperWiki
- Scrapy
- SimpleTest
- Watir
- Wget
- Wireshark
- WSO2 Mashup Server
- Tuberías de Yahoo!
- Lenguaje de consulta de Yahoo! (yql)
- selenio (software)
- phantomjs
- Visón (desambiguación) un explorador sin cabeza de GNU está escrito en PHP 5.
- Import.Io
Véase también
- 30 dígitos
- Comparación de agregadores de alimentación
- Trabajo de embalaje
- Importador
- OpenSocial
- Informe minero
- Sitio de raspador
- Spamdexing
- Recopilación del texto
- Rastreadores web
Medidas técnicas para detener los bots
El administrador de un sitio web puede utilizar diversas medidas para detener o disminuir un bot. Algunas técnicas incluyen:
- Bloquear una dirección IP. También bloqueará todos navegando desde esa dirección.
- Deshabilitar cualquier servicio Web API que podría exponer el sistema del sitio Web.
- Los bots a veces declarar que ellos son (usando cadenas de agente de usuario) y puede ser bloqueado sobre esa base (usando robots.txt); 'Googlebot' es un ejemplo. Algunos bots no hacen ninguna distinción entre ellos mismos y un navegador humano.
- Los bots pueden ser bloqueados mediante el control de exceso de tráfico.
- Los bots pueden bloquearse a veces con herramientas para verificar que es una persona real acceder al sitio, como una CAPTCHA. Los bots son codificados a veces explícitamente romper patrones específicos de Captcha.
- Servicios comerciales anti-bot: compañías ofrecen servicios Anti-bot y anti-raspado para sitios Web. Algunos web firewalls de aplicación tienen limitadas capacidades de detección de bot también.
- Localización de robots con un Honeypot u otro método para identificar las direcciones IP de los rastreadores automatizados.
- Usando Sprites CSS para Mostrar datos tales como números de teléfono o direcciones de correo electrónico, en el costo de accesibilidad Para lector de pantalla a los usuarios.
Referencias
- ^ Centinela Managed Security Services (abril de 2014). "ScrapeSentry raspado amenaza Informe 2014". 19 / 06 / 2014.
- ^ Canción, Ruihua; Microsoft Research (Sep 14, 2007). "Optimización conjunta de envoltura de la generación y detección de plantilla". La XIII Conferencia Internacional sobre el descubrimiento de conocimiento y minería de datos.
- ^ Raspado de anotación semántica basado en web
- ^ Roush, Wade (2012-07-25). "Diffbot es uso de visión por computador para reinventar la Web semántica". www.Xconomy.com. 2013-03-15.
- ^ "FAQ sobre vinculación – son términos del sitio web de uso contratos vinculantes?". www.chillingeffects.org. 2007-08-20. 2007-08-20.
- ^ "Ley de Internet, Cap. 06: traspaso de bienes muebles". www.tomwbell.com. 2007-08-20. 2007-08-20.
- ^ "¿Cuáles son las reivindicaciones de"intrusión ilegal de inmuebles"algunas empresas o propietarios de páginas web han traído?". www.chillingeffects.org. 2007-08-20. 2007-08-20.
- ^ "Ticketmaster Corp. v. Tickets.com, Inc.". 2007-08-20. 2007-08-20.
- ^ "American Airlines v. FareChase". 2007-08-20. 2007-08-20.
- ^ "American Airlines, FareChase Settle traje".. La Biblioteca libre. 2003-06-13. 26 / 02 / 2012.
- ^ Imperva (2011). Detecta y bloquea sitio raspando los ataques. White paper de Imperva. Obtenido de https://www.Imperva.com/docs/WP_Detecting_and_Blocking_Site_Scraping_Attacks.pdf.
- ^ Adler, Kenneth A. (2003-07-29). "Controversia rodea 'Pantalla raspadores': Software ayuda a los usuarios acceso a sitios Web, pero la actividad de los competidores viene bajo la lupa". 2010-10-27.
- ^ "En el Tribunal de distrito Estados Unidos para el distrito oriental de VIRGINIA Alexandria división". 2010-09-15. 2010-10-27.
- ^ "¿Iqbal/Twombly elevar el listón para reclamaciones Browsewrap?". 2010-09-17. 2010-10-27.
- ^ "UDSKRIFT AF SØ - & HANDELSRETTENS DOMBOG". bvhd.dk. 2006-02-24. 2007-05-30.
- ^ "Es web scraping ilegal depende de lo que es el significado de la palabra es". Destilar redes obtenidas 2013-07-18
- ^ "Alta corte de Irlanda decisiones >> Ryanair Ltd - v-Billigfluege.de GMBH 2010 IEHC 47 (26 de febrero de 2010)". Británicos e irlandés Legal Information Institute. 2010-02-26. 19 / 04 / 2012.
- ^ Matthews, Áine (junio de 2010). "Propiedad intelectual: términos de uso del sitio web". Tema 26: Junio de 2010. Actualización de LK escudos abogados. p. 03. 19 / 04 / 2012.
- ^ Oficina Nacional para la economía de la información (febrero de 2004). "Spam Act de 2003: un resumen para los negocios". Autoridad australiana de comunicaciones. p. 6. 2009-03-09.
- ^ Oficina Nacional para la economía de la información (febrero de 2004). "Spam Act 2003: Guía práctica para los negocios". Autoridad australiana de comunicaciones. p. 20. 2009-03-09.
Véase también
- Datos de raspar
- Datos de disputas
- descubrimiento de conocimiento