Built for convenience.
SkyScraper ist die hauseigene Web-Scraping-Engine von HOFtech. Sie dient dem zentralen Aggregieren von Informationen newsrelevanter Webseiten. Ihr Ziel ist neben umfangreicher Datenakquise auch kontinuierliche Load-Optimierung, um jederzeit eine geringe Auslastung der angefragten Server sicherzustellen.
Anders als bekannte Suchmaschinen wie Google, Yahoo oder DuckDuckGo verzichtet SkyScraper auf Crawling-Operationen und parallele Anfragen. Stattdessen werden die Anfragen sequentiell an den Server gestellt und sorgen somit für eine geringere Rechen- und Netzwerklast. In Verbindung mit unserer intelligenten Laststeuerung kann so die Aktualität der Daten unter absoluter Lastminimierung gewährleistet werden.
Auch RSS-Feeds können von SkyScraper aggregiert und ressourcenschonend abgefragt werden. Falls eine Webseite ihren Service auch über einen RSS-Feed anbietet, nutzt SkyScraper diese Schnittstelle bevorzugt. Diverse Fallback-Methoden unterstützen die Ausfallsicherheit dieser Erhebungsmethode.
Gegenüber Webseiten weist sich SkyScraper zudem per User-Agent-String aus und macht so eine eindeutige Zuordnung von Anfragen möglich. Über die robots.txt lässt sich das Zugriffsverhalten von SkyScraper anpassen, um individuelle Last- und Verfügbarkeitsanforderungen zu berücksichtigen.
Das Leben ist ein Geben und Nehmen. Von SkyScraper gesammelte Daten werden von uns aufbereitet und so dargestellt, dass keine Urheberrechte verletzt werden. Wir verweisen stets auf die Quellseite und leiten jegliche Anfragen direkt zum Urheber weiter. Dadurch greifen wir nicht die monetären Standbeine der Webseiten an, sondern ganz im Gegenteil: wir erhöhen ihre Reichweite!
User-Agent
User-Agent-String
RSS-Unterstützung
Scrape-Rate
Intervall
robots.txt-konform