Überarbeitung der Datenerfassung führt zu neuen Geschwindigkeitsrekorden

michaelkarbach
Crownpeak employee
Crownpeak employee
2 1 1,200

Die Datenerfassung in haupia basierte ursprünglich auf dem Konzept von Storages: Ein Storage beinhaltete den aktuellen Stand einer Datengenerierung und durchlief die Phasen Crawling, Enhancement und Synchronisation. Erst nachdem alle Dokumente eine dieser Phasen abgeschlossen hatten, wurde zur nächsten übergegangen. Dieses Prinzip ist seit den Anfängen ein Bestandteil haupias und führte unter Umständen zu Problemen durch den hohen Bedarf an Festplattenkapazität.

Innovative Technologien ermöglichen jetzt einen neuen Ansatz: Beginnend mit der haupia Version 2.0.75 werden Daten reaktiv eingelesen. Die Dokumente werden einzeln erfasst (Crawling), angereichert (Enhancement) und in den Suchindex gespeichert (Synchronisation). Dies sorgt für einen enormen Anstieg der Verarbeitungsgeschwindigkeit, einen deutlich geringeren Speicherbedarf und einer dezimierten I/O auf der Festplatte. Mit diesem zeitgemäßen Schema wurde das alte Konzept der Storages vollständig abgelöst.

Im Rahmen von Tests mit realen Daten wurde eine Laufzeitreduktion des Web-Datengenerators von 77 % - 84 %* gemessen. Bei der Erfassung von Daten im XML-Format konnte eine Senkung der Laufzeit um knapp 92 %* festgestellt werden.

Bildschirmfoto 2019-10-09 um 17.09.19.png

Bildschirmfoto 2019-10-09 um 17.09.44.png

(* Die Tests wurden von der e-Spirit AG im Juni 2019 auf einer dedizierten VM mit heterogenen Daten durchgeführt. Der Test erfolgte mit der haupia Version 2.0.75. Die Datengeneratoren liefen nicht im Parallelbetrieb. Die Leistung ist abhängig von der Konfiguration, der Netzwerkverbindung, der Größe von Dokumenten (wie z.B. PDFs) sowie weiteren Faktoren.)

1 Comment
Version history
Last update:
‎10-10-2019 04:50 AM
Updated by: