volkerbraun1
I'm new here

FS-Search: PDF und Office-Dokumente im Suchergebnis

Jump to solution

Hallo Community,

ich habe hier im Forum und auch in der FS-Search Dokumentation nicht die Antwort auf meine Frage gefunden:

Wie schaffe ich es mit der FS-Search (Version 4.2.476) Dokumente wie PDF, DOC, DOCX, XLSX im Suchergebnis anzuzeigen?

Ich habe in der fs-search.xml ausdrücklich den Ordner mit den Dokumenten (in der Medienverwaltung) erlaubt. In den Seiten, die ich indiziere, sind diese Dokumente verlinkt. Aber die Dokumente selber erscheinen nicht, wenn ich z.B. nach dem Dokumenten-Namen suche.

Was muss also wo eingestellt werden, damit Dokumente in den Such-Index aufgenommen werden und im Suchergebnis erscheinen? Wir nutzen die Spider-Enginge (Lucene-Index).

Viele Grüße

Volker Braun

0 Kudos
1 Solution

Accepted Solutions
klein
Crownpeak employee

Hallo,

handelt es sich bei den PDF-Dokumenten um echte PDF-Dokumente oder sind es vielleicht nur Bilder, die in PDF verpackt wurden? Sprich: können Sie so ein PDF einfach so (ohne Authentifizierung) öffnen und direkt dort nach einem Begriff erfolgreich suchen? Und liegen die abgelegten PDFs wirklich nicht in einem geschützten Bereich?

Dann sollte die PDF-Dokumente eigentlich auch im Index landen und somit sollten auch die Ergebnisse daraus in der Trefferliste erscheinen.

Um zu überprüfen, ob die PDF Inhalte im Index vorhanden sind, gehen Sie wie folgt vor:

- Öffnen Sie den Lucene Suchindex mit dem Tool Luke:

http://www.getopt.org/luke/

  1. der direkte Start:

http://luke.googlecode.com/files/lukeall-1.0.1.jar

- Wählen Sie als Index den Unterordner aus, wo Ihr Suchindex liegt. Gegebenenfalls kopieren Sie sich den Ordner vorher auf ein System, auf welches Sie direkten zugriff haben.

- Wechseln Sie zur Karteikarte Search

- Wählen Sie auf der rechten Seite unter Analysis den Analyser "org.apache.lucene.analysis.SimpleAnalyzer" aus und als Feld "content"

- Tragen Sie als Search expression [links oben] einen Begriff ein, von dem Sie wissen, dass dieser in einem PDF vorkommt

- Suchen Sie mir dem Search button

Finden Sie in der Ergebnisliste Ihr PDF-Dokument?

Wenn ja, dann ist der Index i.O. - den Fehler müssten Sie dann in der Ausgabe der Treffer in Ihrer Suchergebnisseite suchen.

Gruß,

Walter Klein.

View solution in original post

0 Kudos
1 Reply
klein
Crownpeak employee

Hallo,

handelt es sich bei den PDF-Dokumenten um echte PDF-Dokumente oder sind es vielleicht nur Bilder, die in PDF verpackt wurden? Sprich: können Sie so ein PDF einfach so (ohne Authentifizierung) öffnen und direkt dort nach einem Begriff erfolgreich suchen? Und liegen die abgelegten PDFs wirklich nicht in einem geschützten Bereich?

Dann sollte die PDF-Dokumente eigentlich auch im Index landen und somit sollten auch die Ergebnisse daraus in der Trefferliste erscheinen.

Um zu überprüfen, ob die PDF Inhalte im Index vorhanden sind, gehen Sie wie folgt vor:

- Öffnen Sie den Lucene Suchindex mit dem Tool Luke:

http://www.getopt.org/luke/

  1. der direkte Start:

http://luke.googlecode.com/files/lukeall-1.0.1.jar

- Wählen Sie als Index den Unterordner aus, wo Ihr Suchindex liegt. Gegebenenfalls kopieren Sie sich den Ordner vorher auf ein System, auf welches Sie direkten zugriff haben.

- Wechseln Sie zur Karteikarte Search

- Wählen Sie auf der rechten Seite unter Analysis den Analyser "org.apache.lucene.analysis.SimpleAnalyzer" aus und als Feld "content"

- Tragen Sie als Search expression [links oben] einen Begriff ein, von dem Sie wissen, dass dieser in einem PDF vorkommt

- Suchen Sie mir dem Search button

Finden Sie in der Ergebnisliste Ihr PDF-Dokument?

Wenn ja, dann ist der Index i.O. - den Fehler müssten Sie dann in der Ausgabe der Treffer in Ihrer Suchergebnisseite suchen.

Gruß,

Walter Klein.

0 Kudos