FS-Search-Modul Konfiguration besser beschreiben / Externe Links

0 Kudos

Folgende Konfiguration ist laut Doku für FS-Search vorgesehen:

<attribute name="urls" type="list">                                                

    <attribute>http://example.com/de/homepage.jsp</attribute>

</attribute>

<attribute name="index">/var/searchIndex</attribute>

<attribute name="maxThreads">1</attribute>

<attribute name="threadPriority">2</attribute>

<attribute name="allowed" type="list">

    <attribute class="de.espirit.firstspirit.opt.search.engine.spider.link.RegexWebLinkFilter">/de/</attribute>

</attribute>

Wenn auf der Seite externe Links sind, die dem Allowed-Pattern entsprechen, wird der Crawlet auch auf externen Seiten aktiv.

Beispiel: der Link "http://example.org/de/example.html" würde mit indiziert und gecrawled.

Entweder müsste bitte in der Doku hervorgehoben werden, dass der Allowed-Filter die URL beinhalten muss (example\.com/de/), oder per Config-Eintrag sollte eingestellt werden können, ob externe Links mit durchsucht werden.

2 Comments
hoebbel
Crownpeak employee
Crownpeak employee

Da Sie diese Anfrage zeitgleich im helpdesk eingestellt haben, hier meine entsprechende Antwort von dort:

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

In der mir vorliegenden Version 1.3 der Dokumentation steht im Kapitel 4.5.4.2 Engine-Implementierung "Spider Engine" für den Parameter allowed/ forbidden folgendes:

***********************************************

Parameter "allowed" / "forbidden":

Bei den Parametern "allowed" und "forbidden" wird ein <attribute>-Tag definiert. Innerhalb dieses Tags wird mithilfe weiterer <attribute>-Tags eine Liste von Filtern (Teile eines URLs) angegeben. Für diese <attribute>-Tags ist der folgende RegexWebLinkFilter zu verwenden, für den ein regulärer Ausdruck (in Java-Syntax) anzugeben ist. Klasse: de.espirit.firstspirit.opt.search.engine.spider.link.RegexWebLinkFilter Als Typ für die Parameter "allowed" und "forbidden" muss "list" angeben werden. Für die inneren <attribute>-Tags, ist der RegexWebLinkFilter zu verwenden.

Beispiel:

<attribute name="allowed" type="list">

<attribute class="de.espirit.firstspirit.opt.search.engine.spider.link.RegexWebLinkFilter">intranet.meinServer.de/de/</attribute>

<attribute class="de.espirit.firstspirit.opt.search.engine.spider.link.RegexWebLinkFilter">intranet.meinServer.de/en/</attribute>

</attribute>

***********************************************

Es wird bei der Beschreibung dieser Parameter also ausdrücklich in dem Beispiel eine vollqualifizierte URL angegeben.

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

TanjaGroßmüller
Crownpeak employee
Crownpeak employee

Hallo,

ich gehe davon aus, dass Holgers Hinweise hilfreich waren.

Viele Grüße,

Tanja