Folgende Konfiguration ist laut Doku für FS-Search vorgesehen:
<attribute name="urls" type="list">
<attribute>http://example.com/de/homepage.jsp</attribute>
</attribute>
<attribute name="index">/var/searchIndex</attribute>
<attribute name="maxThreads">1</attribute>
<attribute name="threadPriority">2</attribute>
<attribute name="allowed" type="list">
<attribute class="de.espirit.firstspirit.opt.search.engine.spider.link.RegexWebLinkFilter">/de/</attribute>
</attribute>
Wenn auf der Seite externe Links sind, die dem Allowed-Pattern entsprechen, wird der Crawlet auch auf externen Seiten aktiv.
Beispiel: der Link "http://example.org/de/example.html" würde mit indiziert und gecrawled.
Entweder müsste bitte in der Doku hervorgehoben werden, dass der Allowed-Filter die URL beinhalten muss (example\.com/de/), oder per Config-Eintrag sollte eingestellt werden können, ob externe Links mit durchsucht werden.