- Mark as New
- Bookmark
- Subscribe
- Mute
- Subscribe to RSS Feed
- Permalink
- Report Inappropriate Content
Word/HTML Formatierungen -> DOM-Editor
Hallo zusammen,
in folgendem Beitrag ist eine Problem beschrieben, dass wir aktuell mit der รbernahme von Formatierungen aus Word/HTML in den DOM-Editor haben: https://community.e-spirit.com/message/6133#6133 Leider wird auf diese Diskussion nicht mehr geantwortet, weil dieser bereits "als beantwortet angenommen" wurde, was wir nicht rรผckgรคngig machen kรถnnen. Daher hier eine neue Diskussion.
Zu dem Problem habe ich ein HelpDesk-Ticket erรถffnet gehabt. Mittlerweile sind wir soweit gekommen, dass die รbernahme von Formatierungen teilweise Funktioniert (fett formatierte Texte und auf bestimmte Art formatierte Aufzรคhlungen werden รผbernommen). Leider funktioniert das รbernehmen von Aufzรคhlungen noch nicht gรคnzlich. Ich habe eine Test-Word-Datei angehรคngt, bei der nur die letzten beiden Aufzรคhlungen korrekt umgewandelt werden. Die ersten beiden Aufzรคhlungen werden im DOM-Editor nur als Text eingefรผgt und nicht als Aufzรคhlungen.
Nun wollte ich gerne wissen, wie die in der verlinkten Diskussion gepostete Regelsatz-Konfiguration erweitert werden muss, um beliebig formatierte Aufzรคhlungen aus Word zu erkennen. Kann mir dabei jemand weiterhelfen?
Vielen lieben Dank im Voraus!
LG
Renรฉ Schubert
- Labels:
-
Editors
- Mark as New
- Bookmark
- Subscribe
- Mute
- Subscribe to RSS Feed
- Permalink
- Report Inappropriate Content
Hallo Herr Schubert!
Vielen Dank fรผr Ihren Beitrag.
Das Office-Modul ordnet anhand von definierbaren Regelsรคtzen Meta-Informationen aus dem Word-Dokument Format- und Verweisvorlagen in FirstSpirit zu.
Als Dokumentenaustauschformat wird HTML verwendet, welches das Standarddokumentaustauschformat fรผr MS Office-Anwendungen ist.
Die Ursache fรผr das abweichende รbernahmeergebnis bei den ersten beiden Listen ist erkennbar, wenn das Word-Dokument als HTML-Dokument gespeichert wird.
Bei den intakten Listen (Listen ohne zusรคtzliche Formatierungen) verwendet MS Office ol- und ul-Tags:
<ol style='margin-top:0cm' start=1 type=1>
<li style='mso-list:l3 level1 lfo3;tab-stops:list 36.0pt'><span
style='mso-spacerun:yes'> </span>test1<o:p></o:p></li>
<li style='mso-list:l3 level1 lfo3;tab-stops:list 36.0pt'>test2<o:p></o:p></li>
<li style='mso-list:l3 level1 lfo3;tab-stops:list 36.0pt'>test3<o:p></o:p></li>
</ol>
Werden in Listen zusรคtzliche Formatierungen verwendet, so stellt MS Office diese anscheinend als Paragraphen in der Zwischenablage zur Verfรผgung:
<p class="Listenabsatz1CxSpFirst" style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'><![if !supportLists]><span
style='font-family:Symbol;mso-fareast-font-family:Symbol;mso-bidi-font-family:
Symbol'><span style='mso-list:Ignore'>ยท<span style='font:7.0pt "Times New Roman"'>
</span></span></span><![endif]>auch Aufzรคhlungszeichen<o:p></o:p></p>
Dadurch wird bei der รbernahme die Regel fรผr p und nicht ol bzw. ul angewendet.
Viele Grรผรe,
Sascha Rusch
- Mark as New
- Bookmark
- Subscribe
- Mute
- Subscribe to RSS Feed
- Permalink
- Report Inappropriate Content
Hallo Herr Rusch,
ja, dass die Elemente im HTML-Format nicht als li-Elemente ausgegeben werden, habe ich auch bereits auf Hinweis des HelpDesk herausgefunden. Seltsam ist nur: Ich habe das ursprรผngliche Dokument mit den ersten beiden Aufzรคhlungen in Office 2010 komplett neu erstellt und keinerlei Anpassungen vorgenommen, auรer fรผr die Aufzรคhlungen auf das Icon fรผr die Aufzรคhlungsformatierung zu klicken. Daher mรผsste es sich um absolutes Standard-Word-Format handeln.
Zudem kann ich dem Kunden nicht zumuten, alle vorhandenen Word-Dokumente in bestimmter Weise neu zu formatieren, bevor ein Import in FirstSpirit mรถglich wird. Kรถnnen Sie mir dabei helfen, den Regelsatz so zu erweitern, dass auch das obige Beispiel einer Aufzรคhlung ohne li-Elemente korrekt erkannt und importiert wird?
Besten Dank und viele Grรผรe
Renรฉ Schubert
- Mark as New
- Bookmark
- Subscribe
- Mute
- Subscribe to RSS Feed
- Permalink
- Report Inappropriate Content
Hallo Herr Schubert,
vielen Dank fรผr die Antwort.
Es scheint so zu sein, dass Microsoft Word bereits eine Liste (<ul> / <ol>) in Paragraphen (<p>) umwandelt, wenn der Listentyp gewechselt wird.
Der HTML-Inhalt lรคsst sich betrachten, indem das Word-Dokument als HTML-Seite gespeichert wird (Datei / Speichern unter / Dateityp: Webseite (*.htm;*.html)).
Die Umwandlung von Listen in Paragraphen konnte ich mit Microsoft Word 2010 beobachten.
Mit Microsoft Word 2003 scheinen die Listen auch in den genannten Fรคllen als <ul>- / <ol>-Tags gespeichert zu werden.
Eine Konvertierungsregel fรผr die Paragraphen-Listen habe ich bislang nicht formulieren kรถnnen.
Das abstrakte Problem besteht darin, dass beim ersten <p>-Element in einer Ebene ein รถffnendes <ul>-Tag und beim letzten <p>-Element ein schlieรendes <ul>-Tag durch den Regelsatz ergรคnzt werden mรผsste.
Es ist jedoch mรถglich, die drei Listenklassen - im Beispieldokument: Listenabsatz1CxSpFirst, Listenabsatz1CxSpMiddle und Listenabsatz1CxSpLast - auf jeweils eine entsprechende Formatvorlage zu mappen:
<element class="Listenabsatz1CxSpFirst" inherit="HTML.paragraph" maptag="list_first" tag="p">
<element handler="skip" tag="span"/>
</element>
<element class="Listenabsatz1CxSpMiddle" inherit="HTML.paragraph" maptag="list_middle" tag="p">
<element handler="skip" tag="span"/>
</element>
<element class="Listenabsatz1CxSpLast" inherit="HTML.paragraph" maptag="list_last" tag="p">
<element handler="skip" tag="span"/>
</element>
In den drei anzulegenden Formatvorlagen list_first, list_middle und list_last kann dann die Liste HTML-konform ausgegeben werden.
list_first
<ul>
<li>$CMS_VALUE(#content)$</li>
list_middle
<li>$CMS_VALUE(#content)$</li>
list_last
<li>$CMS_VALUE(#content)$</li>
</ul>
Leider ist diese Lรถsung nicht nutzbar, wenn in Microsoft Word alle Paragraphen-Elemente die gleiche Klasse verwenden.
Auch erfolgt keine Unterscheidung zwischen nummerierten und nicht nummerierten Listen.
In der Eingabekomponente CMS_INPUT_DOM werden die Listenelemente leider auch bei dieser Lรถsung weiterhin als Paragraphen behandelt.
Viele Grรผรe,
Sascha Rusch

