This is a multi-part message in MIME format.
On 6/1/23 12:46, benoit wrote:
Bonjour
Je voudrais reformater du texte en colonne, qui a été justifié avec
des retours à la ligne (\n) et des "-" de coupure de mot
ex:
Je voudrais reformater du texte en colonne, qui a été just- «---
ifié avec des retours à la ligne (\n) et est - de coupure de
 mot.
% sed -rz '{s/-\n//g;s/\n//g}' format.txt
Mais je ne suis pas satisfait du résultat parce que je voudrais
ignorer les points (.\n) suivit d'un retour à la ligne.
Merci d'avance
Une possibilité est l'utilisation de l'utilitaire
https://man7.org/linux/man-pages/man1/fmt.1.html
Une autre possibilité est de le faire sous GNU emacs
https://www.gnu.org/software/emacs/
(ave un peu d'huile de coude, c'est automatisable)
Une autre possibilité est de coder avec GNU bison et/ou GNU flex.
La difficulté est de définir ce qu'est un mot (on peut imaginer un texte encodé en UTF-8 avec un mélange de mots en hébreu -ou chinois ou serbe
ou arabe ou simplement en anglais- et en français, et alors le problème
est bien plus difficile).
Il faut formaliser ce qu'est le texte d'entrée, et le jeu de caractères utilisé (UTF-8) et le language humain utilisé.
Même pour du texte en français (ou en anglais), les règles de césure
sont complexes, je ne ne les connais pas toutes (la consultation d'une grammaire ou d'un manuel typographique s'impose). Par exemple, je crois
me souvenir qu'un nombre (en français) comme 2 145 906 (la population de Paris en 2020) ne doit pas être césuré!
Les logiciels de typographie libres (par exemple
https://latex.org/ ou
Lout en
https://ftp.gnu.org/gnu/lout.README ...) sont compliqué pour
gérer la césure correctement!
Librement
--
Basile Starynkevitch<
basile@starynkevitch.net>
(only mine opinions / les opinions sont miennes uniquement)
92340 Bourg-la-Reine, France
web page: starynkevitch.net/Basile/
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
<p><br>
</p>
<div class="moz-cite-prefix">On 6/1/23 12:46, benoit wrote:<br>
</div>
<blockquote type="cite" cite="mid:Cy-FhBvuBH3K5Uh3Uuil4aIEyMTVf-3NsGJ5TirLE9nq7WDUGm_5grVSqxu2lvNjLtI7_VzJjDVUqk6f8c3_PfMh0ssIAo9wYZPzQ28djus=@protonmail.ch">
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
<div style="font-family: Arial, sans-serif; font-size: 14px;"><span>Bonjour
</span>
<div><br>
</div>
<div><br>
</div>
<div>Je voudrais reformater du texte en colonne, qui a été
justifié avec des retours à la ligne (\n) et des "-" de
coupure de mot</div>
<div>ex:</div>
<div><span>Je voudrais reformater du texte en colonne, qui a été
just- «---<br>
</span></div>
<div><span>ifié avec des retours à la ligne (\n) et est - de
coupure de</span></div>
<div><span>Â mot.</span></div>
<div><span><br>
</span></div>
<div><span>% <span>sed -rz '{s/-\n//g;s/\n//g}' format.txt</span><br>
</span></div>
<div><span><br>
</span></div>
<div><span>Mais je ne suis pas satisfait du résultat parce que
je voudrais ignorer les points (.\n) suivit d'un retour à la
ligne.</span></div>
<div><span><br>
</span></div>
<div><span>Merci d'avance</span></div>
<br>
</div>
</blockquote>
<p><br>
</p>
<p><br>
</p>
<p>Une possibilité est l'utilisation de l'utilitaire
<a class="moz-txt-link-freetext" href="
https://man7.org/linux/man-pages/man1/fmt.1.html">https://man7.org/linux/man-pages/man1/fmt.1.html</a></p>
<p><br>
</p>
<p>Une autre possibilité est de le faire sous GNU emacs
<a class="moz-txt-link-freetext" href="
https://www.gnu.org/software/emacs/">https://www.gnu.org/software/emacs/</a></p>
<p>(ave un peu d'huile de coude, c'est automatisable)</p>
<p><br>
</p>
<p>Une autre possibilité est de coder avec GNU bison et/ou GNU flex.</p>
<p>La difficulté est de définir ce qu'est un mot (on peut imaginer
un texte encodé en UTF-8 avec un mélange de mots en hébreu -ou
chinois ou serbe ou arabe ou simplement en anglais- et en
français, et alors le problème est bien plus difficile).</p>
<p><br>
</p>
<p>Il faut formaliser ce qu'est le texte d'entrée, et le jeu de
caractères utilisé (UTF-8) et le language humain utilisé.</p>
<p><br>
</p>
<p>Même pour du texte en français (ou en anglais), les règles de
césure sont complexes, je ne ne les connais pas toutes (la
consultation d'une grammaire ou d'un manuel typographique
s'impose). Par exemple, je crois me souvenir qu'un nombre (en
français) comme 2 145 906 (la population de Paris en 2020) ne doit
pas être césuré!<br>
</p>
<p><br>
</p>
<p>Les logiciels de typographie libres (par exemple
<a class="moz-txt-link-freetext" href="
https://latex.org/">https://latex.org/</a> ou Lout en <a class="moz-txt-link-freetext" href="
https://ftp.gnu.org/gnu/lout.README">https://ftp.gnu.org/gnu/lout.README</a>
...) sont compliqué pour gérer la césure correctement!<br>
</p>
<p>Librement<br>
</p>
<p><br>
</p>
<pre class="moz-signature" cols="72">--
Basile Starynkevitch <a class="moz-txt-link-rfc2396E" href="mailto:
basile@starynkevitch.net"><
basile@starynkevitch.net></a>
(only mine opinions / les opinions sont miennes uniquement)
92340 Bourg-la-Reine, France
web page: starynkevitch.net/Basile/
</pre>
</body>
</html>
--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)