Archives de catégorie : Non classé

Les noms de communes les plus fréquents en France

En partant du jeu de données ouvert des listes de codes postaux, j’ai réuni la liste des noms de communes les plus fréquents en France.

Dessin en couleur: vue un petit village rural avec une église en son centre dans un paysage de champs verts légèrement vallonnés. Un chemin au premier plan avec trois personnes.
« Rendons-nous à Saint-Martin-la-chapelle-des-bois, où se trouve le dernier fabriquant français de noms de communes. »
  • 12 communes: Sainte-Colombe
  • 11 communes: Saint-Sauveur
  • 10 communes: Saint-Aubin, Beaulieu
  • 9 communes: Saint-Rémy, Saint-Pierre, Saint-Paul, Saint-Michel, Saint-Marcel, Sainte-Marie, Le Pin
  • 8 communes: Beaumont, Saint-Christophe, Saint-Clément, Saint-Georges, Saint-Hilaire, Saint-Hippolyte, Saint-Loup, Saint-Médard, Verrières

Les mots/noms les plus fréquents (en excluant les articles, prépositions…): Saint (4106), Sainte(361), Martin (257), bois (218), Pierre (180), chapelle (179), Jean (171), val (127), Germain (120), Villers (109), mer (106), mont (102), ville (96), château (94), Julien (88), grand (88), pont (87), Laurent (87), Villeneuve (85), Georges (84), Seine (82), Loire (80), Hilaire (77), André (75), Fontaine (74), Mesnil (73), Neuville (71), Aubin (70).

Batterie non-remplaçable = appareil jetable, n’achetez pas!

Paul Atréides (interprété par Timothée Chalamet), le personnage de Dune, tient en main un rasoir électrique
L’Épice donna à Paul Atréides la vision du futur de son rasoir: un déchet électrique.

Un appareil dont la batterie n’est pas remplaçable est à l’horizon de quelques années un déchet électronique en puissance. Refusez ce genre de pratiques et n’achetez que des appareils dont la batterie est remplaçable et facilement disponible.

Continuer la lecture

La Poste: recommandé en ligne, une efficacité relative

J’ai envoyé une lettre recommandée en ligne (c’est à dire que j’ai fourni un fichier PDF et La Poste l’imprime et l’envoie, pour un surcoût de presque 2€).

Bizarrement, la lettre part de Paris (pour partir bien loin en province). J’aurais pensé qu’ils auraient imprimé à proximité du lieu de réception (pour plus d’efficacité et de rapidité).

Le rail est énergétiquement plus efficace que le pneu

Une question qui me taraudait depuis un moment : un véhicule roulant sur des rails est-il plus efficace qu’un véhicule roulant sur des pneus et du bitume ? Si ce n’est pas le cas, ne serait-ce pas plus efficace de ne construire que des routes et d’avoir des bus/autocars, plus flexibles ?

Réponse: Le rail est plus efficace car:

  • en autres la roue ne se déforme pas (qui donne une déperdition d’énergie sous forme de chaleur), ce qui donne une plus faible résistance au roulement. Selon cette page (en anglais), la résistance au roulement d’un train est de 5 à 10 fois moins importante que pour une voiture (un train chargé ayant une résistance moindre car cela augmente la pression sur le rail), et de 3.5 à 7 que pour un camion.
  • la roue gare un bon contact avec le rail (pas de petits sauts et autres instabilités)

Compression of Wikipedia pages history

The Wikipedia foundation provides dumps for its projects. Among them, you have the full history of the pages: the dump is a compressed file containing the full text of each revision of each page. As you can guess, as new revisions of the pages are added, the overall space required exponentially grows. So I told myself that contributors should avoid adding tons of very small modifications (each of them adding the content of the full page in the history).

What about the compression of this history? It turns out than lzma (xz, 7zip) performs much better than bzip2. For example, for French Wikivoyage, the 7zip version is 5 times smaller than the bzip2 version. Here are some diagrams with:

  • in X: the size of the whole dump for a page after a given revision was added.
  • in Y: the size of the additional compressed data for this given revision.

For bzip2:

bzip2As you can see, the compression rate is decreasing.

For lzma:lzmaCompression rate over against the full data size for bzip2:

bzip2_rateCompression rate over against the full data size for lzma:

lzma_rateConclusion: lzma handles much better text that is the very repetitive and large.

I expect the bzip2 dumps to grow larger and larger. The French Wikipedia dump is currently 110Go in bz2 and only 15Go in 7z.