Extraire, trier et filtrer des données
Comme vous le savez déjà, la plupart des commandes de Linux sont basées sur le modèle du système d'exploitation Unix. Ce sont les mêmes. Ces commandes s'utilisent pour certaines de la même manière depuis les années 60 ! Avantage pour les informaticiens : pas besoin de réapprendre à utiliser les mêmes commandes tous les 3 mois.
Mais la question que vous devez vous poser est la suivante : comment se fait-il que la plupart de ces commandes n'aient pas changé depuis si longtemps ? La réponse vient du fait qu'elles n'ont pas eu besoin de changer. En effet, la plupart des commandes que vous découvrez sont très basiques : elles remplissent une tâche et la remplissent bien, mais elles ne font pas plus. Ce sont des "briques de base" du système.
Dans ce chapitre, nous allons découvrir une série de commandes basiques qui permettent d'extraire, trier et filtrer des données dans des fichiers. Vous utiliserez certaines d'entre elles (comme grep) presque tous les jours !
La commande
grep est essentielle. De toutes celles présentées dans ce chapitre, il s'agit probablement de la plus couramment utilisée.
Son rôle est de rechercher un mot dans un fichier et d'afficher les lignes dans lesquelles ce mot a été trouvé. L'avantage de cette commande est qu'elle peut être utilisée très simplement ou de manière plus complexe (mais plus précise) selon les besoins, en faisant appel aux expressions régulières.
Nous allons commencer par utiliser grep de manière très simple, puis nous verrons ensuite comment faire des recherches plus poussées avec les expressions régulières.
Utiliser grep simplement
La commande grep peut s'utiliser de nombreuses façons différentes. Pour le moment, nous allons suivre le schéma ci-dessous :
Code : Console
Le premier paramètre est le texte à rechercher, le second est le nom du fichier dans lequel ce texte doit être recherché.
Essayons par exemple de rechercher le mot "alias" dans notre fichier de configuration .bashrc. Rendez-vous dans votre répertoire personnel (en tapant
cd), et lancez la commande suivante :
Code : Console
Cette commande demande à rechercher le mot "alias" dans le fichier .bashrc et affiche toutes les lignes dans lesquelles le mot a été trouvé.
Résultat :
Code : Console | $ grep alias .bashrc
# ~/.bash_aliases, instead of adding them here directly.
#if [ -f ~/.bash_aliases ]; then
# . ~/.bash_aliases
# enable color support of ls and also add handy aliases
alias ls='ls --color=auto'
#alias dir='ls --color=auto --format=vertical'
#alias vdir='ls --color=auto --format=long'
# some more ls aliases
alias ll='ls -lArth'
#alias la='ls -A'
#alias l='ls -CF' |
Pas mal n'est-ce pas ? Comme vous pouvez le voir, grep est plus un outil de filtre qu'un outil de recherche. Son objectif est de vous afficher uniquement les lignes qui contiennent le mot que vous avez demandé.
Notez qu'il n'est pas nécessaire de mettre des guillemets autour du mot recherché, sauf si vous recherchez une suite de plusieurs mots séparés par des espaces comme ceci :
Code : Console | grep "Site du Zéro" monfichier |
-i : ne pas tenir compte de la casse (majuscules / minuscules)
Par défaut, grep tient compte de la casse : il fait la distinction entre les majuscules et les minuscules. Ainsi, si vous recherchez "alias" et qu'une ligne contient "Alias", grep ne la renverra pas.
Pour que grep renvoie toutes les lignes qui contiennent "alias", peu importe les majuscules et les minuscules, utilisez l'option -i :
Code : Console | $ grep -i alias .bashrc
# Alias definitions.
# ~/.bash_aliases, instead of adding them here directly.
#if [ -f ~/.bash_aliases ]; then
# . ~/.bash_aliases
# enable color support of ls and also add handy aliases
alias ls='ls --color=auto'
#alias dir='ls --color=auto --format=vertical'
#alias vdir='ls --color=auto --format=long'
# some more ls aliases
alias ll='ls -lArth'
#alias la='ls -A'
#alias l='ls -CF' |
On notera que la première ligne renvoyée (ici surlignée) n'était pas présente tout à l'heure car le mot "Alias" contenait une majuscule. Avec l'option -i, on peut maintenant la voir.
-n : connaître les numéros des lignes
Vous pouvez afficher les numéros des lignes retournées avec -n :
Code : Console | $ grep -n alias .bashrc
49:# ~/.bash_aliases, instead of adding them here directly.
52:#if [ -f ~/.bash_aliases ]; then
53:# . ~/.bash_aliases
56:# enable color support of ls and also add handy aliases
59: alias ls='ls --color=auto'
60: #alias dir='ls --color=auto --format=vertical'
61: #alias vdir='ls --color=auto --format=long'
64:# some more ls aliases
65:alias ll='ls -lArth'
66:#alias la='ls -A'
67:#alias l='ls -CF' |
-v : inverser la recherche : ignorer un mot
Si, au contraire, vous voulez connaître toutes les lignes qui
ne contiennent pas un mot donné, utilisez -v :
Code : Console | $ grep -v alias .bashrc
# ~/.bashrc: executed by bash(1) for non-login shells.
# see /usr/share/doc/bash/examples/startup-files (in the package bash-doc)
# for examples
# If not running interactively, don't do anything
[ -z "$PS1" ] && return
# don't put duplicate lines in the history. See bash(1) for more options
export HISTCONTROL=ignoredups
# ... and ignore same sucessive entries.
export HISTCONTROL=ignoreboth
# ... (renvoie beaucoup de lignes, je ne mets pas tout ici) |
Cette fois, on récupère toutes les lignes du fichier .bashrc qui ne contiennent pas le mot "alias".
-r : rechercher dans tous les fichiers et sous-dossiers
Si vous ne savez pas dans quel fichier se trouve le texte que vous recherchez, vous pouvez sortir l'artillerie lourde : l'option -r (récursive). Cette fois, il faudra indiquer en dernier paramètre le
nom du répertoire dans lequel la recherche doit être faite (et non pas le nom d'un fichier).
Code : Console | grep -r "Site du Zéro" code/ |
... recherchera la chaîne "Site du Zéro" dans tous les fichiers du répertoire "code", y compris dans les sous-dossiers.
Notez que le "/" à la fin n'est pas obligatoire. Linux comprendra très bien qu'il s'agit d'un répertoire sans cela.
Code : Console | $ grep -r "Site du Zéro" code/
code/intro.html: Nous vous souhaitons la bienvenue sur le Site du Zéro !
code/tpl/define.tpl: Le Site du Zéro |
Cette fois, le nom du fichier dans lequel la chaîne a été trouvée s'affiche au début de la ligne.
A noter qu'il existe aussi la commande rgrep qui est équivalente à écrire grep -r.
Utiliser grep avec des expressions régulières
Pour faire des recherches plus poussées, pour ne pas dire des recherches très poussées, vous devez faire appel aux expressions régulières. C'est un ensemble de symboles qui va vous permettre de dire à l'ordinateur très précisément ce que vous recherchez.
Je vous propose dans un premier temps de jeter un oeil à ce tableau des principaux caractères spéciaux qu'on utilise dans les expressions régulières :
| Caractère spécial | Signification |
|---|
| . |
Caractère quelconque |
| ^ |
Début de ligne |
| $ |
Fin de ligne |
| [] |
Un des caractères entre les crochets |
| ? |
L'élément précédent est optionnel (peut être présent 0 ou 1 fois) |
| * |
L'élément précédent peut être présent 0, 1 ou plusieurs fois |
| + |
L'élément précédent doit être présent 1 ou plusieurs fois |
| | |
Ou |
| () |
Groupement d'expressions |
Help ! J'ai rien compris.
Normal. Pour bien faire, il faudrait un ou deux chapitres entiers sur les expressions régulières. Là je n'ai pas vraiment la place de faire un "mini-cours" sur les expressions régulières, aussi je vous propose de jeter un oeil à ces quelques lignes pour apprendre par l'exemple.
Tout d'abord, il faut savoir qu'on doit utiliser l'option -E pour faire comprendre à grep que l'on utilise une expression régulière.
Code : Console | $ grep -E Alias .bashrc
# Alias definitions. |
Notez que vous pouvez aussi utiliser la commande egrep qui est équivalente à écrire grep -E.
C'est une expression régulière très simple. Elle demande à rechercher le mot Alias (avec un A majuscule). Si le mot est présent dans une ligne, la ligne est renvoyée.
Bon jusque là rien de nouveau, ça marchait comme ça avant qu'on utilise les expressions régulières. Essayons de pimenter cela en faisant précéder "Alias" d'un accent circonflexe qui signifie que "
le mot doit être placé au début de la ligne" :
Code : Console
Résultat : grep ne renvoie rien. En effet, la ligne de tout à l'heure commençait par un # et non pas par Alias.
En revanche on a un résultat si on fait :
Code : Console | $ grep -E ^alias .bashrc
alias ll='ls -lArth' |
Cette fois la ligne commençait bien par "alias". De même, on aurait pu utiliser un $ à la fin pour demander à ce que la ligne se termine par alias.
Quelques autres exemples que vous pouvez tester :
Code : Console
... renvoie toutes les lignes qui contiennent "alias" ou "Alias".
Code : Console
... renvoie toutes les lignes qui contiennent un nombre compris entre 0 et 4.
Code : Console
... renvoie toutes les lignes qui contiennent un caractère alphabétique compris entre a et z ou entre A et Z.
Je vous ai fait là une introduction très rapide, il y aurait beaucoup à dire. Si vous voulez en savoir plus sur les expressions régulières, direction le
cours PHP où j'ai rédigé des explications plus complètes. Il faudra un peu s'adapter parce que ces explications sont faites pour les programmeurs PHP, mais vous devriez y trouver suffisamment d'exemples et d'explications pour en apprendre davantage.
Comme vous pourrez le constater, les expressions régulières fonctionnent aussi bien sans le -E. Pourquoi ?
Normalement, cette option sert à activer la gestion des expressions régulières les plus complexes. Dans la pratique, le manuel nous dit que la version GNU de grep (celle qu'on utilise sous Linux) ne fait pas de différence que l'option soit présente ou pas. Les expressions régulières sont toujours activées. En clair, vous aurez besoin du -E si vous utilisez grep sur une autre machine de type Unix un jour, mais en attendant vous pouvez très bien vous en passer. Le -E a été conservé pour des raisons de compatibilité.
La commande sort se révèle bien utile lorsqu'on a besoin de trier le contenu d'un fichier.
Pour nos exemples, je vous propose de créer un nouveau fichier (avec nano par exemple) appelé "noms.txt" et d'y placer le texte suivant :
Code : Autre1
2
3
4
5
6
7
8
| François
Marcel
Albert
Jean
Stéphane
patrice
Vincent
jonathan |
Ensuite, exécutez la commande sort sur ce fichier :
Code : Console | $ sort noms.txt
Albert
François
Jean
jonathan
Marcel
patrice
Stéphane
Vincent |
Le contenu du fichier est trié alphabétiquement et le résultat est affiché dans la console.
Vous noterez que sort ne fait pas attention à la casse (majuscules / minuscules).
-o : écrire le résultat dans un fichier
Le fichier en lui-même n'a pas été modifié lorsque nous avons lancé la commande. Seul le résultat était affiché dans la console.
Vous pouvez faire en sorte que le fichier soit modifié en précisant un nom de fichier avec l'option -o :
Code : Console | sort -o noms_tries.txt noms.txt |
... écrira la liste de noms triés dans noms_tries.txt.
-r : trier en ordre inverse
L'option -r permet d'inverser le tri :
Code : Console | $ sort -r noms.txt
Vincent
Stéphane
patrice
Marcel
jonathan
Jean
François
Albert |
-R : trier aléatoirement
Cette option permet de trier aléatoirement les lignes d'un fichier. C'est assez marrant et ça peut se révéler utile dans certains cas :
Code : Console | $ sort -R noms.txt
patrice
François
Marcel
jonathan
Jean
Albert
Vincent
Stéphane |
-n : trier des nombres
Le tri de nombres est un peu particulier. En effet, la commande sort ne reconnaît pas si les caractères sont des nombres et trie par défaut alphabétiquement. Par conséquent, le "mot" 129 précèdera 42, alors que ce devrait être l'inverse !
Prenons un exemple. Créez un nouveau fichier "nombres.txt" et placez-y le contenu suivant :
Code : Autre
Triez-les comme vous avez appris à le faire :
Code : Console | $ sort nombres.txt
129
16
27
36
364
42 |
Alphabétiquement, ces nombres sont bien triés. Tout ce qui commence par 1 est en premier, puis vient ce qui commence par 2, et ainsi de suite.
Bien sûr, quand on veut trier des nombres, c'est n'importe quoi.
C'est là que l'option -n intervient. Elle permet de trier en considérant le texte comme des nombres. Cette fois, le nombre 42 sera bien placé avant 129 !
Code : Console | $ sort -n nombres.txt
16
27
36
42
129
364 |
Magique.
La commande wc signifie "Word Count". C'est donc a priori un compteur de mots, mais en fait on lui trouve plusieurs autres utilités : compter le nombre de lignes (très fréquent) et compter le nombre de caractères.
Comme les précédentes, la commande wc travaille sur un fichier.
Sans paramètres, les résultats renvoyés par wc sont un peu obscurs. Voyez plutôt :
Code : Console | $ wc noms.txt
8 8 64 noms.txt |
Ces 3 nombres signifient, dans l'ordre :
- Le nombre de lignes
- Le nombres de mots
- Le nombre d'octets
Il fallait le savoir !
Dans le cas de notre fichier noms.txt, il est normal d'avoir autant de lignes que de mots car nous avions mis un seul mot par ligne.
-l : compter le nombre de lignes
Pour avoir uniquement le nombre de lignes, utilisez -l :
Code : Console | $ wc -l noms.txt
8 noms.txt |
-w : compter le nombre de mots
Combien de mots différents y a-t-il dans le fichier ?
Code : Console | $ wc -w noms.txt
8 noms.txt |
-c : compter le nombre d'octets
Combien d'octets compte le fichier ?
Code : Console | $ wc -c noms.txt
64 noms.txt |
-m : compter le nombre de caractères
Ah, voilà une information qui ne nous a pas été donnée lorsque nous avons lancé la commande wc sans paramètres.
L'option -m renvoie le nombre de caractères :
Code : Console | $ wc -m noms.txt
62 noms.txt |
Comme vous pouvez le voir, le nombre de caractères est différent du nombre d'octets.
Parfois, certains fichiers contiennent des lignes en double et on aimerait pouvoir les détecter ou les supprimer. La commande
uniq est toute indiquée pour cela.
Nous devons travailler sur un fichier
trié. En effet, la commande uniq ne repère que les lignes successives qui sont identiques.
Je vous propose de créer un fichier doublons.txt contenant les noms suivants :
Code : Autre1
2
3
4
5
6
7
8
9
10
11
| Albert
François
François
François
Jean
jonathan
Marcel
Marcel
patrice
Stéphane
Vincent |
Il y a des noms en double (et même en triple) dans ce fichier. Appliquons un petit coup de uniq là-dessus pour voir ce qu'il en reste :
Code : Console | $ uniq doublons.txt
Albert
François
Jean
jonathan
Marcel
patrice
Stéphane
Vincent |
La liste de noms sans les doublons s'affiche alors dans la console !
Vous pouvez demander à ce que le résultat sans doublons soit écrit dans un autre fichier plutôt qu'affiché dans la console :
Code : Console | uniq doublons.txt sans_doublons.txt |
La liste sans doublons sera écrite dans sans_doublons.txt.
-c : compter le nombre d'occurences
Avec -c, la commande uniq vous affiche le nombre de fois que la ligne est présente dans le fichier :
Code : Console | $ uniq -c doublons.txt
1 Albert
3 François
1 Jean
1 jonathan
2 Marcel
1 patrice
1 Stéphane
1 Vincent |
On sait ainsi qu'il y a 3 fois François, 1 fois Jean, 2 fois Marcel, etc.
-d : afficher uniquement les lignes présentes en double
L'option -d demande à afficher uniquement les lignes présentes en double :
Code : Console | $ uniq -d doublons.txt
François
Marcel |
Comme seuls François et Marcel avaient des doublons, on les voit ici s'afficher dans la console.
Comme pour les autres commandes présentées dans ce chapitre, je ne vous ai pas fait la liste de toutes les options disponibles. J'ai choisi de vous présenter celles qui me paraissaient les plus intéressantes ou les plus utiles, mais c'est tout à fait subjectif. Ayez le réflexe d'aller regarder le manuel (man uniq par exemple) pour connaître la liste exhaustive des options de la commande.
Vous avez déjà coupé du texte dans un éditeur de texte, non ?
La commande cut vous propose de faire cela au sein d'un fichier, afin de conserver uniquement une partie de chaque ligne.
Couper selon le nombre de caractères
Par exemple, si vous souhaitez conserver uniquement les caractères 2 à 5 de chaque ligne du fichier, vous taperez :
Code : Console | $ cut -c 2-5 noms.txt
ran
arce
lber
ean
tép
atri
ince
onat |
cut a quelques soucis avec les mots contenant des accents. Comme vous pouvez le voir, certains mots ici coupés ont 4 lettres (comme prévu) et d'autres en ont 3.
C'est dû à l'encodage des caractères à cause des accents. La commande cut se base sur le nombre d'octets, et, comme nous l'avons vu plus tôt, le nombre d'octets n'est pas forcément égal au nombre de caractères. A l'heure actuelle on ne peut rien faire pour cela, c'est la commande cut qui devra être mise à jour par les programmeurs.
Pour conserver du 1er au 3ème caractère :
Code : Console | $ cut -c -3 noms.txt
Fra
Mar
Alb
Jea
St
pat
Vin
jon |
Comme vous pouvez le voir, si on ne met pas de chiffre au début, cut comprend que vous voulez parler du premier caractère.
De même, pour conserver du 3ème au dernier caractère :
Code : Console | $ cut -c 3- noms.txt
ançois
rcel
bert
an
éphane
trice
ncent
nathan |
Là encore, pas besoin de donner le numéro du dernier caractère (ce serait un peu ennuyant de compter à chaque fois, avouez

), la commande cut comprend comme une grande qu'elle doit couper jusqu'à la fin.
Couper selon un délimiteur
Faisons maintenant quelque chose de bien plus intéressant. Plutôt que de s'amuser à compter le nombre de caractères, on va travailler avec ce qu'on appelle un délimiteur.
Prenons un cas pratique : les fichiers
CSV. Vous en avez peut-être déjà vu : ils sont générés par des tableurs tels que Excel et Openoffice.org pour faciliter l'échange et le traitement de données.
Imaginons que vous ayez une (petite) classe et que vous rendiez les notes du dernier contrôle. Vous avez fait un joli tableur et vous avez enregistré le document au format CSV. Le fichier sur lequel nous allons nous baser sera le suivant :
Code : Autre1
2
3
4
5
6
7
| Fabrice,18 / 20,Excellent travail
Mathieu,3 / 20,Nul comme d'hab
Sophie,14 / 20,En nette progression
Mélanie,9 / 20,Allez presque la moyenne !
Corentin,11 / 20,Pas mal mais peut mieux faire
Albert,20 / 20,Toujours parfait
Benoît,5 / 20,En grave chute |
Comme le nom CSV l'indique, les virgules servent à séparer les colonnes. Ces colonnes contiennent, dans l'ordre :
- Le prénom
- La note
- Un commentaire
C'est un exemple tout à fait fictif bien entendu.
Créez un nouveau fichier avec le texte que je viens de vous donner, que vous appellerez par exemple "notes.csv".
Imaginons que nous souhaitons extraire de ce fichier la liste des prénoms. Comment nous y prendrions-nous ?
On ne peut pas utiliser la technique qu'on vient d'apprendre car les prénoms ne font pas tous la même longueur. Nous allons donc nous servir du fait que nous savons que la virgule sépare les différents champs dans ce fichier.
Vous allez avoir besoin d'utiliser 2 paramètres :
- -d : indique quel est le délimiteur dans le fichier
- -f : indique le numéro du ou des champs à couper
Dans notre cas, le délimiteur qui sépare les champs est la virgule.
Le numéro du champ à couper est 1 (c'est le premier).
Testez donc ceci :
Code : Console | $ cut -d , -f 1 notes.csv
Fabrice
Vincent
Sophie
Mélanie
Corentin
Albert
Benoît |
C'est pas beau ça ?
Après le -d, nous avons indiqué quel était le délimiteur (à savoir la virgule ",").
Après le -f, nous avons indiqué le numéro du champ à conserver (le premier).
Si nous voulons juste les commentaires :
Code : Console | $ cut -d , -f 3 notes.csv
Excellent travail
Nul comme d'hab
En nette progression
Allez presque la moyenne !
Pas mal mais peut mieux faire
Toujours parfait
En grave chute |
Pour avoir les champs n°1 et n°3 (le prénom et le commentaire) :
Code : Console | $ cut -d , -f 1,3 notes.csv
Fabrice,Excellent travail
Vincent,Nul comme d'hab
Sophie,En nette progression
Mélanie,Allez presque la moyenne !
Corentin,Pas mal mais peut mieux faire
Albert,Toujours parfait
Benoît,En grave chute |
Vous êtes bien obligés d'admettre que, quand on sait bien s'en servir, la console de Linux peut vous permettre d'effectuer des opérations vraiment puissantes que vous ne pensiez même pas pouvoir faire aussi simplement jusqu'à présent.
Les commandes que nous avons découvert dans ce chapitre et les précédents sont vraiment très basiques, comme je vous l'avais annoncé. Vous devez peut-être vous demander d'ailleurs pourquoi un système d'exploitation comme Linux propose des commandes aussi basiques telle que "sort" qui permet de trier du texte.
Je l'avoue, ces commandes utilisées seules ont assez peu d'intérêt en général. C'est en les combinant entre elles qu'elles prendront tout leur sens, comme nous allons le voir dans le chapitre suivant. Préparez-vous à en prendre plein les mirettes !
Informations sur le tutoriel