Big data avec awk

 

Le langage de programmation awk est piloté par les données, ce qui le rend propice à des traitements sur les big data. À titre d’exemple, on va effectuer une étude statistique sur les chiffres du plus grand nombre premier actuellement connu, dont l’écriture comporte 77 232 917 chiffres « 1 » en base 2, et 23 249 425 chiffres en base 10 : sont-ils équirépartis, ou y a-t-il une structure cachée dans ce nombre gigantesque ?

Au sommaire de l’article

1 Nombres premiers

2 Comment récupérer le nombre premier ?

3 Une petite séance awk

3.1 Avec un fichier

3.1.1 Séparateur de champs

3.1.2 Tableau d’effectifs

3.1.3 C’est tout !

3.1.4 Et ça donne quoi ?

3.2 Version one-liner

4 Statistiques

4.1 Préparation du fichier

4.1.1 Version tableur

4.1.2 Version awk

4.2 Calcul de la moyenne

4.2.1 Effectif total

4.2.2 Total des chiffres

Conclusion

Alain Busser

 > Lire l’intégralité de cet article sur notre plateforme de lecture en ligne Connect  

Retrouvez cet article (et bien d’autres) dans GNU/Linux Magazine n°220, disponible sur la boutique et sur Connect !