Aller au contenu
Fini la pub... bienvenue à la cagnotte ! ×
AIR-DEFENSE.NET

Hérisson


Invité

Messages recommandés

Mise à jour 24 mars 2009 : Dans une interview publiée par Ecrans.fr, la Délégation générale pour l’armement (DGA) confirme l’authenticité des documents relatifs au projet HERISSON évoqués dans nos colonnes, tout en relativisant leur portée.

« Il s’agit de ce qu’on appelle le cahier des clauses techniques particulières (CCTP), et il était en annexe de l’appel d’offres » explique la DGA qui indique au passage que le document n’était pas classé secret défense. Elle précise qu’HERISSON (Habile Extraction du Renseignement d'Intérêt Stratégique à partir de Sources Ouvertes Numérisées)est un « démonstrateur technologique », une sorte de prototype avec pour « objectif […] de tester, d’évaluer les logiciels dans le commerce et les logiciels libres capables de traiter des sources ouvertes. Il en existe plein, mais tous ne sont pas stables. Alors, on va regarder lesquels sont les plus performants et pourraient nous être utiles. Et voir si on peut les interconnecter ». Toutefois, un logiciel opérationnel est attendu dans les trois ans d’expertises. Une autre source nous a expliqué que d’autres logiciels exploitent en effet ce genre d’informations, mais évidemment pour la DGA l’intérêt est de profiter d’une solution qui lui est propre et indépendante technologiquement.

La DGA soutient devant nos confrères que son projet n’a pas vocation à pénétrer la sphère privée, comme Echelon, mais à croiser les informations disponibles sur les sources ouvertes des réseaux.. Ainsi, « pour le p2p, on ne va pas surveiller qui télécharge quoi, mais typiquement on doit pouvoir savoir que, sur Emule, telle information est disponible en téléchargement. Par exemple, une vidéo d’Al-Qaida. Autre exemple, pour le « web invisible », il s’agit d’avoir accès à des pages qui ne sont pas ou mal indexées par les moteurs de recherche, mais qui restent encore une fois accessibles à ceux qui savent les chercher ». Enfin, aucune autorisation n’a été demandée à la CNIL pour la mise en place de ce super moteur, « Nous avons regardé, mais elle n’est pas nécessaire, car il s’agit d’un démonstrateur technologique et que nous ne constituons pas de bases de données. »

----------------

Première publication 19 mars 2009 : En ces temps d'HADOPI, d'EDVIGE ou de CRISTINA, un autre projet gouvernemental  se révèle au grand jour : HERISSON. Le cahier des charges, du moins la liasse qui est présentée comme telle, laisse entrevoir un système de surveillance de grande ampleur sur tout ce qui transite sur les réseaux. Analyse.

La France serait-elle en voie de mettre en place l’équivalent d’un réseau Échelon dans l’hexagone pour surveiller et cataloguer tous les faits et gestes de tous les médias, radio, TV et internet compris ? Tout porte à le croire, selon une liasse de documents qui décrit le Système Hérisson, éponyme d’« Habile Extraction du Renseignement d'Intérêt Stratégique à partir de Sources Ouvertes Numérisées ». On pourra en découvrir la totalité sur ce lien Google Doc (le système Herisson.)

Selon ces documents qui nous ont été présentés comme étant le cahier des charges de ce système et daté de l'année passée, Hérisson tend vers la mise en place d’un système de collecte automatisée et de recherche d’informations dignes d’un scénario de film d’espionnage ou de Matrix. La paternité du dossier est attribuée à la DGA, Délégation Générale pour l'Armement dont la mission consiste au suivi et à la validation des moyens de défense militaires et territoriales.

Dans les références de ce fameux des charges, classées dans la rubrique « Biblio » il est ainsi fait mention de plusieurs textes officiels dont l’instruction générale interministérielle sur la sécurité des systèmes d'information « qui font l'objet d'une classification de défense pour eux-mêmes ou pour les informations traitées » ( n°900/SGDN/SSD/DR ou 900/DISSI/SCSSI/DR du 20 juillet 1993), texte qui gère le secret défense. On trouve encore mention de diverses directives ou instructions relatives à la protection contre les signaux parasites compromettants.

Un appel d'offres lancé en 2007

Chose certaine : le système est à rattacher à un appel d’offres lancé en 2007 par le ministère de la défense, la délégation générale pour l'armement, la direction des systèmes d'armes et le service centralisé des achats. Le marché public a pour objet « la Conception, réalisation et évaluation d'une plate-forme dédiée au traitement des sources ouvertes pour le renseignement militaire d'intérêt stratégique ». L’appel d’offres a une durée minimale de 36 mois à compter de la notification du marché et est en phase avec ce cahier des charges.

systeme herisson

IRC, Newsgroup, FTP, P2P, HTTP, etc.

Dans ce fameux cahier des clauses techniques particulières (CCTP), on découvre ainsi que le système vise à glaner à peu près tout ce qui passe sur les réseaux aux fins notamment de renseignement militaire d'intérêt stratégique. On peut le voir dans le tableau ci-dessous que par exemple tous les contenus qui transitent sur les chats IRC, les mailings listes, les forums, les réseaux sociaux, les Newsgroups, les flux RSS, les blogs, podcasts, et les systèmes P2P feront l’objet d’une surveillance approfondie, avec une priorité soit « importante » soit « primordiale » selon les flux. La plate-forme est destinée à être installée au centre d'expertise parisien (CEP) d’Arcueil indiquent les pages.

Mais c’est surtout dans la section « Exigences » qu’on apprécie l’ampleur du système Hérisson. Il est calibré ainsi pour accéder à n’importe quel contenu ((texte, image, son et vidéo), quel que soit les langages utilisés « HTML, PHP, ASP... ) ») en prenant en compte « la problématique des liens «cachés» en extrayant les liens a minima dans les  applications flash contenues dans une page, les codes Java Script ». Hérisson sait aussi collecter et stocker le contenu complet d'un site FTP ou collecter simplement son arborescence, sait télécharger les fichiers disponibles sur un réseau P2P.

Tous les types de fichiers

Notre curieux mammifère poursuit sa longue route en ayant « la capacité de collecter des données via les protocoles : MMS (flux vidéo type Windows Media Player) RSTP (flux vidéo type Real Player) POP3 (messagerie) », et donc des emails. Pour faire bonne mesure, « le système HÉRISSON a la capacité de gérer un éventail large, non restreint et évolutif de formats de documents de type : Vidéo (AVI, MPG, MOV, MP4, Real, FLV, OGM ...) ; Audio (WAV, MP3, OGG...) ; Image (BMP, JPG, TIFF...) ; Texte (HTML, MHTML, Open Document, Open XML/Microsoft Office, Adobe PS/PDF, Flash).

L’œuvre d’observation et de collecte « prend [aussi] en compte la problématique du Web invisible en proposant des moyens, méthodes et outils, permettant l'accès à ces sous-ensembles du Web Invisible ». Le tout est archivé et chaque mise à jour « d'un gisement Web, FTP ou NMTP » fait l’objet d’un stockage différencié pour tenir compte des évolutions des contenus amassés.

Le système s’attaque aussi bien au web qu’aux radios et aux TV. Ainsi, les langues des documents audio devant être identifiées dans le système HÉRISSON sont :

Primordial : le français, l'anglais, l'arabe, le russe, le farsi.

Important ; l'espagnol, l'allemand, , le chinois mandarin, l'italien,k le serbo-croate, l'hindi, le japonais, le coréen, le turc, l'ukrainien, l'hébreu, l'urdu, l'albanais, le macédonien.

Souhaitable : le néerlandais, le grec, le portugais, le polonais.

Pour les images, Hérisson permet l'accès aux caractéristiques brutes et aux métadonnées d'une image, « comme le type et les caractéristiques d'encodage, la résolution, le taux de compression, les champs EXIF, les statistiques usuelles liées à l'image histogramme, moments centrés...), ... il note aussi la provenance de l'image (URL pour les images obtenues via Internet) et éventuellement le nom du photographe ». Hérisson « reconnaît les images transformées » et « lorsqu'une photographie a subi des transformations (rotations, changement d'échelle, compression, modification des contrastes,...), [il] sait reconnaître l'image originale parmi les images qui en sont issues ».

Pour pousser un peu plus loin l’excavation des données glanées, Hérisson permet « la détection et classification d'objets contenus dans une image (personne, véhicule, meuble...). Cette fonctionnalité sera évaluée avec les méthodologies utilisées dans les évaluations Techno-Vision/ImagEval, tâche n°4, PASCAL VOC (Visual Object Classes challenge), et CLEAR (tâche « 2D Face détection ») ». Sur les vidéos, HÉRISSON « permet la détection et l'identification de personne dans une vidéo. Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation CLEAR (tâche « person identification ») »

Reconnaissance de caractères, faciale et d'objets

S’ajoutent à la [très] longue liste, la reconnaissance des caractères (détection du texte, détection des colonnes, détection de zones de texte, détection de tableaux, détection de formats de caractères et de polices, détection de graphiques, etc.), la détection d’éléments « de contexte d'une image (photo couleur, photo noir&blanc, reproduction artistique, visage, scène intérieur/extérieur, ville/campagne/bord de mer/montagne/..., jour/nuit; présence/absence d'objets manufacturés où d'artefacts d'origine humaine, ...) »…

Des données exploitées par un moteur multicritère

Une fois la masse de données stockées, l’exploitation se fait avec une fonction de recherche avancée (ou multicritère) qui permet a minima de préciser une combinaison booléenne des paramètres suivants:

Date (avec intervalle),

Taille (avec un intervalle),

Type de document (texte, image, graphique, vidéo, audio),

Format de fichier,

URL d'origine.

Les propriétés du contenu :

L'exclusion de mot,

Une expression exacte,

La combinaison booléenne entre les mots-clés,

Les mots commençant par une chaîne de caractères donnée,

Distance entre les mots dans le texte,

Expression régulière,

Localisation dans la page (titre / corps de texte),

Une écriture phonétique,

Une orthographe approchée,

Dans une page (URL) précise,

Dans les pages contenant un lien précis.

Exemple piquant, « Le système offre la possibilité de reconnaître l'entité elle-même de plusieurs manières différentes: Soit par mention explicite. Exemple : « Nicolas Sarkozy », Par mention relative (« le nouveau président français »), par mention partielle (« Monsieur Sarkozy », « le Président »), par anaphore (« il », « celui-ci »), par surnom (« Sarko ») »

La semaine dernière, un étrange, et quelque peu inquiétant, animal est apparu au grand jour : HERISSON. « La France serait-elle en voie de mettre en place l’équivalent d’un réseau Echelon dans l’hexagone pour surveiller et cataloguer tous les faits et gestes de tous les médias, radio, TV et internet compris ? », se demandait alors PC Inpact à l’origine de la médiatisation de l’appel d’offres de ce projet commandé par la Délégation générale pour l’armement (DGA), la direction du ministère de la Défense notamment responsable des essais et évaluations des systèmes de défense. Et pour cause, le système est décrit comme capable d’accéder et de collecter tout ce qui est diffusé dans les médias en ligne et de gérer notamment tous les contenus transitant via IRC, mailing-list, forums, p2p, etc., dans un large éventail de formats (vidéo, audio, images, texte), et de protocoles (POP3, FTP, etc.).

Nous avons donc contacté un porte-parole de la DGA pour avoir davantage de détails sur cet « Habile Extraction du Renseignement d’Intérêt Stratégique à partir de Sources Ouvertes Numérisées ».

Tout d’abord, pouvez-vous confirmer l’authenticité des documents publiés par PC Inpact ?

Oui. HERISSON a fait l’objet d’un appel d’offres en 2007, et il a été largement distribué à toutes les sociétés susceptibles d’être prestataires. Quant à l’autre document, il s’agit de ce qu’on appelle le cahier des clauses techniques particulières (CCTP), et il était en annexe de l’appel d’offres.

Et depuis 2007 que s’est-il passé ?

Un contrat a été notifié fin 2008.

Pouvez-vous préciser avec qui ?

Oui, avec EADS. EADS est le mandataire, et derrière, on retrouve les sociétés Bull et Bertin. La durée du marché est de trois ans.

Et donc, qu’est-ce qu’HERISSON ?

C’est un démonstrateur technologique. On appelle cela plus exactement un « programme d’étude amont ». C’est un peu comme un prototype. Il n’a pas pour but de devenir opérationnel, ça reste à un niveau purement technique. Et son objectif est de tester, d’évaluer les logiciels dans le commerce et les logiciels libres capables de traiter des sources ouvertes. Il en existe plein, mais tous ne sont pas stables. Alors on va regarder lesquels sont les plus performants et pourraient nous être utiles. Et voir si on peut les inter-connecter.

On parle de surveillance et de collecte de tout ce qui existe sur le réseau, des mails aux réseaux P2P. Quelles données sont concernées ?

On ne travaille que sur les sources ouvertes, c’est-à-dire tout ce qui est accessible au commun des mortels. C’est d’ailleurs dans le nom même d’HERISSON : Sources Ouvertes Numérisées. On exclut tout ce qui concerne la sphère privée. Ca n’a rien à voir avec Echelon comme j’ai pu le lire.

Par exemple, le fait de rechercher des informations sur POP3 (protocole de messagerie), ce n’est pas pour aller espionner les mails des gens, mais pour pouvoir s’inscrire à des mailing-lists qui nécessitent également POP3. Pour le p2p, on ne va pas surveiller qui télécharge quoi, mais typiquement on doit pouvoir savoir que, sur Emule, telle information est disponible en téléchargement. Par exemple, une vidéo d’Al-Qaida. Autre exemple, pour le « web invisible », il s’agit d’avoir accès à des pages qui ne sont pas ou mal indexées par les moteurs de recherche, mais qui restent encore une fois accessibles à ceux qui savent les chercher.

Par ailleurs, il n’y a aucune forme de hacking. Il n’est pas question de pirater des sites ou de rentrer dans des systèmes.

Vous avez dû demander une autorisation à la CNIL ?

Non. Nous avons regardé, mais elle n’est pas nécessaire car il s’agit d’un démonstrateur technologique et que nous ne constituons pas de bases de données. On va récupérer de l’information mais seulement pour avoir un échantillon représentatif pour pouvoir tester les différentes logiciels. On ne va pas conserver ni classifier l’information dans HERISSON.

Au final, le but est bien de passer à un système opérationnel ?

Oui, au bout de trois ans, il pourra y avoir un autre contrat pour faire un logiciel opérationnel, mais il sera sur la même base. Uniquement sur la recherche d’informations ouvertes. Ca n’a rien de « folichon », c’est d’ailleurs pourquoi les infos relatives à l’appel d’offres n’ont pas été classées Secret Défense. Si cela avait été un projet de type Echelon, cela aurait été le cas

Lien vers le commentaire
Partager sur d’autres sites

C'est bien tout cela, mais comme dans tout outil de "monitoring" - " supervision", la masse de données est tellement énorme que si des moyens humains ne sont pas mis en adéquations, ce bel outil n'aura pas grand intérêt.

Combien de dizaines d'analystes, superviseurs, rédacteurs, cadres, faudra t-il pour faire tourner le bouzin ( ou un autre d'ailleurs ).

On risque à terme d'oublier l'"HUMINT", ou du moins de transférer ces moyens ( non extensibles  à l'infini ), vers l'"ELINT", et on se coupera à terme des renseignements parfois plus fiables des personnels "locaux", ou nos honorables correspondants peuvent sentir les rumeurs de la rue.

Bref, c'est bien beau sur le papier, encore faudra t-il y mettre les personnels compétents afin d'en faire ressortir des analyses et synthèses pertinentes.

Lien vers le commentaire
Partager sur d’autres sites

Des fois ils doivent se bidonner en lisant ce que l'on sort comme con...ies au m2. 8)

Je parle même pas des traducteurs, linguistes et autres ethnolinguistes, semiolinguistes et j'en passe.

Peut-être qu'en passant des annonces sur le net ou sur le pôle emploi, on pourrait faire baisser le chômage  :-X

Lien vers le commentaire
Partager sur d’autres sites

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant
  • Statistiques des membres

    6 003
    Total des membres
    1 749
    Maximum en ligne
    pandateau
    Membre le plus récent
    pandateau
    Inscription
  • Statistiques des forums

    21,6k
    Total des sujets
    1,7m
    Total des messages
  • Statistiques des blogs

    4
    Total des blogs
    3
    Total des billets
×
×
  • Créer...