DÉTECTION ET INTERPRÉTATION AUTOMATIQUE
DE CONTENUS ILLICITES ET PRÉJUDICIABLES SUR INTERNET

 UN EXEMPLE DE SÉMANTIQUE TEXTUELLE APPLIQUÉE : LE PROJET PRINCIP

Mathieu Valette
Centre de Recherche en Ingénierie Multilingue, INaLCO

1. Problématique

La demande des institutions, notamment au niveau européen [1], en matière de protection des usagers contre les contenus illicites ou préjudiciables sur Internet (racisme, xénophobie, pédophilie, etc.) se fait aujourd’hui pressante. Elle relaie et soutient les inquiétudes des mouvements associatifs alertés par l’impuissance des acteurs socio-éducatifs à maîtriser un média qui leur est peu familier [2], et conscients de l’inefficacité notoire des logiciels de filtrage actuellement sur le marché. Ces outils (CyberSitter, CyberPatrol, GuardDog, etc.) sont en effet basés sur des techniques rudimentaires peu à même de détecter correctement et de façon fiable les pages web contenant des propos racistes et xénophobes. Ils ont le plus souvent recours à de simples listes de mots-clés ou à des annuaires d’adresses préétablies qui nécessitent de fréquentes mises à jour.

PRINCIP (Plate-forme pour la Recherche, l'Identification et la Neutralisation des Contenus Illégaux et Préjudiciables sur l'Internet) est un système de détection automatique des pages web racistes, xénophobes et révisionnistes développé conjointement par plusieurs laboratoires de recherche européens [3]. Il repose sur une critique des systèmes de filtrage actuels, et notamment sur ceux à prétention linguistique qui recourent à des listes de mots-clés. Ceux-ci témoignent en effet d’une approche naïve du texte raciste, suggérant qu’il y a des mots racistes et des mots qui ne le sont pas, sans considération pour leur mise en texte (ou condition d’énonciation). Autrement dit, ces systèmes reposent sur un préjugé ontologique discutable, comme si le racisme était une langue de spécialité avec une terminologie stable et univoque : il y aurait des concepts racistes et des mots leur correspondant.

Pourtant, l’analyse des textes montre une toute autre réalité : d’une part, en tant qu’expression d’une opinion, le racisme n’est pas un discours référentiel, mais relève davantage de la rhétorique ; d’autre part ― et en conséquence ― sa caractérisation et sa détection impliquent la prise en compte de l’intertextualité inhérente au web, manifestée, dans le cas présent, par la présence de sites sur le racisme, c’est-à-dire antiracistes, qui partagent avec les textes racistes une part non négligeable de leur vocabulaire [4]. Enfin, pour des raisons qui tiennent à sa délictuosité, du moins au regard du droit français, le texte raciste fait la part belle à l’euphémisme et la mise à distance.

En bref, l’idée de mots-clés racistes s’avère peu pertinente : les traits sémantiques caractéristiques du texte raciste se situent en-deçà, ou au-delà de ces mots-clés, privilégiés par l’approche ontologique. Ce sont donc des traits sémantiques non ontologiques que nous avons choisis de privilégier pour PRINCIP et d’exposer dans le présent article [5]. Ci-après, nous aborderons la question de l’intertextualité et du choix théorique qui en découle (§ 2), puis nous en exposerons les conséquences quant aux critères de détection retenus (§ 3). Enfin, nous relaterons une expérience visant à pérenniser notre plate-forme à partir d’un travail sur le signe linguistique minimal : le morphème (§ 4).

Note : Les travaux de synthèses présentés ici ont pour cadre un projet collectif. C’est peu dire que je suis redevable aux membres du consortium PRINCIP de l’ensemble de ces réflexions, et notamment à l’équipe du Centre de Recherche en Ingénierie Multilingue de l’INaLCO.


2. Les frontières linguistiques du racisme

2.1. Le problème de l’intertextualité

Détecter les pages web racistes efficacement implique de prendre en compte l’intertextualité résultant de la dialectique qui oppose les auteurs antiracistes aux auteurs racistes. La rhétorique antiraciste consiste en effet à déconstruire l’argumentation des textes racistes, de sorte qu’une large place est faite aux citations, celles-ci pouvant aller du simple mot au paragraphe, voire davantage. Ainsi, les lexies les plus stables et les plus ancrées dans le vocabulaire des auteurs racistes, c’est-à-dire celles qui feraient de bons candidats a priori à la constitution d’une liste de mots-clés, sont celles dont des auteurs antiracistes vont faire un usage critique privilégié. Par exemple, le vocabulaire de l’extrême droite raciste (« immigrationisme », « immigration-invasion », « complot judéo-maçonnique », etc.) est fréquemment cité dans les pages antiracistes.

Parallèlement, les auteurs racistes s’approprient certaines lexies antiracistes notoires. Par exemple « Pote », emblème lexicale de l’association SOS-Racisme, s’il n’est plus guère utilisé par celle-ci que dans des lexies composées figées (ex. les associations de quartiers « les maisons des potes »), est remotivé par les auteurs racistes : « je vois de jour en jour cette invasion musulmane qui s'emplifie, les potes qui terorisent les gens honettes et foutent le bordel ds NOTRE BEAU PAYS doivent etre eradiquer sur le champ » (extrait du site SOS-Racaille).

Cette intertextualité trouve d’autres formes de manifestations plus problématiques encore, parce qu’elles ressortissent à une rhétorique de la page web. Ainsi, tel site raciste reproduira in extenso un article de la presse non raciste (L’Express, Le Monde) s’il traite d’un fait de société qui intéresse son propos xénophobe (par exemple, les tournantes, viols collectifs commis dans les quartiers défavorisés, thème alors associé à la purification ethnique, cf. infra). Dans ce cas, l’euphémisation est maximale, car le webmestre n’a pas à ajouter le moindre commentaire : le péritexte (sommaire, liens connexes) suffit aux lecteurs pour mesurer son intention.

L’intertextualité impose de dépasser l’idée qu’il existe des concepts racistes et antiracistes (ou non racistes) actualisés de part et d’autre d’une frontière idéologique. Le matériau conceptuel s’avère une porte d’entrée à la problématique du racisme, mais ne suffit pas, loin de là, à sa détection. Le racisme est l’expression d’une opinion, non la description d’un univers conceptuel.

2.2. Une approche différentielle des textes

Si, comme nous l’a enseigné Saussure et à sa suite, la sémantique structurale, la valeur linguistique est définie par des oppositions, il apparaît légitime d’adopter une approche différentielle des textes racistes et antiracistes. La sémantique différentielle apporte la solution théorique adéquate à ce cas de figure, en décrivant les éléments signifiants de la langue dans des systèmes d’oppositions et non sur un mode référentiel [6]. Il ne s’agira pas d’exclure les lexies racistes de notre base de connaissances, mais de tenir compte des différences. En effet, si toutes les lexies racistes sont susceptibles d’être présentes dans les textes antiracistes, et les lexies antiracistes dans les textes racistes, leur mise en texte diffèrent très sensiblement.

Ainsi, « droite nationale » est la dénomination courante dans les textes raciste de ce qu’il d’usage d’appeler l’extrême droite. De ce fait, on peut dire que la lexie appartient au vocabulaire raciste. Mais si 80 % des occurrences de la forme au singulier se rencontrent dans notre sous-corpus raciste, 89 % des occurrences de la forme plurielle, « droites nationales » sont, en revanche, antiracistes [7]. Autrement dit, le « concept » de droite nationale appartient à l’univers conceptuel des racistes, mais sa mise en texte par les antiracistes est possible, non marginale, et s’accompagne d’un trait sémantique /pluralité/ généralement absent lors des actualisations racistes. C’est la détection d’un tel trait sémantique qui marque la différence entre PRINCIP et un système de filtrage conventionnel, car l’opinion raciste ou antiraciste de l’auteur est, d’une certaine façon, signifiée par l’absence ou la présence du trait /pluralité/ lors de l’actualisation de « droite nationale »  ; or, une approche classique, ne retenant que le concept de droite nationale, en ignorerait la mise en texte.


3. Détecter selon des critères textuels

3.1. Le global et le local

Alors que le filtrage par mots-clés repose sur un seul palier de la description linguistique, la détection multi-critères mis en place par PRINCIP s’appuie sur plusieurs paliers de complexité textuelle : mot, syntagme, période et texte, ce dernier jugé primordial dans le cadre de la sémantique interprétative, dans la mesure où il détermine le sens des unités de paliers inférieurs [8]. La thèse défendue par François Rastier dans sa sémantique interprétative, selon laquelle le global (le texte) détermine le local (le signe) est en effet particulièrement adaptée au filtrage automatique des textes d’opinion, même à un niveau d’analyse relativement rudimentaire. Les données locales, dans les textes racistes, relèvent des lexies susceptibles d’être citées par les antiracistes. Les données quantitatives non spécifiquement lexicales, conditionnées par le genre textuel, seront assimilées à des données globales.

3.1.1. Données globales et genres textuels

L’un des genres privilégiés des auteurs racistes est le pamphlet. Cela se manifeste par la forte proportion d’informations textuelles caractérisant la diatribe et la polémique : points d’exclamation, adverbes de négation ou d’évaluation (« jamais », « rien », « peu », « tout », etc.), pronom, désinence de la deuxième personne du pluriel, morphèmes péjoratifs (« -ouille ») ou vulgaires (« foutr- »), etc. Comme les textes antiracistes sont rarement pamphlétaires, ces critères d’expression sont sensiblement plus fréquents dans les documents racistes qu’antiracistes. De cet écart quantitatif, PRINCIP infère une différence sémantique suffisante pour catégoriser adéquatement les documents.

Ainsi, lorsque la plate-forme PRINCIP traite un document comprenant une occurrence de la lexie raciste « sémitolâtrie », elle évaluera l’opinion de l’auteur à partir des critères d’expression dits de bas niveau (i.e. hors lexies racistes) présentes dans le texte et calculera le « taux » de racisme et le « taux » d’antiracisme du document. En d’autres termes, les données globales (le genre, qui conditionne les critères d’expression de bas niveau) ont une incidence sur les données locales (lexies) dans la mesure où elles leur donnent un sens raciste ou antiraciste par-delà leur signification hors contexte [9].

Parce qu’ils sont a priori sans lien sémantique avec les critères lexicaux de haut niveau, et que, par conséquent, ils demeurent en-deçà de la conscience des auteurs et des lecteurs des textes, ces critères de bas niveau relèvent d’un implicite inconscient (déterminé par le choix du genre par l’auteur) [10]. Ce défaut de conscience s’avère crucial dans la mesure où il assure la pérennité du système : si les lexies se périment, les genres, eux, s’avèrent beaucoup plus stables dans le temps.

Ainsi, les mots décrivant des parties du corps (« main », « genou », « oreilles », « doigts », « tête », etc.) sont sensiblement plus fréquents dans les textes racistes que dans les textes antiracistes. Certes, on conçoit aisément qu’un pamphlet raciste comprenne certaines des lexies complexes courantes auxquelles ils participent (« se mettre à genoux », « mettre le doigt sur », « être aux mains de », etc.), mais ce n’est pas suffisant. Ces items révèlent également d’un autre genre apprécié des auteurs racistes : le fait divers. Descriptif, il privilégie un vocabulaire concret, voire trivial.

Bien évidemment, les textes antiracistes présentent eux aussi des critères d’expression de bas niveau, de nature très différente. Par exemple, les dates anciennes y sont beaucoup plus fréquentes et témoignent d’une mémoire des événements (textes de loi, action historique contre le racisme, etc.) absente des textes racistes.

3.1.2. Données globales infratextuelles

Mais les critères globaux retenus par PRINCIP ne sont pas seulement linguistiques, et relèvent parfois de la structuration de la page. Ainsi, le code HTML fournit de précieux indices de bas niveau. Par exemple, le rouge est une couleur dominante sur les sites racistes, et dans un corpus constitué de pages HTML racistes et antiracistes (sans pages dites neutres) de 20M de caractères, les deux tiers des occurrences des principales étiquettes correspondant à cette région de la palette chromatique (rouge primaire : #FF0000; rouge profond : #990000, rouge sang : #CC0000) se trouvent dans les pages racistes, avec un pic à 92 % pour le rouge sang.

De même, on a observé, toujours à partir de ce même corpus, que d’une part, 45 % des pages racistes contiennent des images au format JPEG, contre seulement 11 % des pages antiracistes, et que d’autre part, plus des trois quarts desdites images proviennent des sites racistes de notre corpus. D’ailleurs, lorsqu’une image (GIF ou JPEG) est placée en arrière-plan, il s’agit dans 77 % des cas d’une page raciste.

Toujours liées au code HTML, les polices de caractère sont également très discriminantes. Ainsi, les polices Arial et Verdana dominent largement les pages racistes. Si malgré tout Arial est une police assez courante (46 % du sous-corpus antiraciste contiennent au moins une occurrence de l'étiquette), Verdana apparaît très spécifique (le taux de précision raciste est de 92 % et le taux de rappel antiraciste de seulement 3 % ; pour une définition de rappel et précision, cf. infra). Par ailleurs, la police Courier new, banale sur les sites racistes, est rarissime sur les sites antiracistes.

3.2. Les unités textuelles racistes

Si PRINCIP relativise l’importance des concepts et des mots-clés qui y sont associés dans son approche du texte raciste, cela ne signifie pas pour autant que les unités textuelles y sont négligées, bien au contraire ; il s’agit de privilégier d’autres unités textuelles, qui du point de vue du traitement, correspondent à des cooccurrences de morphèmes ou de mots [11]. Dans l’acception qui est la nôtre, deux items sont en cooccurrence lorsqu’ils sont actualisés dans une même fenêtre prédéfinie (paragraphe, alinéa, etc.). À la différence des mots isolés, les unités textuelles peuvent donc être discontinues. Leur actualisation ne dépend pas de la présence de la totalité des items qui la composent, elle est progressive, de sorte qu’il est possible de faire évoluer le seuil de présence des items à partir duquel une unité est considérée comme actualisée. Il peut être relativement bas si le document contient déjà beaucoup d’indices. En bref, d’un point de vue quantitatif, une unité textuelle n’est pas soit présente, soit absente, elle est plus ou moins présente. Parmi ces unités, deux catégories ont été retenues : les thèmes (ou molécules sémiques) et les isotopies sémantiques.

3.2.1. Les isotopies sémantiques

Une isotopie sémantique est un « effet de la récurrence d’un même sème » [12] dans un texte, selon un empan pouvant aller du syntagme au texte tout entier. On s’est attaché à quelques isotopies très discriminantes et lexicalement stables, telle que par exemple, l’isotopie ‘animalité’ assimilant l’Autre à une sous-espèce humaine ou une espèce animale. Ainsi l’isotopie se trouve signifiée par « femelle », « mâle », « bipède », « macaque », « bâtard », « chien », « rat », « cafard », « cloporte », « ramper », « peste », « choléra », « vermine », « proliférer », « grouiller », « puer », etc. [13] Voir, par exemple, l’extrait du site anti-Palestinien CPIAJ, ci-dessous :

« Sans doute attirés par l’odeur infecte des amoncellements de déchets locaux, une bande de rats d’Iran serait venue faire bombance au Liban (ah, l’état Liban !). Les animaux ont été signalés au nord de la frontière. En attendant, ils manifesteraient clairement l’intention de nuire. L’embêtant, c’est que maintenant il va falloir les détruire vite et bien jusqu’au dernier. Bref, depuis (plus de vingt ans) que le Shah n’est plus là, les rats dansent » (site CPIAJ).

Il est à noter que l’isotopie conjointe ‘maladie’ (« infecter », « gangrener », etc.) donne également de bons résultats, mais on la rencontre également dans certains textes antifascistes.

3.2.2. Les thèmes sémantiques

Alors que l’isotopie se caractérise par la récurrence d’un sème le temps d’un empan donné, le thème sémantique (ou molécule sémique) consiste en un « groupement stable de sèmes, non nécessairement lexicalisé, ou dont la lexicalisation peut varier » [14]. Les thèmes du racisme sont par exemple l’immigration (assimilée à une invasion) ou les viols collectifs (assimilés à la purification ethnique). Le thème antiraciste le plus discriminant que nous avons observé relève de la pratique de la démocratie. À titre d’exemple, on étudiera ci-dessous les deux dernières thèmes cités.

3.2.2.1. Exemple n°1 : Le viol collectif

Les « tournantes » font partie des thèmes récurrents dans certains textes du genre fait divers. Par analogie avec les viols collectifs commis lors de la guerre de Yougoslavie, ils sont assimilés à une purification ethnique. Les sèmes sont de plusieurs ordres :

– Lieux : avec le sème générique /extérieur/ (l’environnement : « banlieue », « quartier », « cité », etc.) ou /intérieur/ (le lieu du crime : « cave », « sous-sol », « parking », « chambre », etc.)

– Actant : /masculin/ (le bourreau :  « garçon », « copain », « pote », « compère », « mâle », etc.) ou /féminin/ (la victime : « jeune fille », « blanche », « française », « gauloise », etc.

– Action : /viol/ (« tournante », « violer », « pénétration », etc.)

Par exemple :
« le petit rat qui deale sa came et tourne des gauloises en compagnie d’autres colons exotiques  » (Site Tribune-Libre).

« Au printemps 2001, une pré-adolescente alors agée de douze ans devient la cible des agressions sexuelles d’une bande de « jeunes ». Elle a, comme la plupart du temps, le profil type de la victime de tournante : c’est une petite blanche,  issue d’un milieu modeste, particulièrement vulnérable, contrainte d’évoluer au sein d’une population majoritairement issue de l’immigration afro-maghrébine devenue plus typique de Roubaix que les bons vieux Ch’tis de ch’nord.» (Site Racisme antiblanc)

3.2.2.2. Exemple n°2 : La pratique de la démocratie

Ce que nous appelons « pratique de la démocratie » relève de la structuration associative de l’antiracisme : ses promoteurs convoquent des assemblées générales, organisent des débats, coordonnent des actions militantes, etc. Ce thème comprend par exemple les cooccurrents [15] suivants : « association », « organisation », « assemblée générale », « déléguer », « rencontrer », « débattre », etc. et dans le sous-thème manifestation, : « manifester », « mobilisation », « rendez-vous », « 14 heures », « place de la République », « banderole », etc.

Par exemple :
Mercredi 14 juin 2000 manifestation à Lille. En soutien aux grévistes de la faim qui sont dans un état critique, grande manifestation à Lille à 18h place de la République (site Pajol)


4. L'approche morphémique

4.1. Mot vs. morphème et lexie

En matière de traitement automatique du langage, sous influence informatique, le mot graphique est souvent perçu comme le signe linguistique minimal, parce qu’il se trouve naturellement isolé par des espaces ou des signes de ponctuation, ce qui rend aisée son identification. Cette vision graphocentriste ne résiste pas à l’analyse linguistique. Des syntagmes fortement intégrés comme « traitement de texte » ou « tiré à part », composés de plusieurs mots, constituent des unités de signification insécables qui ne se réduisent pas à la somme des significations les composant. Ces syntagmes correspondent à des lexies. Les morphèmes, qui entrent dans la composition des lexies, sont les signes linguistiques minimaux. Ainsi, la lexie « tiré à part » comprend quatre morphèmes (tir-, , à , part). Si l’on détaille, on distinguera deux lexèmes (morphèmes lexicaux) et deux grammèmes (morphèmes grammaticaux) [16]. En tant qu’unité minimale, le morphème relève de la langue et la lexie du discours (de l’actualisation).

Certes le traitement automatique des lexies se généralise, notamment grâce aux outils d’extraction de syntagmes (Cf. par exemple Assadi et Bourigault 2000.) et plusieurs travaux à partir de la morphologie lexicale ont été réalisés [cf. notamment Zweigenbaum et Grabar 2000.]. Mais malgré ces travaux pilotes, en l’absence de dictionnaire et de grammaire morphémiques et parce que le mot reste intuitivement perçu comme l'unité de base, les morphèmes sont aujourd’hui encore peu exploités en TAL.

4.2. De la lexie attestée aux lexies virtuelles

On a vu précédemment que les lexies racistes, nombreuses, étaient le point d’accès à la problématique raciste. En cela, elles constituent, en matière de détection, de précieuses informations. Bien que nous ne l’ayons pas expérimenté, il apparaît en effet peu probable qu’un système de classification puisse se contenter des seuls indices de bas niveau pour l’identification et la classification d’un document raciste. Cela dit, la grande variété des lexies racistes pose un problème théorique : doit-on stocker dans la base de connaissances l’ensemble des lexies attestées dans notre corpus d’apprentissage, sachant qu’ayant été actualisée au moins une fois, on peut légitimement penser qu’elles le seront encore ? faut-il faire un pas vers la virtualisation et les lemmatiser, avec le risque observé précédemment à propos de « droite nationale »  ? Le biais choisi par PRINCIP consiste à constituer un dictionnaire des principaux morphèmes utilisés dans la construction des lexies racistes et de détecter non plus les lexies elles-mêmes mais les combinaisons de morphèmes leur correspondant. Dans une perspective linguistique traditionnelle, par exemple énonciative, cette approche présente l’intérêt de passer du plan du discours (des lexies attestées) raciste à celui de la langue raciste. Ainsi, d’une lexie fréquente dans les textes racistes telle que « colonisation de peuplement », on ne retiendra que les morphèmes les plus discriminants – en l’occurrence, les lexèmes « colonis- », et « peupl- »), susceptibles de participer à d’autres lexies racistes non attestées dans notre corpus d’apprentissage, telle que « *peuple français colonisé ».

4.3. Fond et formes sémantiques

Par ailleurs, plutôt que de repérer une lexie isolée, il peut s’avérer plus intéressant de repérer la dissémination de morphèmes dans un texte. Ainsi, à partir d’une lexie telle que « colonisation de l’Europe » [17], on isolera deux morphèmes « colonis- », et « Europ- » dans des textes où la lexie n’apparaît pas :

Culpabilisées jusqu’à la pathologie autodestructrice, "masochiste" en somme, donc prêtes à accepter leur propre disparition via la submersion démographique, les nations européennes considèrent, dans une sorte d’inconscient collectif, leur dilution progressive dans cette civilisation islamo-africaine qu’ils ont colonisée et qui se venge en la colonisant en retour, comme une sorte de rédemption, une fatalité justifiée par une ruse de l’histoire, une justice immanente teintée de vengeance. L’Europe coupable paierait en quelques sortes ses fautes en se suicidant collectivement.   De leurs côtés, les Musulmans n’ont jamais connu la culpabilité, mais ils savent parfaitement culpabiliser les autres, notamment les Chrétiens, l’Occident en général. Si l’Europe regrette en effet la colonisation, l’Islam n’a pour sa part jamais témoigné quelque regret que ce soit quant à ses propres entreprises coloniales et impériales, qu’il s’agisse de l’Espagne, de la Sicile, du Maghreb ou du Proche-Orient, sans parler de l’Afrique noire, dernière terre d’islamisation massive et violente (Soudan, Erythrée). (Site AIPJ)

Évidemment, les deux morphèmes isolés ne participent pas nécessairement à des lexies signifiant la colonisation de l’Europe. Parfois, il s’agit au contraire de colonisation par l’Europe. Mais cette apparente contradiction n’affecte pas les mécanisme d’interprétation de PRINCIP [18]. L’approche morphémique ne vise pas seulement à redoubler l’approche lexicale (cas d’une occurrence possible d’« Europe colonisée ») mais aussi à la compléter. L’effet de récurrence des morphèmes participent à l’interprétation générale du texte, quelles que soient les modalités d’actualisation.

Le classement de notre dictionnaire morphémique repose sur la distinction faite par François Rastier entre forme et fond sémantiques. Le fond sémantique, dans le cadre de PRINCIP, est constitué des morphèmes susceptibles d’apparaître à la fois dans les textes racistes et dans les textes antiracistes, mais pas, ou de façon statistiquement non significative, dans les textes neutres. À l’inverse, la forme sémantique est constituée des morphèmes racistes ou antiracistes. Autrement dit, on a un fond commun, celui, pour faire vite, de la « racialité », et deux formes distinctes, l’une raciste, l’autre antiraciste. Dans les deux exemples cités précédemment, « europ- » appartient au fond sémantique, « colonis » et « peupl- » à la forme sémantique raciste.

La constitution du dictionnaire morphémique est déterminée par le taux de rappel et de précision des différents items. Le lexème « franc- », (« France », « français », « francité », etc.) [19] par exemple, a été retenu pour le fond sémantique parce que ses valeurs sont :

franc-

rappel

précision

Corpus raciste

71,70

46,41

Corpus antiraciste

60,35

39,06

Corpus neutre

22,43

14,52

Figure 1. Rappel et précision du morphème franc- calculé à partir du corpus de test.

Note : Le rappel est le rapport du nombre de documents pertinents trouvés (en l’occurrence, ceux contenant au moins une occurrence de la chaîne franc-) au nombre total de documents du sous-corpus considéré. La précision est le rapport du nombre de documents pertinents trouvés au nombre total de documents sélectionnés dans l’ensemble du corpus. Le cumul des précisions équivaut donc à 100%.

Nous observons une certaine homogénéité des résultats, tant au niveau du rappel que de la précision, entre le corpus raciste et le corpus antiraciste. Les résultats du corpus neutre se démarquent sensiblement. Appartiennent également au fond sémantique des lexèmes tels que « europ », ou « migr- ».

Pour les formes sémantiques, on a choisi des morphèmes ayant un taux de précision élevé, puisque c’est la précision qui permet de différencier les deux formes sémantiques. Le taux de rappel, cet égard, est moins déterminant. Les exemples proposés ci-dessous constituent de ce point de vue de bons spécimens. La figure 2 présente les taux de rappel et de précision de morphèmes racistes, la figure 3, ceux de quelques morphèmes antiracistes :

 

rappel

 précision

-ethn-  (ethnie, ethnique, etc.)

25,60

59,23

-mafi.- (mafia, mafieux, etc.)

5,61

61,46

-ouill-  (magouille, fripouille , etc.)

6,09

70,68

-man-  (israëlomane, etc.)

23,65

68,37

-phil-   (crouillophile, philomarxiste , etc.)

20,00

57,76

Figure 2. Rappel et précision racistes de quelques morphèmes à partir du corpus de test.
 

 

rappel

 précision

circul-     (circuler , circulation )

22,19

67,77

universit- (universitaire , université , etc.)

12,46

58,17

résid-      (résider , etc.)

19,45

57,31

sollicit-    (solliciter , sollicitation , etc.)

6,48

69,57

Figure 3. Rappel et précision antiracistes de quelques morphèmes à partir du corpus de test.

Pour faciliter la lecture, nous ne donnons pas les mesures de rappel et de précision de ces morphèmes pour les autres sous-corpus. Ils sont évidemment très inférieurs. Par exemple, le taux de rappel antiraciste de « -ouille- » est de 1,24 % et sa précision de 14,45 % ; le taux de rappel neutre est de 1,28 % et sa de précision 14,86 %.

On peut illustrer le fonctionnement de cette approche à l’aide de deux exemples. Soit la lexie « ethnie française »  : elle est composée d’un fond sémantique lié à la racialité, donc susceptible d’appartenir à un texte raciste ou à un texte antiraciste (« français ») et d’une forme sémantique raciste (« ethnie »). À l’inverse, la frome sémantique de la proposition « qui résident en France » est antiraciste (« résident ») mais le fond est identique.

5. Conclusion

Jusqu’ici essentiellement cantonnée à la constitution de terminologie et à la veille, la problématique de la détection et de la catégorisation automatique, largement dominée par l’approche ontologique (cf. le célèbre web « sémantique »), est sans doute appelée à connaître de profondes inflexions théoriques. Les textes susceptibles d’être traités automatiquement ne sont plus seulement ceux, univoques, des sciences et techniques. Internet, notamment, et la masse considérable de documents qui y circulent, et celle incommensurable de ceux qui y circuleront demain, crée de nouvelles demandes en termes de catégorisation, de classification et de filtrage : ce ne sont plus seulement des outils de recherche dont l’utilisateur a besoin, mais des outils d’interprétation. Ce sont donc de nouvelles méthodologies d’analyse des textes que les théoriciens doivent proposer au ingénieur du traitement automatique du langage.

La plate-forme PRINCIP, théoriquement fondée sur la sémantique interprétative, s’inscrit dans cette évolution. En se posant la question primordiale des genres textuels et de l’intertextualité sur le net, en travaillant sur des critères proprement sémantiques, des morphèmes et des lexies plutôt que sur des concepts, des mots et des phrase, l’équipe PRINCIP entend participer à ce débat. La plate-forme PRINCIP sera opérationnelle courant 2004.


NOTES

[1] Cf. notamment le Safer Internet Action Plan mis en place par la Commission Européenne, pour la promotion d’un Internet plus sûr (www.saferinternet.org).

[2] Cf. le récent rapport du MRAP (Mouvement contre le Racisme et pour l’Amitié entre les Peuples) : La naissance d’une nouvelle extrême droite sur Internet , mis en ligne le 18 juillet 2003, 184 pages (http://www.mrap.asso.fr/IMG/pdf/doc-91.pdf).

[3] Financé intégralement par la Commission Européenne, dans le cadre du Safer Internet Action Plan, le consortium PRINCIP comprend : le Centre de Recherche en Ingénierie Multilingue (CRIM) de l’Institut National des Langues et Civilisations Orientales de Paris (INaLCO), le Laboratoire d'Informatique de l'Université Paris 6 – Pierre et Marie Curie (LIP6), l’Institut für Germanistik de l’université Otto-von-Guericke à Magdebourg, l’ADI private Informatik-Akademie gGmbH, la School of Applied Language and Intercultural Studies (SALIS) de la Dublin City University (DCU).

[4] Par exemple, « bougnoule » , dans une perspective ontologique, c’est-à-dire détaché de ses conditions d’énonciation, est considéré comme raciste ; mais il n’apparaît en réalité que de façon très marginale sur les sites racistes. Mieux encore, l’analyse de nos différents corpus montre qu’il est trois fois plus fréquent sur les sites antiracistes que sur les sites racistes. Les auteurs racistes, dans la plupart des cas, préférerons parler d’un « jeune des cités », ou d’un « jeune des quartiers », voire, simplement d’un « jeune ».

[5] Une récente étude a montré que les systèmes de classification algorithmique (Rocchio, SVM, k-PPV), qui n’ont évidemment pas de préjugé ontologique, sélectionnaient nombre de mots-candidats sans rapport avec le racisme mais selon des critères statistiques relativement proches de ceux exposés ici. Cf. Vinot et al., 2003.

[6] Cf. Rastier et al. 1994, Rastier 2001.

[7] Ce résultat s’appuie l’étude d’un corpus de 2M de mots comprenant 1/3 de textes racistes, 1/3 de textes antiracistes, et 1/3 de textes dit neutres (ni racistes, ni antiracistes). Ce corpus sera identifié ultérieurement commecorpus de test.

[8] Cf. Rastier, op. cit.

[9] Pour François Rastier, op. cit., la signification relève du signe tandis que le sens relève du texte.

[10] Nous savons gré à François Rastier d’avoir porté notre attention sur ce point.

[11] Dans l’acception qui est la nôtre, deux items sont en cooccurrence lorsqu’ils sont actualisés dans une même fenêtre prédéterminé (paragraphe, alinéa, etc.)

[12] Cf. Rastier et al., op. cit., p. 223.

[13] Nous avons rapporter ici des lemmes, mais on rencontre souvent plusieurs formes pour un lexème. Ainsi, « vermine » donne « verminerie » , « vermineux » , etc. Cette remarque a valeur générale.

[14] Cf. Rastier et al., op. cit.

[15] Le thème repose sur un calcul lexicométrique. Il s'agit de la mesure de l’attraction qu'un mot-pôle exerce sur ses cooccurrents dans un corpus donné (à partir d'un test d’écart réduit).

[16] Pour une critique détaillée, cf. Rastier 1994.

[17] Issue du titre d’un ouvrage xénophobe célèbre dans les milieux d’extrême droite.

[18] Cette variation ne vaut du reste qu’en synchronie. Au regard de l’histoire du racisme, elle est insignifiante.

[19] Par commodité, nous avons simplifié l’écriture des morphèmes donnés en exemple.


BIBLIOGRAPHIE

Assadi H., Bourigault D. « Analyses syntaxique et statistique pour la construction d'ontologies à partir de textes ». J. Charlet, M. Zacklad, G. Kassel & D. Bourigault, Eds., Ingénierie des connaissances, évolution récentes et nouveaux défis, Paris, Eyrolles, Collection technique et scientifique des Télécommunications, 2000, p. 243-255.

Rastier, F. Cavazza, M, Abeillé, A., Sémantique pour l’analyse: de la linguistique à l’informatique, Paris, Masson, 1994.

Rastier, F., Arts et sciences du texte, Paris, PUF, 2001.

Vinot, R., Grabar N., Valette M., « Application d’algorithmes de classification automatique pour la détection des contenus racistes sur l’Internet », TALN 2003. En ligne : http://www.stud.enst.fr/~vinot/publi/taln2003.pdf

Zweigenbaum, P., Grabar, N. « Liens morphologiques et structuration de terminologie », Actes de la conférence IC'2000 (Journées francophones de l'ingénierie des connaissances), Toulouse 10-11 mai 2000, 2000, p. 325-334.


© Texto! 2003 pour l'édition électronique