Liste de stop-words français

Les « stop-words » sont des mots qui n’apportent pas de sens lors de l’analyse lexicale d’un texte. Ce sont donc des mots que l’on exclut généralement lors de l’indexation ou de l’analyse d’un texte. Je vous propose ma liste de 251 stop words en français comprenant des pronoms, des mots de liaison et quelques adverbes.

Ma liste de stop-words français :

à
à demi
à peine
à peu près
absolument
actuellement
ainsi
alors
apparemment
approximativement
après
après-demain
assez
assurément
au
aucun
aucunement
aucuns
aujourd'hui
auparavant
aussi
aussitôt
autant
autre
autrefois
autrement
avant
avant-hier
avec
avoir
beaucoup
bien
bientôt
bon
c'
ça
car
carrément
ce
cela
cependant
certainement
certes
ces
ceux
chaque
ci
comme
comment
complètement
d'
d'abord
dans
davantage
de
début
dedans
dehors
déjà
demain
depuis
derechef
des
désormais
deux
devrait
diablement
divinement
doit
donc
dorénavant
dos
droite
drôlement
du
elle
elles
en
en vérité
encore
enfin
ensuite
entièrement
entre-temps
environ
essai
est
et
étaient
état
été
étions
être
eu
extrêmement
fait
faites
fois
font
force
grandement
guère
habituellement
haut
hier
hors
ici
il
ils
infiniment
insuffisamment
jadis
jamais
je
joliment
la

le
les
leur
leurs
lol
longtemps
lors
ma
maintenant
mais
MDR
même
mes
moins
mon
mot
naguère
ne
ni
nommés
non
notre
nous
nouveaux
nullement
ou

oui
par
parce
parfois
parole
pas
pas mal
passablement
personnes
peu
peut
peut-être
pièce
plupart
plus
plutôt
point
pour
pourquoi
précisément
premièrement
presque
probablement
prou
puis
quand
quasi
quasiment
que
quel
quelle
quelles
quelque
quelquefois
quels
qui
quotidiennement
rien
rudement
s'
sa
sans
sans doute
ses
seulement
si
sien
sitôt
soit
son
sont
soudain
sous
souvent
soyez
subitement
suffisamment
sur
t'
ta
tandis
tant
tantôt
tard
tellement
tellement
tels
terriblement
tes
ton
tôt
totalement
toujours
tous
tout
tout à fait
toutefois
très
trop
tu
un
une
valeur
vers
voie
voient
volontiers
vont
votre
vous
vraiment
vraisemblablement
y'
:(
:-(
:)
:-)
:/
:-/
:p
:-p
\o/
^^
<3
O_o
O_o'
Oo

N’hésitez pas à proposer des ajouts dans les commentaires. 😉

10s Commentaires à “Liste de stop-words français”

  1. Il t’en manque quelques uns, ex:  » un, une, de » et les caractères avec apostrophes  » l’, c’, t’, y’, n’  » mais au moins tu m’as permis de débuter le job que je devais entreprendre dans quelques jours ^^ Merci.

  2. Je conseille d’ajouter les adverbes, et la liste est longue, par exemple : cependant, actuellement, dorénavant, habituellement, quotidiennement…

  3. On peut résonner à l’inverse. Ne conserver que les noms, verbes et adjectifs !

  4. C’est une idée intéressante. J’ai dans l’idée que ça demande plus de calculs, mais y’a surement des applications.

  5. Il existent des bibliothèques linguistiques déjà prêtes pour le traitement automatisé du langage. Saupoudrées d’un programme en Pearl, une routine peut faire ça automatiquement dans une optique SEO.

  6. parking

    Ma fois la liste est très complète, je vais me la garder sous le coude, je pense qu’elle pourra me servir bientôt 😉

  7. Je vais me la garder sous le coude, je pense qu’elle pourra me servir bientôt 🙂

  8. Merci pour votre liste ! Je me demande quand même toujours dans quels contextes les stop words sont pris en compte ou non, parce que par exemple, si on regarde la volumétrie pour la requête « d’accord » et « accord » elle est totalement différente, et pourtant « d' » est un stop word… Si quelqu’un veut bien m’éclairer 🙂

  9. Un accord et être d’accord sont deux utilisations différentes du mot accord. L’un en tant que nom, l’autre en tant que locution verbale. Dans ce cas, cela me semble justifié de conserver les deux dans l’analyse lexicale et la volumétrie de recherche.
    Mais la langue est une chose complexe, son analyse par une machine n’est jamais parfaite.