المستخلص: |
Being very complex and very fluctuate, the Arabic language requires a robust tool stemming, for better performance in terms of indexing and information retrieval. Most studies of indexing and searching using, for recognizing the roots of words, a transcript and add a truncation longer suffixes and prefixes. This leads to pseudo-roots, in most cases do not match their backgrounds and words can not be found. . In this work we present the morphological analyzer that we developed based on deterministic automata finite State recognition of the Arabic language. This system can extract derived forms of Arabic words and to recognize the words correctly written, and their labels.
Etant très complexe et très fluctuée, la langue arabe nécessite un outil de Raeinisation robuste, pour une meilleure performance en terme d’indexation et de recherche d’information. La plupart des études d’indexation et de recherche utilisent, pour la reconnaissance des racines des mots, une transcription plus une troncature de plus longs suffixes et préfixes. Ceci, conduit aux pseudo-racines, dans la majorité des cas, ne correspondent pas à leurs mots d’origines et ne permettent pas de les retrouvés, l’analyseur morphologique que nous avons élaboré, basé sur des automates déterministes à états finis reconnaissant la langue arabe. Ce système permet d’extraire des formes dérivées des mots arabes, et de reconnaître les mots correctement écrits, ainsi que leurs étiquettes.
|