logo EDITE Mohamed Amine BOUKHALED
Identité
Mohamed Amine BOUKHALED
État académique
Thèse soutenue le 2016-09-13
Sujet: Stylistique automatique et identification d'auteurs
Direction de thèse:
Laboratoire:
Voisinage
Ellipse bleue: doctorant, ellipse jaune: docteur, rectangle vert: permanent, rectangle jaune: HDR. Trait vert: encadrant de thèse, trait bleu: directeur de thèse, pointillé: jury d'évaluation à mi-parcours ou jury de thèse.
Productions scientifiques
oai:hal.archives-ouvertes.fr:hal-01198412
Une méthode non supervisée pour la vérification d'auteur à base d'un modèle gaussien multivarié
National audience
In this paper, we present a first study on using a distance-based outlier detection method for the authorship verification task. We have considered an unsupervised method based on a multivariate Gaussian model. To evaluate the effectiveness of the proposed method, we conducted experiments on a classic French corpus. Our preliminary results show that the proposed method can achieve a high verification performance that can reach an F 1 score of 83% outperforming the baseline. MOTS-CLÉS : vérification non supervisée de l'auteur, détection des cas aberrants, modèle Gaussien multivarié.
Dans cet article, nous présentons une première étude sur l'utilisation d'une méthode de détection des cas aberrants à base de distance pour la tâche de vérification de l'auteur. Nous avons considéré une méthode non supervisée basée sur un modèle gaussien multivarié. Pour évaluer l'efficacité de la méthode proposée, nous avons mené une expérimentation sur un corpus de textes littéraires français classiques. Nos résultats préliminaires montrent que la méthode proposée peut réaliser une haute performance de vérification qui peut atteindre un score de F 1 de 83%, supérieure à celle de la méthode de référence.
CORIA 2015 - Conférence en Recherche d'Infomations et Applications 10es Rencontres Jeunes Chercheurs en Recherche d’Information (RJCRI) http://hal.upmc.fr/hal-01198412 10es Rencontres Jeunes Chercheurs en Recherche d’Information (RJCRI), Mar 2015, Paris, France. ARIA, CORIA 2015 - Conférence en Recherche d'Infomations et Applications, pp.525-533, 2015ARRAY(0x7f04027366d0) 2015-03-18
oai:hal.archives-ouvertes.fr:hal-01198409
Une mesure d'intérêt à base de surreprésentation pour l'extraction des motifs syntaxiques stylistiques
International audience
In this contribution, we present a computational stylistic study of the French classic literature texts based on a data-driven approach where discovering interesting linguistic patterns is done without any prior knowledge. We propose an objective measure capable of capturing and extracting meaningful stylistic syntactic patterns from a given author’s work. Our hypothesis is based on the fact that the most relevant syntactic patterns should significantly reflect the author’s stylistic choice and thus they should exhibit some kind of overrepresentation behavior controlled by the author’s purpose. The analysed results show the effectiveness in extracting interesting syntactic patterns from classic French literary text, and seem particularly promising for the analyses of such particular text.
Dans cette contribution, nous présentons une étude sur la stylistique computationnelle des textes de la littérature classiques française fondée sur une approche conduite par données, où la découverte des motifs linguistiques intéressants se fait sans aucune connaissance préalable. Nous proposons une mesure objective capable de capturer et d'extraire des motifs syntaxiques stylistiques significatifs à partir d'un oeuvre d'un auteur donné. Notre hypothèse de travail est fondée sur le fait que les motifs syntaxiques les plus pertinents devraient refléter de manière significative le choix stylistique de l'auteur, et donc ils doivent présenter une sorte de comportement de surreprésentation contrôlé par les objectifs de l'auteur. Les résultats analysés montrent l'efficacité dans l'extraction de motifs syntaxiques intéressants dans le texte littéraire français classique, et semblent particulièrement prometteurs pour les analyses de ce type particulier de texte.
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles 22ème Conférence sur le Traitement Automatique des Langues Naturelles http://hal.upmc.fr/hal-01198409 22ème Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2015, Caen, France. Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles, 2015ARRAY(0x7f0401b69d00) 2015-06-22
oai:hal.archives-ouvertes.fr:hal-01198407
Using Function Words for Authorship Attribution: Bag-Of-Words vs. Sequential Rules
International audience
Authorship attribution is the task of identifying the author of a given document. Various style markers have been proposed in the literature to deal with the authorship attribution task. Frequencies of function words have been shown to be very reliable and effective for this task. However, despite the fact that they are state-of-the-art, they basically rely on the invalid bag-of-words assumption, which stipulates that text is a set of independent words. In this contribution, we present a comparative study on using two different types of style marker based on function words for authorship attribution. We compare the effectiveness of using sequential rules of function words as style marker that do not relay on the bag-of-words assumption to that of the frequency of function words which does. Our results show that the frequencies of function words outperform the sequential rules.
Natural Language Processing and Cognitive Science Proceedings 2014 The 11th International Workshop on Natural Language Processing and Cognitive Science http://hal.upmc.fr/hal-01198407 The 11th International Workshop on Natural Language Processing and Cognitive Science, Oct 2014, Venice, Italy. DE GRUYTER, Natural Language Processing and Cognitive Science Proceedings 2014, pp.115-122, 2015, <10.1515/9781501501289.115>ARRAY(0x7f04000b2170) 2014-10-27
oai:hal.archives-ouvertes.fr:hal-01198401
Probabilistic Anomaly Detection Method for Authorship Verification
International audience
Authorship verification is the task of determining if a given text is written by a candidate author or not. In this paper, we present a first study on using an anomaly detection method for the authorship verification task. We have considered a weakly supervised probabilistic model based on a multivari-ate Gaussian distribution. To evaluate the effectiveness of the proposed method, we conducted experiments on a classic French corpus. Our preliminary results show that the probabilistic method can achieve a high verification performance that can reach an F 1 score of 85%. Thus, this method can be very valuable for authorship verification.
Statistical Language and Speech Processing 2nd International Conference on Statistical Language and Speech Processing, SLSP 2014 http://hal.upmc.fr/hal-01198401 Springer International Publishing. 2nd International Conference on Statistical Language and Speech Processing, SLSP 2014, Oct 2014, Grenoble, France. Statistical Language and Speech Processing, 8791, pp.211-219, 2014, Lecture Notes in Computer Science. <10.1007/978-3-319-11397-5_16>ARRAY(0x7f0402636bc8) 2014-10-14
oai:hal.archives-ouvertes.fr:hal-01198411
Phoebus : un Logiciel d'Extraction de Réutilisations dans des Textes Littéraires
International audience
Phoebus is a reuse extraction software for literary text. It was developed as a computer-assisted literary analysis tool. In this context, the software automatically detects and explores textual reuse networks in classical literature. Mots-clés : Extraction de réutilisations, empreintes digitales textuelles, analyse littéraire assistée par ordinateur
Phoebus est un logiciel d'extraction de réutilisations dans des textes littéraires. Il a été développé comme un outil d'analyse littéraire assistée par ordinateur. Dans ce contexte, ce logiciel détecte automatiquement et explore des réseaux de réutilisation textuelle dans la littérature classique.
22ème Conférence sur le Traitement Automatique des Langues Naturelles http://hal.upmc.fr/hal-01198411 22ème Conférence sur le Traitement Automatique des Langues Naturelles, 2015, Caen, France. 2015ARRAY(0x7f0402632468) 2015
oai:hal.archives-ouvertes.fr:hal-01198413
A Peculiarity-based Exploration of Syntactical Patterns: a Computational Study of Stylistics
International audience
In this contribution, we present a computational stylistic study and comparison of classic French literary texts based on a data-driven approach where discovering interesting linguistic patterns is done without any prior knowledge. We propose an objective measure capable of capturing and extracting meaningful stylistic syntactic patterns from a given author's work. Our hypothesis is based on the fact that the most relevant syntactic patterns should significantly reflect the author's stylistic choice and thus they should exhibit some kind of peculiar overrepre-sentation behavior controlled by the author's purpose with respect to a linguistic norm. The analyzed results show the effectiveness in extracting interesting syntactic patterns from novels, and seem particularly promising for the analysis of such particular texts.
Workshop on Interactions between Data Mining and Natural Language Processing DMNLP'15 ECML/PKDD 2015 Workshop http://hal.upmc.fr/hal-01198413 Workshop on Interactions between Data Mining and Natural Language Processing DMNLP'15 ECML/PKDD 2015 Workshop, Sep 2015, Porto, Portugal. pp.31-40, 2015ARRAY(0x7f04010a1ae0) 2015-09-07
Soutenance
Thèse: De la Stylistique Computationnelle: Fouille de Textes Littéraires pour l'Extraction de Motifs Stylistiques Caractérisants
Soutenance: 2016-09-13
Rapporteurs: Thierry POIBEAU    Jean-Luc MINEL