Nos tutelles

CNRS

Nos partenaires


Accueil > Publications > Thèses > Archives Thèses > Thèses 2012 - 2013

SAIDI Rabie


Mercredi 3 octobre à 15 h 00 - Salle du Conseil (A102)

La classification est l’un des défis important en bioinformatique, aussi bien pour les données protéiques que nucléiques. La présence de ces données en grandes masses, leur ambiguïté et en particulier les coûts élevés de l’analyse in vitro en termes de temps et d’argent, rend l’utilisation de la fouille de données plutôt une nécessité qu’un choix rationnel. Cependant, les techniques de fouille de données, qui traitent souvent des données sous le format relationnel, sont confrontés avec le format inapproprié des données biologiques.
Par conséquent, une étape inévitable de prétraitement doit être établie.

Cette thèse traite du prétraitement de données protéiques comme une étape de préparation avant leur classification. Nous présentons l’extraction de motifs comme un moyen able pour répondre à cette tâche. Les motifs extraits sont utilisés comme descripteurs, en vue de coder les protéines en vecteurs d’attributs. Cela permet l’utilisation des classifieurs connus. Cependant, la conception d’un espace approprié d’attributs, n’est pas une tâche triviale.

Nous traitons deux types de données protéiques à savoir les séquences et les structures 3D. Dans le premier axe, i.e. ; celui des séquences, nous proposons un nouveau procédé de codage qui utilise les matrices de substitution d’acides aminés pour définir la similarité entre les motifs lors de l’étape d’extraction. En utilisant certains classifieurs, nous montrons l’efficacité de notre approche en la comparant avec plusieurs autres méthodes de codage. Nous proposons également de nouvelles métriques pour étudier la robustesse de certaines de ces méthodes lors de la perturbation des données d’entrée. Ces métriques permettent de mesurer la capacité d’une méthode de révéler tout changement survenant dans les données d’entrée et également sa capacité à cibler les motifs intéressants. Le second axe est consacré aux structures protéiques 3D, qui ont été récemment considérées comme graphes d’acides aminés selon différentes représentations. Nous faisons un bref survol sur les représentations les plus utilisées et nous proposons une méthode naïve pour aider à la construction de graphes d’acides aminés. Nous montrons que certaines méthodes répandues présentent des faiblesses remarquables et ne reflètent pas vraiment la conformation réelle des protéines. Par ailleurs, nous nous intéressons à la découverte, des sous-structures récurrentes qui pourraient donner des indications fonctionnelles et structurelles. Nous proposons un nouvel algorithme pour trouver des motifs spatiaux dans les protéines. Ces motifs obéissent à un format dé ni sur la base d’une argumentation biologique. Nous comparons avec des motifs séquentiels et spatiaux de certains travaux reliés. Pour toutes nos contributions, les résultats expérimentaux confirment l’efficacité de nos méthodes pour représenter les séquences et les structures protéiques, dans des tâches de classification.

Les programmes développés sont disponibles sur ma page web
http://fc.isima.fr/ saidi.

Mots-clés : Prétraitement, extraction de motif, classification de protéines, structure protéique, motif séquentiel, motif spatial.

Jury :

Pr. Florence d’Alché-Buc - University of Evry, France, rapporteur
Dr. Henry Soldano - University of Paris-Nord, France, rapporteur
Pr. Mohammed Javeed Zaki Rensselaer - Polytechnic Institute, USA, rapporteur
Pr. Rumen Andonov - University of Rennes 1, France, rapporteur
Pr. Abdoulaye Baniré Diallo - University of Québec at Montreal, Canada, rapporteur
Pr. David Hill - University of Clermont-Ferrand II, France, rapporteur
Dr. Mondher Maddouri - University of Gafsa, Tunisia, co-directeur
Pr. Engelbert Mephu Nguifo - University of Clermont-Ferrand II, France, directeur