Tapez votre recherche ici
  • Équipes
  • Membres
  • Projets
  • Événements
  • Appels
  • Emplois
  • publications
  • Logiciel
  • Outils
  • Réseau
  • Équipement

Un petit guide pour l'utilisation de la recherche avancée :

  • Tip 1. Utilisez "" afin de chercher une expression exacte.
    Exemple : "division cellulaire"
  • Tip 2. Utilisez + afin de rendre obligatoire la présence d'un mot.
    Exemple : +cellule +stem
  • Tip 3. Utilisez + et - afin de forcer une inclusion ou exclusion d'un mot.
    Exemple : +cellule -stem
e.g. searching for members in projects tagged cancer
Rechercher
Compteur
IN
OUT
Contenu 1
  • member
  • team
  • department
  • center
  • program_project
  • nrc
  • whocc
  • project
  • software
  • tool
  • patent
  • Personnel Administratif
  • Chargé(e) de Recherche Expert
  • Directeur(trice) de Recherche
  • Assistant(e) de Recherche Clinique
  • Infirmier(e) de Recherche Clinique
  • Chercheur(euse) Clinicien(ne)
  • Manager de département
  • Etudiant(e) en alternance
  • Professeur(e)
  • Professeur Honoraire
  • Aide technique
  • Etudiant(e) M2
  • Chercheur(euse) Contractuel(le)
  • Personnel infirmier
  • Chercheur(euse) Permanent(e)
  • Pharmacien(ne)
  • Etudiant(e) en thèse
  • Médecin
  • Post-doctorant(e)
  • Prize
  • Chef(fe) de Projet
  • Chargé(e) de Recherche
  • Ingénieur(e) de Recherche
  • Chercheur(euse) Retraité(e)
  • Technicien(ne)
  • Etudiant(e)
  • Vétérinaire
  • Visiteur(euse) Scientifique
  • Directeur(trice) Adjoint(e) de Centre
  • Directeur(trice) Adjoint(e) de Départment
  • Directeur(trice) Adjoint(e) de Centre National de Référence
  • Directeur(trice) Adjoint(e) de Plateforme
  • Directeur(trice) de Centre
  • Directeur(trice) de Départment
  • Directeur(trice) d'Institut
  • Directeur(trice) de Centre National de Référence
  • Chef(fe) de Groupe
  • Responsable de Plateforme
  • Responsable opérationnel et administratif
  • Responsable de Structure
  • Président(e) d'honneur de Département
  • Coordinateur(trice) du Labex
Contenu 2
  • member
  • team
  • department
  • center
  • program_project
  • nrc
  • whocc
  • project
  • software
  • tool
  • patent
  • Personnel Administratif
  • Chargé(e) de Recherche Expert
  • Directeur(trice) de Recherche
  • Assistant(e) de Recherche Clinique
  • Infirmier(e) de Recherche Clinique
  • Chercheur(euse) Clinicien(ne)
  • Manager de département
  • Etudiant(e) en alternance
  • Professeur(e)
  • Professeur Honoraire
  • Aide technique
  • Etudiant(e) M2
  • Chercheur(euse) Contractuel(le)
  • Personnel infirmier
  • Chercheur(euse) Permanent(e)
  • Pharmacien(ne)
  • Etudiant(e) en thèse
  • Médecin
  • Post-doctorant(e)
  • Prize
  • Chef(fe) de Projet
  • Chargé(e) de Recherche
  • Ingénieur(e) de Recherche
  • Chercheur(euse) Retraité(e)
  • Technicien(ne)
  • Etudiant(e)
  • Vétérinaire
  • Visiteur(euse) Scientifique
  • Directeur(trice) Adjoint(e) de Centre
  • Directeur(trice) Adjoint(e) de Départment
  • Directeur(trice) Adjoint(e) de Centre National de Référence
  • Directeur(trice) Adjoint(e) de Plateforme
  • Directeur(trice) de Centre
  • Directeur(trice) de Départment
  • Directeur(trice) d'Institut
  • Directeur(trice) de Centre National de Référence
  • Chef(fe) de Groupe
  • Responsable de Plateforme
  • Responsable opérationnel et administratif
  • Responsable de Structure
  • Président(e) d'honneur de Département
  • Coordinateur(trice) du Labex
Recherche

← Go to Research

Revenir
Haut de page
Partagez
Domaines Scientifiques
Maladies
Organismes
Applications
Technique

Publié sur Journal of Open Source Software - 08 mai 2022

Legrand V, Kergrohen T, Joly N, Criscuolo A

Lien DOI – 10.21105/joss.03790

JOSS 2022 May;7(73):3790

Due to advances in high-throughput sequencing technologies, generating whole genome sequencing (WGS) data with high coverage depth (e.g. ≥ 500×) is now becoming common, especially when dealing with non-eukaryotic genomes. Such high coverage WGS data often fulfills the expectation that most nucleotide positions of the genome are sequenced a sufficient number of times without error. However, performing bioinformatic analyses (e.g. sequencing error correction, whole genome de novo assembly) on such highly redundant data requires substantial running times and memory footprint.

To reduce redundancy within a WGS dataset, randomly downsampling high-throughput sequencing reads (HTSR) is trivial. Nevertheless, this first-in-mind strategy is not efficient as it does not minimize variation in sequencing depth, thereby eroding the coverage depth of genome regions that are under-covered (if any). To cope with this problem, a simple greedy algorithm, named digital normalization, was designed to efficiently downsample HTSRs over genome regions that are over-covered. Given an upper-bound threshold κ > 1, it returns a subset Sκ such that the coverage depth induced by the HTSRs in Sκ is expected to be at most εκ across genome (where ε > 1 is a constant). By discarding highly redundant HTSRs while retaining sufficient and homogeneous coverage depth (≈ εκ), this algorithm strongly decreases both running times and memory required to subsequently analyze WGS data, with often little impact on the expected results.

Interestingly, the digital normalization algorithm can be easily enhanced in several ways, so that the final subset contains fewer but more qualitative HTSRs. Unfortunately, these different improvements are scattered in distinct program tools. ROCK (Reducing Over-Covering K-mers) was therefore developed with the key purpose of implementing a fast, accurate and easy-to-use digital normalization procedure. It was designed to be used as a preprocessing step prior to performing fast genome de novo assembly.  The C++ source code is available under GNU Affero General Public License v3.0 at https://gitlab.pasteur.fr/vlegrand/ROCK.