dans Littérature

Comment faire un corpus ?

1 Star2 Stars3 Stars4 Stars5 Stars (1 votes, average: 5,00 out of 5)
Loading...

Le travail de construction de corpus se divise en deux étapes, la conception et la mise en œuvre, mais celles-ci ne peuvent pas être complètement séparées, pour des raisons largement pratiques.

L’un est le coût. De nos jours, la plupart des corps sont créés à partir d’un texte déjà numérisé; le coût de la mise en forme électronique du texte qui n’existe que sur papier est beaucoup plus grand que le coût de la simple copie, du téléchargement et de la collecte de données déjà numérisées; il doit donc y avoir une raison impérieuse d’utiliser l’une des méthodes les plus laborieuses utilisées pour capturer les données dans les jours précédant le texte électronique.

Parfois, cependant, il est nécessaire de faire les choses de manière difficile; pour un corpus de conversations informelles, par exemple, ou des documents historiques ou des documents manuscrits ou manuscrits. Mais dans tous ces cas, il vaut la peine d’effectuer une recherche sérieuse de diverses collections et archives, et peut-être une question sur les listes professionnelles, avant d’entreprendre la main-d’œuvre pour entrer un nouveau texte.

Une autre raison pour le principe de mélange et la pratique dans la construction de corpus est que certains types de données sont intrinsèquement difficiles ou même impossibles à obtenir, et une mesure de compromis est souvent nécessaire; certains auteurs refusent catégoriquement d’avoir leur travail stocké dans un corpus ou d’insister sur des frais élevés; certains types d’interactions sont extrêmement difficiles à faire; dans de nombreux pays, l’enregistrement clandestin est illégal; certains documents qui utilisent des graphiques ne sont pas disponibles et doivent être déballés avant d’être dactylographiés dans le corpus.

Pour les langues utilisées dans des segments substantiels du globe, on trouvera une très grande quantité de texte sur Internet. Même pour les petites langues, il existe souvent une quantité et une quantité remarquables de matériel. Si les ressources électroniques disponibles ne sont pas adéquates, l’alternative moins coûteuse consiste à numériser des textes imprimés; Cependant, cela prend du temps et la sortie du scanner doit être modifiée au moins superficiellement. Voir ci-dessous sur Perfectionism.

La pire option est de faire appel à de grandes quantités de documents textuels; Ceci est encore inévitable avec les transcriptions de l’interaction parlé, mais nécessite une consommation de ressources qui entraîne un projet, limite sa taille et réduit son importance. La saisie peut être une option viable pour les textes individuels qui ne sont pas disponibles sous forme numérique et qui ne sont pas faciles à analyser, mais pour un grand corpus de texte, il est probable qu’il y ait des options plus faciles.

Ajouter Un Commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *