Corpus
Corpus et sites internets
Quelques sites utiles et assez généraux:
Guterberg Project : une offre de plus de 53'000 e-books gratuits
Text Encoding Initiative: est une communauté académique internationale dans le champ des humanités numériques visant à définir des recommandations pour l’encodage de documents textuels.
Corpus en littérature française: FranText
British National Corpus: BNC
Corpus Saint-Jean, collection de textes pour l'attribution d'auteurs sous différents formats: lemmatisé-UTF8, lemmatisé-Windows, textes-UTF8, textes-Windows
Dans le domaine politique :
American Presidency Project : une collection de plus de 123'530 documents and qui augmente de jour en jour.
Le site Miller Presidency Project : une très large collection de documents et écrits des présidents américains.
Droits d'auteur
Tous les logiciels / informations / corpus fournis sur ce site sont couverts par la licence BSD (voir http://www.opensource.org/licenses/bsd-license.html), avec Copyright (c) 2017, Dominique Labbé, Denis Monière, Cyril Labbé.
Essentiellement, tout cela signifie que vous ne pouvez faire ce que vous voulez avec le software ou les corpus, sauf mettre un autre droit d’auteur ou les distribuer sous une autre licence. Aucun usage commercial n’est possible avec ces corpus. Le logiciel est également fourni sans garanties, ce qui signifie que si quelqu'un est pénalisé par son emploi, aucune poursuite ne peut être engagée. Vous devez également avertir toute personne à qui vous transmettez ce logiciel/information/corpus qu’ils sont protégés par une licence BSD.