MSR Mining Challenge
- 2017: TravisTorrent (resultado de builds de mais de mil projetos no serviço de integração contínua Travis CI)
- 2016: Boa (serviço web que permite minerar 700 mil projetos do SourceForge e 8 milhões do GitHub usando uma linguagem específica de domínio)
- 2015: dump do banco de dados do StackOverflow
- 2014: 90 projetos do GitHub (MySQL ou MongoDB)
- 2013: dump do banco de dados do StackOverflow
- 2012: Android: mudanças e bugs.
- 2011: Eclipse: CVS e Bugzilla (SQL); NetBeans: Mercurial e Bugzilla (SQL)
- 2010: Debian e FreeBSD (CVS, SVN e bugs), além de dados preprocessados
- 2009: SVN e Bugzilla (XML) de projetos do GNOME
- 2008: CVS e Bugzilla (XML) do projeto Eclipse
- 2007: Eclipse: CVS dos projetos JDT, SWT, Rest, e Bugzilla (XML), e dados preprocessados; Firefox/Mozilla: CVS e Bugzilla (XML)
- 2006: CVS do projeto ArgoUML
- 2005: (não teve Challenge)
- 2004: (não teve Challenge)
Outros repositórios e datasets
- GHTorrent: mirror offline dos dados de projetos do GitHub
- GitHub Data @ Google Big Query: dados do GitHub acessíveis através da infraestrutura do Google
- Stack Overflow Data @ Google Big Query: dados do Stack Overflow acessíveis através da infraestrutura do Google
- Boa: serviço web que permite minerar 700 mil projetos do SourceForge e 8 milhões do GitHub usando uma linguagem específica de domínio
- Andreas Zeller:
- Eclipse Bug Data! (2007): densidade de defeitos de todos os componentes (classes ou pacotes) do Eclipse (a partir de mapeamento de bugs para código). Formatos: ARFF, CSV, XML.
- Eclipse Burst Data! (2010): change bursts (sequências de mudanças consecutivas) de todos os componentes do Eclipse.
- iBUGS (2011): mapeamento de bugs para código (bug localization) para os projetos AspectJ, Rhino e JodaTime
- FLOSSmole: Collaborative collection and analysis of free/libre/open source project data
- tera-PROMISE: research dataset repository specializing in software engineering research datasets
- Kaggle: Predict Closed Questions on StackOverflow
Referências