ConnOSS Connected Open Source Software

Motivation

Forschende benötigen einfachere und stärker automatisierte Möglichkeiten, FAIR-konforme Metadaten zu erstellen. Bestehende Werkzeuge weisen derzeit Lücken in Abdeckung und Konsistenz auf. ConnOSS zielt darauf ab, diese Defizite mithilfe von Machine Learning zu beheben und gleichzeitig gute wissenschaftliche Praktiken zu unterstützen.

Die FAIR-Prinzipien betonen die Bedeutung von maschinenverarbeitbaren Metadaten, um die Qualität, Transparenz und Reproduzierbarkeit von Forschung zu verbessern. Forschende, die Software entwickeln, verfügen jedoch häufig weder über die nötige Zeit noch über das Fachwissen, um umfassende Metadaten manuell zu erstellen, und wünschen sich daher automatisierte, aufwandsarme Lösungen.

Bestehende Werkzeuge und Schemata (z. B. CodeMeta, Bioschemas, maSMP) decken Metadatenelemente bislang nur teilweise ab und kämpfen mit Inkonsistenzen sowie eingeschränkter Automatisierung. Zudem besteht ein klarer Bedarf, Metadaten aus verschiedenen Quellen (z. B. GitHub API, Zitationsdateien, README-Dateien) zu harmonisieren und sowohl für Menschen als auch Maschinen leicht zugänglich zu machen.

Ziele

Das Ziel ist die Entwicklung der Connected Open Source Software (ConnOSS)-Infrastruktur, die:

  • eine auf GitHub/GitLab basierende Plattform bereitstellt, auf der Forschungssoftware mit konsistenten, harmonisierten und angereicherten maschinenlesbaren Metadaten präsentiert wird,
  • die Sichtbarkeit, FAIRness und Reproduzierbarkeit von Forschungssoftware verbessert,
  • Forschende dabei unterstützt, ihre Software mit minimalem Aufwand durch Automatisierung und Machine Learning FAIR-konform zu gestalten.

Technologien

  • Spezifisches Schema für ConnOSS, ausgerichtet auf schema.org und erweitert durch CodeMeta, Bioschemas und maSMP.
  • Machine-Learning-Ansätze (ML) zur Anreicherung von Metadaten aus unstrukturierten Quellen wie README-Dateien.
  • Metadaten-Extraktionspipelines für GitHub, GitLab und andere strukturierte Repositorien.
  • Web-Infrastruktur zur Veröffentlichung von Metadaten über GitHub/GitLab Pages.
  • FAIR- und Open-Access-Praktiken, integriert sowohl in die Infrastruktur als auch in die ML-Modelle.
Personen

Projektleitung Intern

Projektleitung Extern

Dr. Leyla Jael Castro, ZB MED – Informationszentrum Lebenswissenschaften

Wissenschaftliche Leitung

Partner
Carl von Ossietzky Universität Oldenburg
www.uni-oldenburg.de
GESIS – Leibniz-Institut für Sozialwissenschaften
www.gesis.org

Laufzeit

Start: 01.09.2025
Ende: 31.08.2028

Fördermittelgeber

Verwandte Projekte

NFDI4Energy

National Research Data Infrastructure for the Interdisciplinary Energy System Research