Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Veranstaltung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
Nur Sitzungen am Veranstaltungsort 
 
 
Sitzungsübersicht
Sitzung
Postersession (inkl. Kaffee)
Zeit:
Freitag, 14.03.2025:
10:00 - 11:30

Ort: 2. Obergeschoss, Foyer


Zeige Hilfe zu 'Vergrößern oder verkleinern Sie den Text der Zusammenfassung' an
Präsentationen

Investigating the Reuse of biomedical Research Data using the Data Citation Corpus

Avihay Cohen, Anastasiia Iarkaeva, Vladislav Nachev, Evgeny Bobrov

QUEST Center for Responsible Research, Deutschland

Significant efforts are being invested in promoting data sharing due to its multiple roles, notably enhancing transparency and trust. It is, therefore, not surprising that this practice is encouraged and sometimes required by funders, journals and other institutions. Importantly, a key benefit of data sharing is the utilization of it by others in subsequent research or applications, which can be defined as data reuse.

We analyzed the reuse of data shared by researchers from our institution, Charité – Universitätsmedizin Berlin. We examined how many and which datasets published by Charité authors were referenced in published articles. We further explored the characteristics of these cases, including the types of data identifiers that have been used, the repositories in which they were deposited and the time lag between data publication and data reference. Although there are many purposes of data reuse, we specifically targeted cases of references to reused data in published literature, as this is currently the only scalable way to investigate whether data is being reused.

Data reuse is rarely mentioned formally in the reference lists of articles, posing a challenge for identifying and tracking these types of references. The Data Citation Corpus (DCC) is the first comprehensive approach to address this issue by text-mining a large body of the published literature for references to reused data, comprised of more than 5 million records. As part of the process of monitoring open science practices at our institution, we have collected identifiers of open datasets. We utilized this information to search the DCC for references to datasets originating from our institution (defined as datasets underlying articles with at least one co-author from Charité). “Reuse” was operationalized as a reference to a dataset where the citing article and the article through which we had originally found the dataset had no author overlap.

Preliminary results indicate that out of ca. 1,100 open datasets generated by Charité researchers, ca. 80 were referenced in the literature, resulting in ca. 450 references overall. References were unevenly distributed, with some datasets cited frequently (> 100 times) and many others cited only once. The majority of references were to datasets deposited in the Gene Expression Omnibus. We conduct further analysis with regard to the reuse of data deposited in general-purpose repositories, as well as an update of our analysis using a newly released update to the DCC.

Our preliminary findings suggest that reuse of open biomedical data is common. The DCC can be used for detecting reuse, if a set of dataset identifiers is available. However, further standardization of identifiers in the DCC would be recommendable. Furthermore, a standard definition of dataset reuse is critical to accurately capture data sharing and reuse processes in future analyses. Despite these challenges, detection of data reuse is possible at scale and can be used to gauge impact of as well as motivate data sharing efforts.



New Developments in RADAR: Safeguarding and Publishing Research Data for Long-term Usability

Kerstin Soltau, Felix Bach, Stefan Hofmann, Sandra Göller

FIZ Karlsruhe - Leibniz Institut für Informationsinfrastruktur, Deutschland

The poster provides an up-to-date overview on the research data repository RADAR, launched in 2017 as a cloud service. Initially developed in a DFG-funded project and operated by FIZ Karlsruhe – Leibniz Institute for Information Infrastructure, RADAR was created to securely archive, publish, and make research data findable, accessible, reusable, and citable. The research data is stored geo-redundantly in three copies each in two different academic data centers as packed data archives on tape. The retention period for published data is at least 25 years; archived data can be stored flexibly, for example for 10 years in accordance with the DFG Code of Conduct. As a generic system, RADAR provides a flexible infrastructure that supports a wide variety of research fields, and today, it is utilized by more than 20 universities and non-university research organizations. To meet the evolving demands of research institutions, researchers, and funders, the agile RADAR team continuously develops more sophisticated features and functionalities as well as new service offerings based on RADAR - all tailored towards the needs of the research community and the constantly changing landscape of research data management.

Using a timeline, the poster illustrates the functional scope of RADAR and also shows how the system has reacted to these dynamic changes to date and will react in the near future.

The milestones achieved so far address topics such as metadata annotation (update of RADAR's own metadata schema, support for discipline-specific metadata schemas), improving the FAIRness of research data (e. g. FAIR Signposting, Schema.org, RADAR knowledge graph, SPARQL endpoint and F-UJI FAIRness assessment) as well as functional enhancements such as the alternative upload option of research data via WebDAV protocol available since the beginning of 2024. The latest improvements to the RADAR software will also be presented: the recently introduced Git integration, the upcoming versioning of datasets and direct access to individual files by additionally storing datasets on disk storage in addition to the tape archives.

Beyond that, the poster will highlight our community-specific publication services (RADAR 4Culture, RADAR4Chem and RADAR4Memory) developed as part of the NFDI and present the alternative RADAR operating variants in which institutions can integrate their own IT resources into RADAR (RADAR Local and Hybrid). These operating variants are also becoming increasingly interesting for RDM state initiatives and offer starting points for different RADAR usage scenarios in regional contexts, e.g. as in the federal state of Brandenburg, where RADAR is used in a cross-university network.

Our poster offers numerous points of contact for discussions with representatives from academic institutions interested in research data management, with operators of other research data repositories and with conference participants who are potentially interested in linking their own services with RADAR.



Embedded Research Data Management – a Case Study

Andrea Wuchner

Fraunhofer-Informationszentrum Raum und Bau IRB, Deutschland

Um Forschende im Forschungsdatenmanagement zu unterstützen, stellen viele Forschungseinrichtungen und Initiativen den Forschenden Unterstützungsangebote wie Schulung, Beratung und Tools wie RDMO, ELNs oder Forschungsdaten-Repositorien zur Verfügung. Eine andere Form der Zusammenarbeit stellt „Embedded Research Data Management“ dar. „Embedded Research Data Management" (ERDM) beschreibt die Integration von Forschungsdatenmanagement (FDM) direkt in den Forschungsprozess, sodass Datenmanagementpraktiken nicht als separate oder nachträgliche Aufgabe betrachtet werden, sondern organisch Teil der Forschungsaktivitäten sind.

Das vorliegende Poster beantwortet folgende Fragen:

• Wie können Forschende und Forschungsdatenmanager in einem Projekt zusammenarbeiten, um optimales Forschungsdatenmanagement zu gewährleisten?

• Welche Bedarfe haben die Forschenden und wie können diese adressiert werden?

Grundlage für die Beantwortung dieser Frage ist das Projekt „KResCo – Krisenmanagement und Resilienz Corona“ . Dieses Projekt wurde vom Fraunhofer-Verbund Innovationsforschung gefördert. Im Projekt KResCo analysierten fünf Fraunhofer-Institute unterschiedliche Lösungsstrategien und politische Entscheidungen sowie deren Auswirkungen im Zusammenhang mit der COVID19-Pandemie in verschiedenen Ländern. Hierfür wurden Daten nachgenutzt sowie speziell für das Projekt erhoben.

Dem Forschungsdatenmanagement wurde innerhalb des Projekts ein eigenes Arbeitspaket (AP) gewidmet. Mitarbeitende des APs waren Forschungsdatenreferenten und Mitarbeitende der Institutsbibliotheken. Die fachlichen Arbeitspakete im Projekt waren:

• AP 3: Politische Entscheidungen zur Eindämmung der Corona-Pandemie

• AP 4: Wirtschaft und Gesellschaft

• AP 5: Innovation

• AP 6: Bevölkerungsschutz und Gefahrenabwehr

• AP 7: Anwendungsorientierte Forschung

In den fachlichen Arbeitspaketen wurde die Rolle „Datenbeauftragte/r“ etabliert, die wiederum im Arbeitspaket 2 „Forschungsdatenmanagement“ mitwirkte, als Schnittstelle fungierte und die Ergebnisse aus diesem Arbeitspaket in die fachlichen Arbeitspakete trug.

Zunächst wurden die Bedarfe der jeweiligen fachlichen Arbeitspakete per Interview ermittelt. Hierbei wurde insbesondere auf die benötigten Daten und deren Anforderungen eingegangen. Anschließend wurden Bausteine vorgeschlagen, die in Zusammenarbeit mit den Datenbeauftragten umgesetzt und reflektiert wurden. Nach deren Fertigstellung konnten diese in den fachlichen Arbeitspaketen angewendet werden.

Folgende Bausteine wurden zusammen mit den Forschenden entwickelt und zur Verfügung gestellt:

• Übersichtstabelle über die erzeugten und verwendeten Datensätze

• Data-Governance-Strukturen: Datenbeauftragte in den einzelnen fachlichen Arbeitspaketen

• Einwilligungserklärungen/Datenschutzhinweise

• MoU zwischen den einzelnen Instituten

• Metadatensheet zur Dokumentation von Forschungsdaten

• Datenkurations- und FAIR-Checkliste

• Datei- und Ordnerstruktur

• Pfadmanagement

• Löschkonzept

• Datenkurationsprofile für Quantitative und Qualitative Forschungsdaten

• Newsletter zum Forschungsdatenmanagement

Zusammenfassend lässt sich sagen, dass Embedded Research Data Management (ERDM) den direkten Zugang zu Forschenden und ihren spezifischen Bedürfnissen ermöglicht, der andernfalls aufgrund von Distanz und begrenzten Ressourcen schwer realisierbar wäre. Dieser Ansatz unterstützt die Entwicklung maßgeschneiderter Angebote, die rechtliche Rahmenbedingungen, Anforderungen von Fördergebern und die Prinzipien guter wissenschaftlicher Praxis berücksichtigen. Gleichzeitig eröffnet ERDM den Forschenden die Möglichkeit, umfangreiches Know-how im Forschungsdatenmanagement aufzubauen und ihre eigenen Praktiken kritisch zu hinterfragen. Das Forschungsdatenmanagement verläuft dabei parallel und in enger Abstimmung mit dem Forschungsprozess. Insbesondere bei datenintensiven Projekten erweist sich ERDM als ressourcenintensiver, aber auch besonders effektiver Ansatz, um Forschende umfassend zu unterstützen."



The Helmholtz Metadata Collaboration – Building a Sustainable FAIR Data Ecosystem in a Changing Research Landscape

Constanze Curdt, Nicole Köstner, Mirl Trösch, Christine Lemster

GEOMAR Helmholtz Centre for Ocean Research Kiel, Deutschland

The Helmholtz Metadata Collaboration (HMC), initiated in 2019 by the Helmholtz Association of German Research Centres, is dedicated to advancing research data management by translating global metadata standards into practical, interoperable formats. Our mission is to enable the visibility, accessibility, and reusability of research data across Helmholtz and beyond, transforming the FAIR (Findable, Accessible, Interoperable, Reusable) principles into practice. In the context of an ever-evolving research landscape, we aim to establish a sustainable, semantically enriched FAIR data ecosystem that spans all 18 Helmholtz centres and integrates across six interdisciplinary research fields: Aeronautics, Space & Transport, Earth & Environment, Energy, Health, Information, and Matter.

Our strategic focus lies in three key areas: (1) Assessing the FAIRness of research data across Helmholtz, (2) Enhancing connectivity between research data and infrastructures, and (3) Implementing practical metadata solutions based on best practices and standards. We work closely with a diverse range of stakeholders—including data producers, research infrastructure professionals, and administrators—to ensure the coherent and connected use of metadata throughout the Helmholtz Association.

Over the past years, we have conducted comprehensive surveys and FAIR metric analyses to assess the state of research data management within Helmholtz. Through outreach, training, and consulting, we raised awareness of the critical role of metadata in fostering Open Science. Additionally, we have built the technical foundation required to interconnect FAIR data across Helmholtz and established a framework for a collaborative FAIR data space. Our support of 28 community-driven projects has facilitated the development of tailored metadata solutions, addressing practical challenges in research data management. In parallel, we maintain strong links to national and international initiatives such as NFDI, EOSC, and RDA, ensuring alignment with global efforts in Open Science.

In our poster, we will share insights into our methodologies, achievements, and lessons learned on our journey toward creating a resilient FAIR data ecosystem. We invite discussions on how to collectively tackle the challenges of research data management in an increasingly interconnected world.



Zugänge zu Forschungsdaten für alle ermöglichen

Alexandra Axtmann1, Anna Beer2

1Karlsruher Institut für Technologie, KIT-Bibliothek; 2Universität Hildesheim, Universitätsbibliothek

Mit der zunehmenden Bedeutung von Forschungsdaten rückt auch deren Zugänglichkeit (Accessibility) im Sinne der FAIR-Prinzipien in den Fokus der Forschungscommunity. Die Bereitstellung im Sinne von Accessible bedeutet jedoch nicht automatisch, dass die Forschungsdaten und Metadaten von allen Menschen (und Maschinen) gelesen und genutzt werden können. Häufig werden Forschende mit Behinderungen und die notwendige Interoperabilität mit technischen Hilfsmitteln wie Screenreadern nicht berücksichtigt. Diese Gruppe wird dadurch ausgegrenzt und Innovationspotenzial verschenkt. Die Inklusion der gesamten Forschungs- und Bildungsgemeinschaft muss von Anfang an konsequent und ganzheitlich mitgedacht und in forschungsunterstützenden Services, Infrastrukturen und Tools umgesetzt werden, nicht nur aufgrund rechtlicher Vorlagen (u. a. UN-BRK und BFSG).

Inklusion im Forschungsdatenmanagement (FDM) bedeutet für uns gleichberechtigten Zugang und Partizipation in Forschung und Wissenschaft durch Schaffung barrierearmer Zugänge zu Daten. Das betrifft alle Phasen des Datenlebenszyklus, nicht erst den Bereich der Publikation in Forschungsdatenrepositorien. Nur durch entsprechende Aufbereitung und Bereitstellung in den Infrastrukturen und Tools können insbesondere Forschende aller Qualifikationsstufen selbstständig mit Forschungsdaten arbeiten. Den Zugang zu wissenschaftlichen Ergebnissen inklusiv, gerecht und nachhaltig zu gestalten, fordert auch die Recommendation on Open Science der UNESCO.

Die konkrete Umsetzung von Barrierefreiheit über den gesamten Forschungsdaten-Lebenszyklus und über alle wissenschaftlichen Disziplinen hinweg ist komplex. Bisher berücksichtigen Datenrepositorien, Kurationsrichtlinien und forschungsbezogene Standards sowie institutionelle FDM-Richtlinien die Zugänglichkeit für Menschen mit Behinderungen wenig oder kaum. Es gibt bislang nur wenige empirische Untersuchungen zu barrierefreien Forschungsdatenrepositorien – sie kommen unter anderen aus den USA und Österreich. Neben Weiterentwicklungen der technischen Hilfsmittel für Studierende beschäftigen sich erste Fachgemeinschaften im Rahmen der NFDI wie MaRDI mit der barrierefreien Aufbereitung von mathematischen Formeln, die von Screenreadern vorgelesen werden können.

Hier setzt unsere Arbeitsgruppe an. Seit 2022 schaffen wir ein Bewusstsein für inklusive(s) Forschungsdaten(management), sammeln Informationen und Good-Practice-Beispiele und skizzieren erste praxisnahe Lösungen – seit 2024 zeigen wir dies auf unseren Internetseiten.



FORTH-BW: Erarbeitung und Bereitstellung eines bedarfsorientierten FDM-Workflows für HAW

Karoline Herrmann1, Ina Elisabeth Klingele2, Carsten Herbes1, Lioba Petter1

1Hochschule für Wirtschaft und Umwelt Nürtingen-Geislingen, Deutschland; 2Hochschule für öffentliche Verwaltung Kehl

In den letzten Jahren ist die Bedeutung des Forschungsdatenmanagements (FDM) auch an Hochschulen für Angewandte Wissenschaften (HAW) in Baden-Württemberg immer größer geworden. Damit Forschende an HAW die vielen unterschiedlichen Anforderungen erfüllen, benötigen sie zweierlei: Strukturen, die im gesamten FDM-Prozess – von der Antragsphase eines Forschungsprojekts bis hin zur Langzeitarchivierung – unterstützen, und strukturierte Anleitungen für die Organisation der Daten, ihre Aufbereitung und Dokumentation sowie Archivierung – unter Beachtung und Beantwortung der rechtlichen Fragestellungen. An HAW existieren diese Strukturen und Anleitungen bislang höchstens in Ansätzen. Die Personalressourcen für die Unterstützung beim FDM sind minimal.

Im Verbundprojekt FORTH-BW (Entwicklung und Implementierung eines bedarfsgerechten Forschungsdatenmanagements an HAW in Baden-Württemberg), gefördert vom Bundesministerium für Forschung und Entwicklung mit Mitteln der Europäischen Union, haben sich die Verbundpartner Hochschule für Wirtschaft und Umwelt Nürtingen-Geislingen (HfWU, Prof. Dr. Herbes und Herrmann), Hochschule für öffentliche Verwaltung Kehl (Prof. Dr. Klingele und Katzenstein), Hochschule Reutlingen, HTWG Hochschule Konstanz, Hochschule für Technik Stuttgart und Hochschule der Medien Stuttgart unter der Leitung der HfWU zum Ziel gesetzt, FDM an HAW in Baden-Württemberg als Bestandteil des Forschungsprozesses zu etablieren und dafür die notwendigen Unterstützungsangebote zur Verfügung zu stellen.

Eine Erhebung mittels eines mixed-methods-Ansatzes (32 qualitative Interviews und Umfrage mit 279 Teilnehmenden unter verschiedenen Stakeholdern: Forschende, IT- und Bibliotheksmitarbeitende, Justiziare) des FDM an den beteiligten HAW hat gezeigt (Publikation in Vorbereitung): Die Wichtigkeit, FDM zu betreiben, ist bekannt und als soziale Norm verinnerlicht. Das Verhalten der Forschenden zeigt, dass diese Norm noch nicht umgesetzt wird, denn die intrinsische Motivation, FDM zu betreiben, ist gering, der Aufwand wird als hoch angesehen. Darüber hinaus werden rechtliche Aspekte als Hinderungsgründe für die Veröffentlichung von Forschungsdaten betont. Auch fehlen an HAW das nötige Wissen, das Handwerkszeug und die Strukturen. Diese Ergebnisse werden durch eine Studie zu FDM an HAW von Blümm et. al (2023, S. 117) bestätigt: Es mangelt vor allem an Unterstützungsangeboten. Zuvor haben ebenfalls Tenopir et al. (2020, S. 13) gezeigt, dass die Forschenden unzufrieden mit vorhandenen Unterstützungsangeboten sind.

Auf diese Bedarfe reagiert das Projekt u.a. mit der Bereitstellung des „FORTH-BW Forschungsdatenmanagement-Workflows“, der auf dem Poster im Themenbereich „Generische FDM-Werkzeuge“ präsentiert wird. Der Workflow führt schrittweise durch die Antragsphase, die Forschungsphase und die Abschlussphase eines Forschungsprojekts. Der Bereich „Rechtliches“ komplettiert diese drei Phasen als Querschnittsthema und umfasst die rechtlichen Fragestellungen, die im Laufe des FDM geklärt werden müssen.

Ergänzt wird der Workflow durch Handreichungen, die spezifische Aspekte des FDM vertiefen, sodass Forschende schnell und bedarfsgerecht Informationen finden. Hervorzuheben sind Unterstützungsangebote zu rechtlichen Aspekten, welche die Bedarfslücke auf diesem Gebiet schließen: bspw. Datenschutz bei personenbezogenen Daten, Nutzungsrechte und Lizenzen sowie Vorlagen.

Der Workflow ist niedrigschwellig und selbsterklärend durch phasenspezifische Farben übersichtlich aufgebaut. Die Handreichungen sind durch einheitliche Kodierung einzelnen Prozessschritten zugeordnet. Der FORTH-BW FDM-Workflow wurde seit Oktober 2022 basierend auf der Bedarfsermittlung und unter Berücksichtigung von Aspekten des Open-Science sowie IT-Tools erarbeitet und nun mit der Ergänzung durch rechtliche Grundlagen finalisiert. Dafür stand die Expertise des interdisziplinären Projektteams zur Verfügung. Die Posterpräsentation findet im Rahmen der Projektdissemination statt.



Publikation großer Datenmengen im institutionellen Repositorium

Christine Wolter

Technische Universität München, Deutschland

Die Publikation großer Datenmengen stellt Anbieter von Repositorien oftmals vor technische und finanzielle Herausforderungen. Auf dem Poster soll dargestellt werden, welche Lösung die Technische Universität München (TUM) entwickelt hat, um ihren Forschenden die kostenfreie Publikation von Forschungsdaten jeder Größe im institutionellen Repositorium mediaTUM zu ermöglichen.

In mediaTUM können TUM-Angehörige Hochschulschriften, Fachartikel, Forschungsdaten sowie Bild- und Videokollektionen veröffentlichen und archivieren. Das Repositorium mediaTUM basiert auf der gleichnamigen Open Source Software, die auf GitHub zur Verfügung steht und von der Universitätsbibliothek der TUM entwickelt wurde. Alle Publikationen in mediaTUM werden auf den Servern des Leibniz-Rechenzentrums der Bayerischen Akademie der Wissenschaften für mindestens zehn Jahre aufbewahrt.

Die von Suchmaschinen auffindbaren Metadaten enthalten Basisinformationen sowie einen Link zum Server mit den Forschungsdaten. Es werden drei Protokolle angeboten, um die Daten herunterzuladen: https, ftp und rsync.

Die Veröffentlichung von Forschungsdaten in mediaTUM erfolgt in einem kuratierten Publikationsprozess. Autorinnen und Autoren werden intensiv beraten, für Sonderwünsche werden Lösungen entwickelt. So besteht die Möglichkeit, vor der Veröffentlichung einen anonymen Zugang zum Datensatz für ein Peer Review einzurichten. Auf Wunsch können Lizenzen, DOIs und Concept-DOIs vergeben werden. In begründeten Fällen kann der Zugang zu den Forschungsdaten auf Einzelpersonen oder Gruppen beschränkt oder durch ein Passwort geschützt werden.

Um Kosten zu sparen, werden neuerdings sehr große Datensätze nicht mehr auf einen hochverfügbaren Cloud Storage gelegt, sondern auf Band gespeichert. Weil das Abrufen vom Band mit Wartezeiten verbunden ist, wird für solche Datensätze zusätzlich ein hochverfügbarer, repräsentativer Satz an Forschungsdaten bereit gestellt. So können Interessierte leicht prüfen, ob der Datensatz für sie relevant ist.



Open Science in den Humanities: Mehr Spielräume und Nachvollziehbarkeit durch Galaxy

Daniela Schneider1, Jan Leendertse2

1Galaxy, Universität Freiburg, Deutschland; 2RDMG, Universität Freiburg, Deutschland

Open Science ist ein Prinzip, dem vom Grundsatz breit zugestimmt wird. In den Humanities sehen viele Forschende für sich jedoch keinen schnellen oder praktikablen Weg, dem zu folgen. Open Science wird mit Digitalisierung assoziiert, die in den Humanities vielerorts Abwehr auslöst. Mit dem Poster wird gezeigt, wie die Open Source Plattform Galaxy als Self-Service-Tool den Einstieg erleichtert. Für viele Fachbereiche gibt es zahlreiche Trainingsmodule und Best-Practice-Workflows, die ohne Barrieren zugänglich sind. Das Poster zeigt Beispiele von Workflows, die das auf Analyseverfahren der Humanities übertragbar machen. Zu Galaxy gibt es eine grafisch orientierte Oberfläche, die zum Experimentieren einlädt. Auf Wunsch kann das Herumspielen aufgezeichnet, im Nachgang bereinigt und als Prozedur gespeichert werden. Solche Workflows werden so zum Ausgangspunkt weiterer Verfeinerung, sind teilbar, transparent und im besten Fall reproduzierbar. Die FAIR-Prinzipien bleiben kein schwer erfüllbarer Anspruch, sondern werden beiläufig gelebtes Prinzip.

Wir stellen ein Beispiel zum Textvergleich chinesischer historischer Zeitungen vor, wo zensierte und unzensierte Zeitungsartikel mit chinesischen Zeichen gegenübergestellt werden. Der Vergleich ist visuell aufschlussreich und kann mit Standardtools wie diff ausgewertet werden. Dadurch können auch große Datenmengen schnell analysiert werden. Technisch überraschend einfach, aber mit hoher Aussagekraft hinsichtlich der Forschungsfrage, welche Inhalte in den Zeitungen zensiert wurden. Bei der Auswertung ist weiterhin spezifische Erfahrung aus den Humanities gefragt, besonders bei der kritischen Einordnung von Zwischenergebnissen und daraus folgend der experimentierenden weiteren Bearbeitung des Materials. Die Nutzung von Galaxy zeigt, wie Teile der Analyse auch in den Geisteswissenschaften teilautomatisiert werden können, so dass größere Textmengen verarbeitet werden können. So werden Ergebnisse aussagekräftiger. Gleichzeitig bleibt für die eigentliche Auswertung mehr Zeit.

Der Workflow, die einzelnen Analyseschritte und die Daten jedes Teilschritts können dabei gemäß der guten wissenschaftlichen Praxis geteilt und wiederholt werden. Obwohl die Ausgangsdaten wegen ihres proprietären Ursprungs nicht zugänglich sind, kann so der Prozess geteilt werden. Das zeigt gleichzeitig, dass Open Science selbst dort möglich ist, wo Daten aus guten Gründen nicht offen sind.

Analysen werden parametrisierbar und schaffen eine neue Vergleichbarkeit von Ergebnissen. Daten und Inhalte von Plattformen, wie beispielsweise Zenodo, können in Galaxy importiert und in einem Workflow algorithmisch analysiert werden. Die Ergebnisse sind wiederum in einem frei wählbaren Repositorium (Zenodo, FreiData, etc.) als Faires Digitales Objekt (FDO), beispielsweise RO-Crate, speicherbar. FDO sind auf Export und maschinenlesbare Weiterverarbeitung ausgelegt.

Galaxy bietet Open Educational Resources (OER) — ebenso Arbeitsfeld von Open Science — im Galaxy Training Network (GTN), das bereits über 400 Tutorials enthält, die in offenen Lizenzen bereitgestellt sind. Neben den praktischen Tutorials bietet es Beispieldatensätze, E-Learning-Material, Videos, Aufzeichnungen und komplette Schulungsworkshops, die Forscher*innen weltweit lizenzfrei zum Selbststudium zur Verfügung stehen. Das Schulungsnetzwerk wird von einer globalen Community unterstützt, die neuen Nutzer*innen den Einstieg erleichtert und in kollaborative Arbeitsformen einführt. Durch diesen Ansatz haben verschiedene Wissenschaftsfelder Galaxy für sich entdeckt. Erste Analyseprojekte aus den Humanities finden sich bereits auf der Plattform.



LLM4DDC: Adopting Large Language Models (LLMs) for Research Data Classification Using Dewey Decimal Classification (DDC)

Gautam Kishore Shahi1, Renat Shigapov2, Oliver Hummel1

1Hochschule Mannheim; 2Universitätsbibliothek, Universität Mannheim

As the volume of research data continues to grow, accurately classifying this data in institutional, national, and international repositories remains a significant challenge. While the Dewey Decimal Classification (DDC) system is widely used for automatic subject indexing [1] in the context of libraries, its application to automating the creation of metadata for research data is merely a fledgling discipline [2]. This work addresses this gap by evaluating the use of LLMs in automating the detection of research areas for DDC classification of research data. This has practical implications for numerous data repositories, including the German National Research Data Infrastructure (NFDI), where accurate metadata is crucial for effective research data management.

Our current focus is placed on 3-digit DDC classification, the level of granularity that can maintain interpretability without overwhelming complexity. We evaluate several state-of-the-art models, including Llama 3.1, fine-tuned BERT-like models, and ChatGPT, to determine their effectiveness in performing DDC-based classification. The models were tested on a diverse dataset of research metadata spanning various scientific domains. We also experimented with different prompt-engineering strategies or adjusting parameters such as model temperature for performance optimization. The evaluation was conducted using standard F1-score, precision, and recall. Additionally, we conducted an error analysis to understand the types of misclassifications made by the models and to identify areas for improvement.

In conclusion, our study shows the feasibility and potential of LLMs for automating the classification of metadata of research data using DDC by carefully selecting model parameters and leveraging prompt-engineering strategies from zero-shot and few-shot prompts. To facilitate adoption, we will openly release our models, codes, and data, providing institutions with the necessary tools to integrate LLM-based classifiers into their existing data infrastructures.

References

[1] Golub, K. (2021). Automated Subject Indexing: An Overview. Cataloging & Classification Quarterly, 59(8), 702–719. https://doi.org/10.1080/01639374.2021.2012311Golub, K. (2021). Automated Subject Indexing: An Overview. Cataloging & Classification Quarterly, 59(8), 702–719. https://doi.org/10.1080/01639374.2021.2012311

[2] Tobias Weber, Dieter Kranzlmüller, Michael Fromm, Nelson Tavares de Sousa; Using supervised learning to classify metadata of research data by field of study. Quantitative Science Studies 2020; 1 (2): 525–550. doi: https://doi.org/10.1162/qss_a_00049



Künstliche Intelligenz und Forschungsdatenmanagement: Synergien, Herausforderungen und Grenzen der Risikominderung

Dr. Beate Ulrike La Sala1, Arnela Balic2, Robert Werth2

1Goethe-Universität Frankfurt, Deutschland; 2Frankfurt University of Applied Sciences

Die rasante Entwicklung der Künstlichen Intelligenz (KI) verändert viele Forschungsbereiche grundlegend. Doch der Erfolg von KI-Anwendungen hängt maßgeblich von der Qualität der zugrunde liegenden Forschungsdaten ab. Hier kommt einem durchdachten Forschungsdatenmanagement (FDM), welches durch gut strukturierte Daten und klare Metadaten die Basis für hochwertige und reproduzierbare Forschung schafft, eine zentrale Rolle zu. Das Poster soll die Synergien zwischen KI und FDM untersuchen, aber auch die Risiken aufzeigen, die mit dem Einsatz von KI einhergehen, und die Möglichkeiten sowie Grenzen von FDM, diesen Gefahren entgegenzuwirken, beleuchten.

Eine der wesentlichen Aufgaben von FDM ist die Sicherstellung qualitativ hochwertiger Daten, die nach den FAIR-Prinzipien (Findable, Accessible, Interoperable, Reusable) organisiert sind. Ohne gut strukturierte und dokumentierte Daten kann KI schnell fehlerhafte oder verzerrte Ergebnisse liefern. FDM spielt hier eine zentrale Rolle, indem es durch umfangreiche Dokumentation und Qualitätskontrollen die Integrität und Nachvollziehbarkeit von Daten sicherstellt.

Der Einsatz von KI bietet jedoch auch für das FDM selbst Chancen. Beispielsweise können KI-gestützte Tools helfen, Daten effizienter zu kuratieren und zu dokumentieren. Die Anwendung von maschinellen Lernverfahren ermöglicht es, Muster in großen Datensätzen zu erkennen und damit den Prozess der Datenorganisation und -pflege zu verbessern. Auch bei der Erstellung von Datenmanagementplänen (DMPs) können KI-Tools unterstützend wirken, indem sie Vorschläge zur Standardisierung machen und potenzielle Schwachstellen in der Datensammlung aufzeigen.

Jedoch birgt der Einsatz von KI auch Risiken. Ein zentraler Risikofaktor besteht in der algorithmischen Verzerrung: KI-Modelle können Verzerrungen aus den zugrunde liegenden Daten übernehmen und sogar verstärken. Hier greift FDM durch Transparenz und umfassende Dokumentation unterstützend ein, indem es die Herkunft der Daten und deren Verarbeitungsschritte klar darstellt und nachvollziehbar macht. Jedoch kann FDM allein Verzerrungen nicht vollständig verhindern. Es ist letztlich die Verantwortung der Forschenden, potenzielle Verzerrungen in den Daten zu erkennen und geeignete Korrekturmaßnahmen zu ergreifen. Hier stellt sich die Frage, wie Forschende konkret sicherstellen können, dass die Qualität der Daten auch in einem zunehmend automatisierten Forschungskontext gewahrt bleibt, wenn KI-Algorithmen immer stärker in den Forschungsprozess integriert werden.

Auch die Intransparenz vieler KI-Modelle stellt ein großes Problem dar. Die Entscheidungsfindung von KI-Systemen erfolgt oft in einer Art „Black Box“, die für Außenstehende schwer nachvollziehbar ist. FDM kann zwar die Transparenz auf der Ebene der Datensätze verbessern, aber es bietet nur eingeschränkte Mittel, um die Komplexität und Undurchsichtigkeit der KI selbst zu entschärfen. Dies erschwert es, Fehler in den Analysen zu erkennen und ethische Bedenken rechtzeitig zu adressieren.

Insgesamt soll das Poster die Möglichkeiten einer gegenseitigen Verstärkung von KI und FDM unter gleichzeitiger Thematisierung von Risiken und Grenzen aufzeigen. Während FDM unverzichtbar ist, um die Potenziale der KI voll auszuschöpfen, stößt es bei der Minimierung von KI-bedingten Risiken an seine Grenzen. Es bedarf zusätzlicher Maßnahmen, die über das klassische FDM hinausgehen, um Verzerrungen, Intransparenz und Missbrauch wirksam zu begegnen und die Forschung nachhaltig von den Möglichkeiten der KI profitieren zu lassen.



Introducing Project-W: A self-hostable platform for OpenAI's Whisper

Julian Partanen, Markus Everling, Dominic Kempf, Tim Knoth, Don Böhm, Nikolaus Kepper, Martin Baumann, Alexander Haller

Universität Heidelberg, Deutschland

Speech-to-text technologies, driven by advancements in artificial intelligence, are increasingly beneficial to sectors like research and education. These systems enable the transcription of vast audio data, making it easier to process, analyze, and archive information. However, concerns over data privacy and reliance on cloud-based services have prompted the need for self-hosted solutions. Project-W addresses these issues by providing a private, AI-driven transcription platform based on OpenAI's Whisper general-purpose speech recognition model.

The main goal of Project-W is to offer an easy open-source, scalable transcription solution that ensures data privacy by running entirely on local infrastructure. Specifically, it is designed for environments like universities and research institutions that handle sensitive information. By eliminating the need for cloud services, Project-W safeguards data while leveraging powerful AI models for accurate transcription. It aims to simplify transcription workflows, enabling users to manage their audio processing needs efficiently and securely.

Project-W is built with a Flask-based backend, a Svelte-powered frontend, and Python runners. The backend handles transcription tasks, while the frontend provides an intuitive interface for users to submit, track, and retrieve jobs. Python runners manage the interaction with OpenAI's Whisper AI model, and all components communicate via an HTTP REST API. The platform supports deployment on high-performance hardware, optimizing the processing of large and complex models. Key features include local data storage, user-friendly job management, and scalable infrastructure to handle varying workloads, making it adaptable to diverse environments.

Preliminary testing of Project-W in a university setting demonstrates that the platform is capable of handling significant transcription workloads while maintaining high levels of data security. Its modular architecture allows for customization based on user requirements, such as integrating with institutional servers or enhancing hardware capabilities to improve transcription speed. The platform’s user-friendly web interface streamlines job management, ensuring that even non-technical users can effectively utilize the tool.

Ongoing work focuses on optimizing the platform's performance for large-scale use while actively gathering feedback from both users and administrators to improve functionality and user experience. Further evaluations will be conducted to assess its viability as a central transcription service across other departments, with a view toward broad institutional adoption.



Infra-dmp und DMP4NFDI - Datenmanagementpläne in der NFDI

Jürgen Windeck1, Daniela Hausen4, Katja Diederichs3, Marisabel Gonzalez Ocanto3, Sabine Schönau2, David Wallace1

1Universitäts- und Landesbibliothek Darmstadt; 2RWTH Aachen Universitätsbibliothek; 3ZB MED, Informationszentrum Lebenswissenschaften; 4Heinrich-Heine-Universität Düsseldorf

Daten- (DMPs) und Softwaremanagementpläne (SMPs) gehören zu den zentralen Aspekten im Forschungsdatenmanagement und werden in nahezu allen NFDI-Konsortien thematisiert. Um das Thema voranzutreiben, Erfahrungs- und Entwicklungsaustausch sowie Synergien zwischen den Konsortien zu fördern, wurde 2022 die Arbeitsgruppe infra-dmp gegründet, die konsortienübergreifend agiert und die Themen in der NFDI-Section Common Infrastructures einbringt.

Für die Kommunikation und Arbeit innerhalb infra-dmp wurden regelmäßige Quartalstreffen und Arbeitsgruppen etabliert. In infra-dmp teilen die Konsortien z.B. Erfahrungen über die Entwicklung von DMP-Templates und DMP-Tools, diskutieren Herausforderungen und entwickeln gemeinsame Lösungen oder Herangehensweisen. Die Arbeitsgruppen werden nach Bedarf eingerichtet, arbeiten Themen für infra-dmp detaillierter aus und unterstützen die Diskussion. Sie bearbeiten Themen wie übergreifende Qualitätskriterien für Templates, die Entwicklung einer Vision für DMPs in der NFDI oder organisieren Workshops rund um das Thema DMP und SMP. Infra-dmp tauscht sich außerdem auch mit anderen nationalen Initiativen aus, wie z.B. DINI-Arbeitsgruppen oder der RDMO Community.

Aus einer Arbeitsgruppe ist ebenfalls der NFDI Basisdienst DMP4NFDI hervorgegangen. Dieser unterstützt NFDI-Konsortien bei der Bereitstellung von Services für DMPs und basiert auf den Bedarfen und Zielen der Konsortien für DMPs und SMPs in der NFDI.

In der Initialisierungsphase entwickelt der Basisdienst gemeinsam mit Use Cases aus den Konsortien das NFDI DMP Template Framework, das sie bei der Erstellung von interoperablen und standardisierten Templates unterstützt. Als technische Grundlage dient eine mandantenfähige RDMO Instanz, in der für die NFDI-Konsortien RDMO-Mandanten gehostet werden, um die Zusammenarbeit an Katalogen konsortienübergreifend zu ermöglichen. Um die Konsortien bei der Entwicklung ihres DMP Services zu unterstützen, bietet DMP4NFDI Support, Trainings- und Schulungsmaterialien an.

Der Dienst richtet sich mit seinem Support- und Hosting-Angebot an die Konsortien, das Template Framework steht darüber hinaus allen Interessierten zur Verfügung und soll in enger Abstimmung mit der gesamten FDM-Community weiterentwickelt werden. Entwickelte Schulungsmaterialien sollen als OER ebenfalls offen zur Verfügung gestellt werden.

Auf unserem Poster möchten wir die erzielten Resultate der Arbeitsgruppen Qualitätskriterien und Vision für DMPs sowie erste Ergebnisse des Basisdienstes vorstellen und Zusammenhänge der einzelnen Schwerpunkte aufzeigen.



VIVO-based plasma knowledge graph for improving the discoverability of patent information in plasma science and technology

Markus M. Becker1, Ihda Chaerony Siffa1, Hidir Aras2

1Leibniz-Institut für Plasmaforschung und Technologie e.V. (INP), Greifswald, Germany; 2FIZ Karlsruhe – Leibniz-Institut für Informationsinfrastruktur, Karlsruhe, Germany

A significant part of the world’s technical knowledge is documented in patents. This knowledge, encompassing the descriptions of technical procedures, chemical substances, methods, and processes, is crucial for addressing important technological and scientific questions and for the development of innovative solutions. However, several studies indicate that this potential is often underutilized in the scientific community. The challenges seem to stem from the complexity and structure of patents themselves, as well as a lack of expertise in leveraging existing tools to search and analyze patent information effectively.

Recent research activities aim to address these challenges by developing a patent-centric knowledge graph (PKG) based on a semantic data model for patents [1]. The PKG strives to facilitate the use of patents in scientific research by providing semantically enriched patent contents as well as the interlinking between patents and scientific literature and other domain-specific knowledge sources using explicit semantics from external knowledge graphs. To support the implementation of the PKG for use in plasma science and technology, a new platform for managing semantic information in this domain has been developed using the open-source software VIVO [2]. VIVO is a web application designed for structuring, storing and provisioning of current research information based on ontologies [3]. It provides a visual representation of entities, attributes, and their relationships. This enables information to not only be available in an interoperable format for direct machine reuse, but also allows researchers to efficiently discover, maintain, and reuse the information.

The present contribution shows how VIVO is used with the plasma ontology Plasma-O to develop and maintain a knowledge graph providing the core conceptual knowledge from the plasma domain in human- and machine-readable form. The domain knowledge provided by VIVO is used for the semantic annotation of patent texts in the PKG with subject-specific contextual information, e.g. the plasma sources used to generate the plasma, the medium in which the plasma is ignited, and the targets treated by the plasma. This facilitates the comprehensive analyses and reuse of knowledge contained in patents. Furthermore, it enables the direct linking of patents with research data, scientific literature, and other information sources, which are annotated using the same concepts. Beyond its application in the field of plasma science and technology, this work illustrates a generic approach for implementing community-driven knowledge graphs using VIVO in other research fields.

This work was funded by the Deutsche Forschungsgemeinschaft (DFG, German Research Foundation)—Project Number 496963457.

[1] H. Aras, R. Dessi, F. Saad, L. Zhang, “Bridging the Innovation Gap: Leveraging Patent Information for Scientists by Constructing a Patent-centric Knowledge Graph”, 2nd International Workshop on Semantic Technologies and Deep Learning Models for Scientific, Technical and Legal Data (SemTech4STLD), May 26th, 2024, Hersonissos, Greece, https://ceur-ws.org/Vol-3697/short1.pdf (accessed: 2024-09-25).

[2] I. Chaerony Siffa, R. Wagner, L. Vilardell Scholten, M. M. Becker, “Semantic Information Management in Low-Temperature Plasma Science and Technology with VIVO”, 2024, preprint, https://doi.org/10.48550/arXiv.2409.11065.

[3] VIVO website, https://vivoweb.org/technical-specifications/ (accessed: 2024-09-25).



Kollaborative Bearbeitung und Nachnutzung der Research Data Scarytales als Open Educational Resource

Cora Assmann1, Jessica Rex2, Nadine Neute3, Roman Gerlach1, Kevin Lang4

1Friedrich-Schiller-Universität Jena; 2Technische Universität Ilmenau; 3Universität Erfurt; 4Bauhaus-Universität Weimar

Das Thüringer Kompetenznetzwerk Forschungsdatenmanagement (TKFDM) ist ein Netzwerk zur Vermittlung von Wissen und Fähigkeiten rund um das Thema Forschungsdatenmanagement. Dazu nutzt das Netzwerk Trends in der Erwachsenenbildung wie beispielsweise den der Gamification. Hinter diesem Begriff verbirgt sich die spielerische Vermittlung ernster Inhalte. Zu diesem Zwecke haben wir angelehnt an das bekannte Kartenspiel "Black Stories" 2020 unsere "Research Data Scarytales" entwickelt und erweitern diese seit einigen Jahren jeden Herbst zur Data Horror Week um fünf neue Geschichten. In jeder Research Data Scarytale wird ein Szenario beschrieben, in dem etwas mit Forschungsdaten schief geht. Ziel des Spieles ist es anhand eines Teasers und eines Bildes zu erraten, was genau passiert ist. Die Stories gibt es mittlerweile sowohl online als auch als analoges Kartenspiel in Deutsch und Englisch.

Um dieses beliebte Format der Research Data Scarytales zukunftssicher zu machen und für die FDM-Community zu öffnen, hat das TKFDM diese von Anfang an zur Nachnutzung bereitgestellt. Durch die breite Anwendung in der Praxis und die damit einhergehenden Erfahrungen ergaben sich eine Reihe von Erweiterungsimpulsen, die iterativ aufgenommen werden konnten. So wurden beispielsweise die Karten um eine Nummerierung ergänzt und den Inhalten der der FDM-Lernzielmatrix entsprechend mit Schlagworten versehen. Die Kategorisierung und Verschlagwortung der Geschichten ermöglicht es, eine themenangepasste Auswahl für die Nutzung in Lehre und Trainings zu treffen. Der Vortrag stellt den Erschließungsprozess und dessen Ergebnis im Detail vor.

Darüber hinaus planen wir einen Übergang von der redaktionellen Bearbeitung der Geschichten innerhalb des TKFDM zur kollaborativen Ergänzung durch die FDM Community insgesamt. Hierfür wurden Bilder und Texte der Research Data Scarytales in ein GitLab Repository überführt. Dieses Format ermöglicht sowohl die kollaborative Ergänzung und Bearbeitung der Geschichten als auch die Nachnutzung des gesamten Materials als Open Educational Resource (OER).

Das TKFDM plant eine Reihe von Workshops rund um die Scarytales und die Kollaborationsmöglichkeiten um das Community-Building aktiv zu befördern. Im Rahmen von Workshops werden gleichzeitig die Git-Funktionalitäten eingeübt und thematisch relevante Texte bearbeitet.



The CREATIVE project - customising a generic repository for domain scientists and creating a data steward network

Sibylle Haßler, Carlos Zuleta Salmon, Peter Braesicke, Jörg Meyer

Karlsruher Institut für Technologie, Deutschland

The CREATIVE project aims to make the generic repository RADAR4KIT easily accessible and attractive for the domain-specific communities organized in the Climate and Environment Centre (CEC) at the Karlsruhe Institute of Technology (KIT). This aim will be achieved with the help of customized templates and input masks for subject-specific metadata, which enhance the RADAR4KIT usability for the CEC scientists and thus facilitate data publication beyond the generic functionalities of the repository.

At the same time, the subject-specific metadata schemas are harmonised with the schemas used by the NFDI4Earth, the National Research Data Infrastructure (NFDI) for Earth System Sciences (ESS), and the virtual research environment V-FOR-WaTer, which is being developed at KIT in a collaboration between, mainly, hydrologists and computer scientists. This harmonisation effort in combination with corresponding interfaces enable the domain-specific (meta) data to be included in the data base of NFDI4Earth and promotes broader use of the data beyond KIT. Additionally, by implementing the interfaces and the standardized metadata description, the CEC researchers can use V-FOR-WaTer to pre-process, edit and visualize the data, thus accelerating scientific work with the data sets and their interdisciplinary use. RADAR4KIT then functions as an adapted specialist repository for the CEC institutes and connects meaningfully to other initiatives. The adaptation steps for the templates can be transferred to other specialist areas at KIT and via detailed documentation and publication with NFDI4Earth also in other domains in the ESS.

Another key focus of the CREATIVE project is connecting and supporting the data stewards at the CEC institutes. For the most part there are no designated positions for this task, so usually researchers and PhD students take on the role unofficially and out of necessity - often without a clear overview of existing research data management (RDM) structures, tools and support. CREATIVE aims to facilitate the exchange between data stewards using the example of publishing data via RADAR4KIT, supported by the CREATIVE team. Several workshops during the development of the metadata templates and during the testing phase are meant to further strengthen this exchange and establish a network of data stewards, thus, supporting sustainable and future-proof research data management (RDM) at KIT.



Clinical Research Data Management in the University Medicine Mannheim (UMM) Data Integration Center

Kerstin Gierend, Melanie Herzog, Michael Hetjens, Martina Langhals, David Männle

Mannheim Institute for intelligent Systems in Medicine (MIISM), Medical Faculty Mannheim of Heidelberg University, Germany

The primary goal is to support researchers through data management planning, systematic data collection, organization, integration, storing, analysis and archiving of their clinical research data. Our UMM Data Integration Center (DIC) not only consolidates data from clinical routine systems or biobank but also from various clinical studies. Standardizing these heterogeneous data types into an interoperable data format is essential for enabling meaningful cross-study, -clinical comparisons and meta-analyses, which are foundational to evidence-based medicine.

Given the sensitive nature of clinical (research) data, DICs and researchers must adhere to strict regulatory requirements, such as the General Data Protection Regulation (GDPR). We provide an insight into anonymization of patient data and implementing secure access controls which are necessary to protect patients data privacy and maintain trust in clinical research.

In conclusion, our data managing activities are essential for advancing medical research sharing. We address challenges related to standardization, interoperability, privacy and governance. This enables DICs and researchers to significantly enhance the quality and impact of their research, while contributing to improved healthcare outcomes.



Was machen eigentlich Data Champions?

Anne Gärtner, Kristina Grüttemeier, Markus Rump, Johanna Vompras

Universität Bielefeld, Deutschland

Data Champions (DC) dienen der Verbesserung von Sichtbarkeit und Effektivität des Forschungsdatenmanagements (FDM) an Hochschulen. Das Konzept wurde an der TU Delft [1] und der University of Cambridge [2] entwickelt und hat sich dort zu einem erfolgreichen Modell etabliert. Die Adaption des Konzepts ist mittlerweile auch im deutschen Hochschulraum ein aktuelles Thema und wird in bestehende FDM-Services aufgenommen (z.B. [3, 4]).

Standortabhängig wird das DC-Konzept unterschiedlich ausgestaltet. Es gibt DC-Adaptionen, bei denen vorbildliches Forschungsdatenmanagement hochschulweit vorgestellt und die beteiligten Forschenden zu Data Champions „gekürt“ werden [3]. Andere Hochschulen etablieren beständige DC-Netzwerke, die sich kontinuierlich für ein vorbildliches FDM am Standort starkmachen [4].

Dieser Posterbeitrag präsentiert eine Adaption auf Netzwerkbasis, die seit 2020 an einer Hochschule besteht. In diesem DC-Netzwerk fungieren DC als freiwillige Multiplikator*innen innerhalb ihrer Fachbereiche. Sie kommunizieren u.a. Prinzipien des FDM in ihren Fachbereichen und spiegeln fachspezifische Bedarfe zurück an die zentralen FDM-Servicestellen. Die Kommunikation in beide Richtungen funktioniert durch niedrigschwellige Optionen wie E-Mailverteiler sowie durch ca. 2-3 Mal jährlich stattfindende Treffen. Die Treffen fördern den Austausch über Disziplingrenzen hinweg und dienen der Verbreitung von Best Practices im Datenmanagement. DC profitieren durch ihre Teilnahme am Netzwerk von erhöhter Sichtbarkeit in der wissenschaftlichen Gemeinschaft, und erhalten die Möglichkeit, ihr Wissen im Datenmanagement durch die Vernetzung zu erweitern und aktuelle Entwicklungen und Tools kennenzulernen. Das kann ihnen sowohl in der Forschung als auch bei der Einwerbung von Drittmitteln zugutekommen. Das beschriebene DC-Netzwerk ist dabei an verschiedener Stelle für das institutionelle Forschungsdatenmanagement förderlich: Das Netzwerk hilft der Hochschule disziplinspezifische Bedürfnisse zu identifizieren und langfristig zentrale FDM-Angebote stärker mit diesen Bedürfnissen zu verknüpfen. Ein Beispiel dafür, wie Bedarfe aus den Fachbereichen geäußert und aufgegriffen werden, ist die Entwicklung einer Handreichung zu Möglichkeiten der Datenspeicherung. Die Auswahl von Speichermöglichkeiten stellt Forschende immer wieder vor Herausforderungen. Die DC kommunizierten diese Herausforderung als Unterstützungsbedarf. Als Reaktion entwickeln die zentralen FDM-Servicestellen eine generische Handreichung, die anschließend von den DC auf die disziplinspezifischen Besonderheiten zugeschnitten wird. Durch die enge Zusammenarbeit werden zentrale Angebote bekannter und FDM-Servicestellen erhalten Einblicke in einzelne Fachdisziplinen. Der Input aus dem DC-Netzwerk fließt in die Entwicklung von maßgeschneiderten Beratungs- und Unterstützungsangeboten ein. Wie im Beispiel der Handreichung, können die DC als Expert*innen ihrer Fachbereiche an den Entwicklungen beteiligt werden.

Aktuell nehmen an den Treffen des Netzwerks 10-15 DC aus verschiedenen Fachbereichen teil, was diese zu einer am Standort einzigartigen Austauschmöglichkeit zu FDM-Themen macht. Um auch zukünftig den Bedarfen der Forschenden zu entsprechen und Mehrwerte für die universitätsweite FDM-Strategie zu schaffen, ist eine kontinuierliche Evaluation und Weiterentwicklung des Konzepts notwendig. Zum Beispiel könnte das Konzept in einer zukünftigen Form zusätzliche Rollen enthalten, die über entsprechende Stellenmodelle in die Organisationsentwicklung der FDM-Servicestellen einfließen.

Dieser Posterbeitrag präsentiert das Konzept in seiner aktuellen Form und skizziert Chancen, aber auch Hürden und Herausforderungen bei der Etablierung und dem Betrieb eines solchen Netzwerks.

Referenzen:

[1] TU Delft: https://osc-delft.github.io/initiatives#data-champions

[2] University of Cambridge: https://datascience.codata.org/articles/10.5334/dsj-2019-023

[3] “Data Champions” an der TU Dortmund: https://fdm.tu-dortmund.de/fdm-an-der-tu-dortmund/data-champions/

[4] Data Champions an der Uni Bielefeld: https://www.uni-bielefeld.de/ub/digital/forschungsdaten/data-champions/



Publishing Standards in Chemistry and Beyond

Nicole A. Parks1, Tillmann G. Fischer2, Steffen Neumann3

1RWTH Aachen University, Deutschland; 2Helmholtz Centre for Environmental Research, Deustchland; 3Leibniz Institute of Plant Biochemistry, Deustschland

NFDI4Chem’s vision is the digitalization of all key steps in chemical research to support scientists in their efforts to collect, store, process, analyze, publish, and re-use research data [1]. For that goal, we aim to help chemists in making chemical research data FAIR (Findable, Accessible, Interoperable, Reusable) [2]. As the primary method of communicating research results, journals and their author guidelines have a tremendous impact on community behavior. To work with scientific journal editors to enhance recommendations on data publication, we organized the Editors4Chem workshop in 2021 [3], with the 2nd edition held in November 2023.

As part of ongoing work with editors and publishers, NFDI4Chem has begun formulating standards related to the publishing process. Much of this builds upon a large scale analysis of how author guidelines support FAIR and Open Science [4]. As many researchers, especially in Chemistry, publish their data alongside a published manuscript, these standards aim to assist publishers, authors, and repository providers in this process. Our work has shown that many aspects, especially technical ones, are not always quite straightforward. How should authors submit a data availability statement and what information should it contain? How should authors refer to their data, not only within the data availability statement, but also within the manuscript text itself? How can data be made available to reviewers before the manuscript is published? How should publishers link the underlying data's DOI(s) to create a machine-readable link between the published article and its underlying data? At which stage should data be published? How can embargoes be leveraged?

As an ongoing effort, we are eager to engage with other disciplines and actors within the research data management and Open Science community to both further develop these standards but also to create awareness and implement them not only in chemistry publishing but in all fields of research. Therefore, this poster aims to engage players across disciplines to contribute.

[1] C. Steinbeck, O. Koepler, F. Bach, S. Herres-Pawlis, N. Jung, J. Liermann, S. Neumann, et al., NFDI4Chem - Towards a National Research Data Infrastructure for Chemistry in Germany, Research Ideas and Outcomes, 2020, 6: e55852. DOI: 10.3897/rio.6.e55852. Website: www.nfdi4chem.de.

[2] M. Wilkinson, M. Dumontier, I. Aalbersberg, G. Appleton, M. Axton, A. Baak, N. Blomberg, J.-W. Boiten, L. B. da Silva Santos, P. E. Bourne, et al., The FAIR Guiding Principles for scientific data management and stewardship, Sci Data 2016, 3, 160018, DOI: 10.1038/sdata.2016.18.

[3] T. G. Fischer, 1st Editors4Chem Workshop, www.nfdi4chem.de, 2021, URL: www.nfdi4chem.de/index.php/2021/11/23/1st-editors4chem-workshop/.

[4] N. A. Parks, T. G. Fischer, C. Blankenburg, V. F. Scalfani, L. R. McEwen, S. Herres-Pawlis, S. Neumann, The current landscape of author guidelines in chemistry through the lens of research data sharing, Pure Appl. Chem. 2023, ASAP. DOI: 10.1515/pac-2022-1001.

[5]: 5] T. G. Fischer, N. A. Parks, Publishing Standards, knowledgebase.nfdi4chem.de, 2024, URL: https://knowledgebase.nfdi4chem.de/knowledge_base/docs/publishing_standards/.



Collaboratively Advancing Research Data Support (CARDS) - Praxisnahes FDM für eine vielfältige Forschungslandschaft

Sibylle Söring1, Fadwa Alshawaf2, Evgeny Bobrov3, Britta Steinke4, Lea Sophie Orozco Prado1

1Freie Universität Berlin, Deutschland; 2Humboldt-Universität zu Berlin, Deutschland; 3Charité - Berlin Institute of Health, Deutschland; 4Technische Universität Berlin, Deutschland

Das von der Berlin University Alliance (BUA) mit ihren vier Häusern Humboldt-Universität, Technische Universität, Freie Universität und Charité geförderte Verbundprojekt "CARDS - Collaboratively Advancing Research Data Support" ist Teil eines integrierten Netzwerks geteilter Dienstleistungen und Infrastrukturen. Als solches hat es den nachhaltigen Auf- und Ausbau einrichtungsübergreifender Tools, Services und Kompetenzentwicklungsangebote zum Thema Forschungsdatenmanagement (FDM) für Forschende und Multiplikator*innen sowie die Umsetzung von Best Practices im Datenmanagement von Exzellenzclustern zum Gegenstand. Dies erfolgt vor dem Hintergrund stetig steigender Anforderungen an Datenqualität und -management sowohl im Sinne der FAIR-Prinzipien als auch der guten wissenschaftlichen Praxis. Ein weiteres Ziel ist die bestmögliche Unterstützung von Forschenden hinsichtlich zunehmend ausdifferenzierter Anforderungen der Forschungsförderer an einen nachhaltigen, standardisierten Umgang mit Forschungsdaten entlang des gesamten Forschungsdaten-Lebenszyklus.

Im Rahmen des Vorgängerprojekts „Concept Development for Collaborative Research Data Management Services“ (2021-23) konnten aktuelle FDM-Praktiken und -Bedarfe von Forschenden der vier Einrichtungen erhoben, eine gemeinsame Standortbestimmung vorgelegt und Empfehlungen für einen bedarfsorientierten Auf- und Ausbau einrichtungsübergreifender Services abgeleitet werden. Darauf aufbauend entwickeln wir seit 2024 Maßnahmen zur gezielten Optimierung der FDM-Expertise an den Häusern ebenso wie zur Vereinfachung und Verbesserung des FDM, um so die Qualität und Nachnutzbarkeit von Forschungsdaten am Wissenschaftsstandort Berlin voranzutreiben. Im Fokus des Posters stehen die Ansätze und Aktivitäten unserer vier Teilprojekte:

In TP1: "BUA Customised Research Data Management Organiser" wird die Open-Source-Software "Research Data Management Organiser (RDMO)" mit BUA-spezifischen Erweiterungen ausgestattet, um die Datenmanagementplanung für BUA-Forschende leichter und attraktiver zu gestalten. BUA-spezifische RDMO-Templates (z.B. mit integrierten Informationen zu Ansprechpartner*innen und Diensten), die Einbindung BUA-spezifischer Formulare (z.B. für die Datenschutz- und Ethikprüfung) sowie die Erarbeitung automatisierter Ausgaben (als README-Datei und Forschungsdaten-Policy) sollen hierbei unterstützen.

Das TP2: "Data Stewardship in Exzellenzclustern" nimmt aktuelle Ansätze auf, Datenmanagement direkt im Forschungskontext zu verankern und FDM bedarfsorientiert – in direkter Zusammenarbeit mit Forschenden - umzusetzen. Der Data Steward stellt dabei eine wichtige Ergänzung zu den FDM-Teams der lokalen Einrichtungen dar, die FDM-Beratungen durchführen, aber nicht selbst FDM betreiben. Es sollen Aufgaben des Datenmanagements wie Standardisierung, Qualitätssicherung oder Annotation übernommen werden. Wo möglich, soll dies auch zu einer Veröffentlichung nachnutzbarer Datensätze führen.

TP3: "FDM-Kompetenzentwicklung" hat den Ausbau übergreifender FDM-Schulungs- und Kompetenzentwicklungsangebote zum Gegenstand. Das Teilprojekt soll FDM-Expertise sowohl zielgruppenspezifisch (z.B. Excellenzcluster) als auch breit in den Institutionen verankern, wachsende Anforderungen abbilden, neue aggregierte Formate erschließen und die kooperative Anbindung an weitere regionale und nationale Initiativen (Datenkompetenzzentren, FDM-Landesinitiativen, NFDI) ausgestalten.

Das TP4: "Modellentwicklung für den Einsatz von elektronischen Laborbüchern (ELN) in der BUA als integraler Teil einer FDM-Strategie in experimentell arbeitenden Disziplinen" zielt darauf ab, ein Konzept für den Einsatz von ELN in der BUA zu entwickeln, um die Effizienz des Datenmanagements in Labor- und experimentellen Arbeiten zu verbessern. Das Teilprojekt erfasst die spezifischen Anforderungen der BUA-Partner an eine ELN-Software und evaluiert mögliche Lösungen sowie Synergiepotenziale zur Etablierung eines gemeinsamen ELN in der Forschung.

Das Poster wird neben den Projektzielen das Zusammenspiel der Einrichtungen ebenso wie erste Ergebnisse und Erfahrungswerte vorstellen.



DataPLANT services design - Considerations towards a common NFDI landscape

Dirk von Suchodoletz1, Timo Mühlhaus2, Christoph Garth2, Marcel Tschöpe1

1Universität Freiburg, Deutschland; 2RPTU Kaiserslautern, Deutschland

Many Research Data Management (RDM) services are not confined to a single scientific domain or institution. Since no individual research institution can fully support all aspects of RDM with the required depth and domain specific details for every discipline, collaboration and shared services are both logical and necessary. This approach aligns with the broader objective of OneNFDI within the National Research Data Infrastructure, which aims to create a cross-disciplinary RDM landscape that meets the specific needs of research groups and disciplines, while also enabling the (re-)use of data across traditional boundaries as well as the deployment of AI approaches. In line with this vision, one of the long standing core objectives of the DataPLANT consortium is to provide tools and services that can be shared with other consortia and deployed across flexible backend infrastructures. At the heart of these technical services is the PLANTdataHUB, a science gateway designed to support data management and publication workflows. In addition to core functions, the PLANTdataHUB offers workflow pipeline templates, automated quality assurance, and other interaction services to foster DataPLANT's open participation and contribution model. This model encompasses all relevant assets, including ARCs, raw data, metadata templates, ontologies, code, and workflow descriptions. The backend services are designed as flexible, cloud-based microservices, supporting both on-premises installations and future integration with a shared NFDI infrastructure. The PLANTdataHUB thus provides a range of RDM workflows to support data scientists throughout different stages of the research data lifecycle, from development through to the publication of results.

The development of applications and tools for bottom-up, community-driven research data management requires the collaboration of multiple stakeholders. In building these services, we have adhered to design principles that provide high-level guidance and ensure the creation of sustainable and maintainable applications. In DataPLANT, tool development is driven by community needs, communicated through researchers (e.g., via data stewards) to developers. The process follows an incremental and iterative approach, ensuring continuous stakeholder alignment and commitment. Over the past four years, the DataPLANT team has developed and extended a suite of software and system components like GitLab or InvenioRDM tailored to enhance the digital infrastructure of plant scientists. These core services focus on data management, versioning, sharing, and publishing, and are designed as portable modules that can be integrated into a broader base infrastructure. A reverse proxy automatically manages SSL certificates for new services, significantly enhancing the flexibility of the infrastructure by enabling rapid changes to backend services without altering the static user-facing service hostnames.

Key design priorities include security, re-deployability, and fast recovery in case of system failures or infrastructure disruptions. The services integrate with a central authentication system based on the Life Sciences AAI and ORCID, with future compatibility planned for IAM4NFDI. In addition to the core components, monitoring services detect service outages, while logging services track performance data, access patterns, and accounting information. Through these efforts, we aim to encourage broader adoption by other communities and integration into the future NFDI service landscape.



Uniting the DIFferences with The DALIA Interchange Format (DIF) – a Minimal Metadata Specification for the DALIA OER Platform

Petra Steiner1, Jonathan Geiger2, Abdelmoneim Desouki1, Sonja Herres-Pawlis3, Alessandra Kuntz4, Jochen Ortmeyer3, Ulrich Sax4

1Technical University of Darmstadt; 2Academy of Sciences and Literature Mainz; 3RWTH Aachen University; 4Universal Medical Center Göttingen

Teaching data literacy is a key topic for society. A wide range of data literacy materials and tools are already available, many as open educational resources (OER). The scientific infrastructure project DALIA (“Data Literacy Alliance”) takes up the indexing, linking, visualization and making accessible of existing material for the National Research Data Infrastructure (NFDI), federal RDM initiatives, data competence centers, and beyond.

Since most scientific disciplines in Germany work towards the training and certification of data literacy for their students and researchers, it is reasonable to exploit synergies, share experiences, technically link material, and identify gaps in the general and subject-specific offerings. The Section Training & Education (EduTrain) is committed to organizing this task within the NFDI; the DALIA project is responsible for the technical implementation, anchoring and establishment in the NFDI.

In order to link and integrate OER for the different needs of career and competence levels and disciplines, DALIA is developing a knowledge graph that establishes the adherence to the FAIR Principles (cf. Garcia et al. 2020).

To ensure the interoperability of teaching and learning materials for the DALIA knowledge graph, a schematisation of their metadata is required: The DALIA Interchange Format (DIF) provides a framework to make the metadata comparable and smoothly integrable into the DALIA platform. It describes and explains the metadata fields for online publication of educational resources (Geiger et al. 2024). The selection of descriptive elements is based on the Dublin Core Application Profile (DCTAP) (cf. Coyle 2022). Like the DCTAP, the DIF can be converted to Shapes Constraint Language (SHACL) shapes. The DIF consists of elements compiled from other namespaces, especially for attributes and controlled vocabularies (cf. Steiner et al. 2024). However, if there are no standardized definitions, custom IDs are defined in the underlying MoDALIA ontology (BMBF DALIA project 2024).

The poster focuses on the application of the DALIA Interchange Format as a metadata specification for teaching and learning materials of the NFDI. It aims to continue communication with the professional community by inviting all interested parties to provide feedback and make contact.

References

Coyle, Karen (ed). 2022. “Elements for DC Tabular Application Profiles.” In collaboration with Tom Baker, Phil Barker, John Huck and Nishad Thalhath. https://www.dublincore.org/specifications/dctap/elements/.

BMBF DALIA project. 2024. “MoDALIA Ontology.” In collaboration with Abdelmoneim Amer Desouki, Marc Fuhrmans, Petra C. Steiner and Frank Lange. Revision v1.0.0. https://purl.org/ontology/modalia#.

Garcia, Leyla et al. 2020. “Ten simple rules for making training materials FAIR.” PLOS Computational Biology. DOI:10.1371/journal.pcbi.1007854.

Geiger, Jonathan, Petra Steiner, Abdelmoneim Amer Desouki & Frank Lange. 2024. “DALIA Interchange Format (Version 1.3).” Zenodo. DOI: 10.5281/zenodo.11521029.

Steiner, Petra, Canan Hastik & Marc Fuhrmans. 2024. “Compiling Controlled Vocabularies of Contributor and User Roles for a Platform of Open Educational Resources”. DHd 2024 Quo Vadis DH (DHd2024), Passau, Germany. 2024. Zenodo. DOI: 10.5281/zenodo.10709934.



FIZ-OAI: Eine skalierbare Open Source-Implementierung des Protocol for Metadata Harvesting der Open Archives Initiative (OAI-PMH)

Stefan Hofmann, Michael Hoppe, Felix Bach, Kerstin Soltau, Matthias Razum

FIZ Karlsruhe – Leibniz-Institut für Informationsinfrastruktur

FIZ-OAI ist ein selbst entwickelter, leistungsstarker OAI-Provider zur Aggregation und Dissemination von Metadaten aus Repositorien und Forschungsdateninfrastrukturen. FIZ Karlsruhe betreibt mehrere Instanzen dieser Software für die Bereitstellung großer Mengen an Metadaten aus Diensten wie z.B. der Deutschen Digitalen Bibliothek (DDB), dem Forschungsdatenrepositorium RADAR, sowie für Thieme Connect, die Online-Plattform für elektronische Publikationen der Thieme Gruppe. Weitere Instanzen werden u.a. aktuell für NFDI4Chem und zbMath Open aufgebaut. Übergeordnete Aggregatoren wie CrossRef, die Deutsche Nationalbibliothek (DNB), Europeana, EUDAT und B2Find nutzen die OAI-PMH-Schnittstellen dieser Dienste, um Millionen von Metadaten zu harvesten und so die Sichtbarkeit und Auffindbarkeit der Daten zu erhöhen. Trotz des Alters der OAI-PMH-Spezifikation (V1.0 stammt aus 2001) und zahlreicher technischer Alternativen, die mittlerweile existieren, wird dieses Protokoll in der wissenschaftlichen Informationslandschaft noch intensiv genutzt, u.a. von großen Infrastrukturen für Forschungsdaten wie DataCite und Zenodo.

Die bis dahin von uns eingesetzten bzw. verfügbaren Open-Source-Lösungen genügten nicht unseren Anforderungen, v. a. hinsichtlich der notwendigen Skalierbarkeit und der Sicherheit und Wartbarkeit der Software. Bei der im Jahr 2019 begonnenen Entwicklung von FIZ-OAI standen folgende Ziele im Fokus: Einfachheit, Robustheit, Skalierbarkeit sowie vollständige Implementierung der OAI-PMH Spezifikation und Bereitstellung als Open Source-Software. Die Software sollte es wissenschaftlichen Repositorien ermöglichen, ihre Metadaten auf einfachem Wege bereitzustellen und so die Vernetzung und Interoperabilität von Diensten und deren vielfältigen Inhalten (Forschungsdaten, Digitalisate, Fachartikel usw.) zu fördern.

Wir entwickeln die Software in der Programmiersprache Java. Der Quelltext ist auf Github gehostet und unter der Apache 2.0 Lizenz frei verfügbar. FIZ-OAI besteht aus zwei Komponenten: einem Frontend (FIZ-OAI-Provider) und einem Backend (FIZ-OAI-Backend). Sie lassen sich als Docker Images sehr leicht im lokalen Rechenzentrum oder in der Cloud aufsetzen und betreiben.

Das FIZ-OAI-Backend nutzt Cassandra als Persistenzschicht und ElasticSearch bzw. Solr für die Suche. Dank dieser clusterfähigen Technologien skaliert der OAI-Provider in den Bereich vieler Millionen Dokumente. Thieme Connect stellt mehr als eine Millionen, die DDB sogar mehr als 50 Millionen XML-Dokumente via FIZ-OAI zum Harvesten bereit.

Die Software unterstützt neben dem im Standard vorgeschriebenen Dublin Core weitere frei definierbare Metadatenformate im XML-Format. Solche alternativen Formate können gezielt über sogenannte Sets aggregiert und für spezifische Communities bereitgestellt werden. Via XSLT-Transformationen (auch Crosswalks genannt) können Betreiber dynamisch neue Formate verwalten und ausliefern.

Auf dem Poster erläutern wir die Features der Software sowie deren Architektur, stellen die aktuellen Anwendungsfälle vor und diskutieren mögliche Szenarien für die Nachnutzung wie auch der Beteiligung an der Weiterentwicklung des OAI-Providers.



Der Aufbau eines standardisierten Forschungsdatenmanagements an Hochschulen für angewandte Wissenschaften am Beispiel der HTW Berlin durch das Projekt FitForFDM

Esther Schneidenbach, Paulina Dąbrowska, Eske Heister

Hochschule für Technik und Wirtschaft - HTW Berlin, Deutschland

Das Forschungsdatenmanagement (FDM) stellt Hochschulen für angewandte Wissenschaften (HAW) vor besondere Herausforderungen, insbesondere wenn es um die Implementierung nachhaltiger Lösungen für einen standardisierten und effektiven Umgang mit Forschungsdaten zur Förderung des Nachnutzungspotenzials geht. Wie kann eine HAW mit hoher Fächerdiversität und breitem Spektrum an Forschungsprojekten in öffentlichen und privaten Sektoren ein zentrales, nachhaltiges und auf die Bedürfnisse der Forschenden zugeschnittenes FDM implementieren, das sowohl die Nachnutzbarkeit der Forschungsdaten als auch den Kompetenzaufbau fördert? Dieser Frage widmet sich das vom BMBF in der Förderrichtlinie zur „Förderung von Projekten zum Thema Nachnutzung und Management von Forschungsdaten an Fachhochschulen“ geförderte und von der EU finanzierte Projekt FitForFDM. Ziel des Projekts ist es, den Status Quo des FDM an der HTW Berlin systematisch zu analysieren und auf dieser Grundlage ein systematisches, effizientes und an den FAIR-Prinzipien orientiertes FDM an der Hochschule zu etablieren.

Im Projekt FitForFDM wird eine umfassende Bedarfserfassung durchgeführt, die die Heterogenität der Disziplinen an der HTW Berlin berücksichtigt. Hierzu nutzen wir einen multimethodischen-partizipativen Ansatz, der alle relevanten Akteure (Forschende, Verwaltung, Bibliotheken und IT) in den Entwicklungsprozess einbindet. Dazu gehören die Gründung eines FDM-Arbeitskreises, die Durchführung von Interviews sowie Befragungen. Im gemeinsamen Austausch zwischen den Akteuren werden Bedürfnisse, bestehende Praktiken und Hemmnisse im FDM identifiziert. Die Ergebnisse aus diesen Erhebungen fließen in die Entwicklung einer maßgeschneiderten FDM-Policy sowie spezifischer Handlungsempfehlungen ein. Parallel dazu wird der Kompetenzaufbau durch Schulungen und den Aufbau eines FDM One-Stop-Shops gefördert.

Das Projekt generiert praxisorientierte Handlungsempfehlungen für ein maßgeschneidertes FDM an der HTW Berlin. Als institutionelle Lösungsansätze wurden u. a. folgende Maßnahmen abgeleitet:

Diese umfassen:

• Entwicklung einer FDM-Policy unter Einbeziehung der Forschenden und Forschungunterstützenden,

• Aufbau von nachhaltigen Unterstützungsstrukturen in Form eines „FDM-One-Stop-Shops“,

• Schaffung von Beratungs-, Weiterbildungs- und Servicedienstleistungen rund um das Forschungsdatenmanagement.

Die forschungsspezifischen Anforderungen und Herausforderungen an der HTW Berlin erfordern einen flexiblen und adaptiven Lösungsansatz, der verschiedene FDM-Praktiken und fachspezifische FDM-Standards integriert. Der partizipative Ansatz hat sich als entscheidend erwiesen, um eine hohe Akzeptanz und Beteiligung der Forschenden zu erreichen. Die entwickelten Materialien, Konzepte und Empfehlungen sollen nicht nur an der HTW implementiert werden, sondern als Blaupause für andere Hochschulen dienen.

Die gewonnenen Erkenntnisse aus FitForFDM werden langfristig in die Forschungsaktivitäten der HTW Berlin integriert und dienen als Grundlage für den weiteren Kompetenzaufbau. Durch die kontinuierliche Anpassung und Erweiterung des FDM-One-Stop-Shops wird das Projekt auch in Zukunft Forschende und Verwaltungspersonal aktiv unterstützen und als institutioneller Lösungsansatz die Forschung an der HTW nachhaltig stärken. Zudem wird über die aktive Vernetzung mit anderen HAWs der Informationsaustausch gefördert.

Das Poster präsentiert das methodische Vorgehen im Rahmen des Projekts „FitForFDM“ an der HTW Berlin sowie die entwickelten Lösungsansätze für den Aufbau eines strukturierten Forschungsdatenmanagements. Diese Ansätze unterstützen nicht nur die HTW Berlin, sondern bieten auch anderen Hochschulen wertvolle Hilfestellung bei der Implementierung ihres FDM. Es hebt insbesondere die Bedeutung eines integrierten, partizipativen Ansatzes für die Schaffung nachhaltiger FDM-Strukturen an Hochschulen mit einer breiten Fächer- und Forschungsvielfalt hervor.



Entwicklung der Forschungsdaten-Policy an der Universität Mannheim

Phil Kolbe

Universitätsbibliothek Mannheim, Deutschland

Im Rahmen der Weiterentwicklung der Universität Mannheim wird ein Schwerpunkt auf das institutionelle Forschungsdatenmanagement gelegt, um zukünftigen Anforderungen gerecht zu werden. Zu diesem Zweck wurde ein Forschungsdatenausschuss eingesetzt, dessen Aufgabe es ist, eine Forschungsdaten-Policy für die Universität zu entwickeln. Der Ausschuss setzt sich aus Stakeholdern innerhalb der Universität zusammen, bestehend aus Forschung, Infrastruktureinrichtungen und Universitätsleitung.

Die Entwicklung der Policy erfolgte unter anderem auf Basis der Referenzmodelle RISE-DE und DIAMANT. Darauf aufbauend wurde eine qualitative Ist-Soll-Analyse der Angebote zum Forschungsdatenmanagement durchgeführt und die Arbeitsprozesse zum Forschungsdatenmanagement an der Universität Mannheim herausarbeitet. So wurde ein Überblick über die bestehenden Angebote zum Forschungsdatenmanagement geschaffen, Zuständigkeiten und Abläufe innerhalb des institutionellen Forschungsdatenmanagements geklärt und Entwicklungspotenziale identifiziert.

Auf Basis der gewonnenen Erkenntnisse und des damit verbundenen Austauschs im Forschungsdatenausschuss wurde schließlich die Forschungsdaten-Policy der Universität Mannheim formuliert, zudem wurden Maßnahmen formuliert, mit der bestimmte Aspekte der Policy umgesetzt werden sollen. Das vorliegende Poster hat zum Ziel, den Entstehungsprozess der Policy zu veranschaulichen, die dabei gewonnenen Erfahrungen im persönlichen Gespräch zu teilen, die bisher umgesetzten Maßnahmen dazustellen und den Dialog über institutionelles Forschungsdatenmanagement zu fördern.



Community Building with the Community Canvas: Initial Results from the Data Steward Community

Daniela Hausen1, Jens Dierkes2, Ute Trautwein-Bruns3

1Heinrich-Heine-Universität Düsseldorf; 2University of Cologne; 3RWTH Aachen University

In today's increasingly networked research landscape, the development of new communities plays a crucial role in knowledge sharing and collaboration, reflecting aspects such as data quality and standardisation. In our poster, we present our experiences and first results of using the Community Canvas [1] to establish a Data Steward Community in Germany.

The Community Canvas is a strategic tool for visualising and analysing different aspects of a community. A successful application of the Community Canvas for building a Data Steward Community can be observed in Flanders. [2]

Through its use, we were able to systematically identify key elements that contribute to building and strengthening a data steward community in Germany. In addition to shared values and goals, the challenges and needs of members were also identified. The results were gathered from a small group of data stewards during the "Data Stewardship Goes Germany" workshop 2024 in Aachen [3] and the "Data Competence Training - Offers, Quality Assurance and Networking" workshop during the Digital Competences Week in Science [4].

In addition to a results poster summarising the main findings of our analysis - providing both quantitative data and qualitative insights into the dynamics within the Data Steward community - we will also offer an interactive poster. This poster aims to develop an external perspective on the community, while specifically gathering opinions and feedback from researchers and infrastructure staff. This interactive element will give participants the opportunity to share their own experiences and perhaps even become part of the Data Steward Community themselves.

By comparing different perspectives or target groups on building a Data Steward Community, we aim to contribute to the further development of community building while avoiding parallel structures.

Thus, the existing and evolving results are not only relevant for the Data Steward Community, but also provide general insights into how communities can be established and supported in other areas of digital transformation in science. Sharing ideas and strategies is essential for building resilient communities.

[1] https://community-canvas.org/

[2] Oset García, P. (2024, September 17). Building a community of data stewards in Flanders - The FRDN Knowledge Hub's experience with the Community Canvas. Data Stewardship goes Germany 2024 (DSgG 2024), Aachen. Zenodo. https://doi.org/10.5281/zenodo.13773134

[3] https://www.dsgg.rwth-aachen.de/cms/~bgnhzs/dsgg/

[4] https://www.volkswagenstiftung.de/de/foerderung/foerderangebot/themenwoche-digitale-kompetenzen-der-wissenschaft-beendet



FDM-Schulungen neu denken!

Sonja Thielen, Silke Sturm

Universitätsbibliothek der Technischen Universität München

Schulungen im Bereich Forschungsdatenmanagement (FDM) tendieren häufig dazu, eine Fülle an Informationen in kurzer Zeit zu vermitteln. Oft bleibt wenig Zeit und Raum für kreative und innovative Vermittlungsformate - sowohl für die Entwicklung solcher Formate, als auch ihre Durchführung. Auf diesem Poster stellen wir anschauliche und praxisnahe Konzepte für FDM-Schulungen dar, die wir in den letzten 12 Monaten erfolgreich umgesetzt haben. Unser Fokus lag auf den Themen Metadaten, Ordnerstrukturen und der Sensibilisierung für einen guten Umgang mit Forschungsdaten.

Zu den vorgestellten Schulungskonzepte zählen:

- Von der Wegbeschreibung zu einer guten Ordnerstruktur

- Von einem Faschingsball-Wimmelbild zu Metadaten

- Von einem Data Horror Escape Room zu einem guten Umgang mit Forschungsdaten

Die Schulungskonzepte bieten neue, interaktive Wege, um FDM-Themen auf innovative Weise zu vermitteln. Auf dem Poster werden die spezifischen Formate und Tools vorgestellt, die in den Schulungen zum Einsatz kommen. Wir wollen FDM-Lehrende dazu inspirieren, Schulungen neu zu denken. Die vorgestellten Ansätze, Gestaltungsideen und Formate bieten vielfältige Möglichkeiten.



Data Stewardship and Coscine

Catherine Gonzalez, Nicole Parks, Kseniia Dukkart

RWTH/UKA, Deutschland

Coscine is RWTH’s solution for safely and FAIRly storing and archiving research data and the associated metadata. Coscine ensures that data meets the FAIR principles via the requirement of metadata. The metadata provides context to the data stored in Coscine so that it is reusable to other researchers in the scientific community. Users can create projects which contain resources that house the data linked with metadata profiles. Metadata can be searched for in Coscine so long as the project has made it publicly available. Projects and resources are equipped with persistent identifiers (PIDs) which allow findability of the data.

In this poster, we illustrate how data stewards at the Research Process and Data Management Department at RWTH support researchers in using Coscine. Using three instances—namely, creating tailored metadata profiles, automating data workflows in the laboratory, and connecting services such as ELNs—we outline our current ongoing work.

Coscine encompasses fillable forms to record metadata. To this end, it offers a metadata profile service, enabling researchers to establish custom metadata profiles according to their needs, but also ensuring that all Coscine users working with similar datasets can benefit from standardized profiles. Here, data stewards play a vital role in assisting researchers with choosing which metadata to record, how to structure this metadata, and even creating the metadata profiles themselves. Examples include metadata profiles for Preclinical Imaging, Flow Cytometry (FACS), and Metagenomic Data.

Once metadata profiles have been established, resources to store or link data are created within Coscine projects. At this stage, Coscine may be integrated into laboratory practices and streamlined through automated workflows, alleviating any additional manual burden on researchers during the data storage and metadata assignment process. Here, data stewards assist researchers by creating scripts written in Python in combination with the Coscine SDK—built on top of Coscine's REST API—to extract necessary metadata from research files. This is then incorporated into their respective profiles and delivered to Coscine along with the data files.

This covers the basics on Coscine's end. However, researchers use various tools and storage solutions in their daily research work. Similar to automated (meta)data delivery into Coscine from local hardware, REST APIs can be leveraged in scripts to link tools such as electronic lab notebooks (ELNs). This provides suitable data storage where ELN storage reaches its limits—structured metadata as well as archival solutions are required. However, such workflows have proven difficult to maintain; thus a native solution both on the ELN side as well as Coscine is much desired. Ongoing work is aiming to do just that. Once implemented for these systems, the solution should be easily transferable to other services.



Introducing elAPI: A powerful and extensible API Client for eLabFTW

Mahadi Xion, Alexander Haller, Nikolaus Kepper, Martin Baumann, Philipp Kling

Universität Heidelberg, Deutschland

Application Programming Interfaces (APIs) are essential for connecting software systems and automating data exchanges, enhancing efficiency across many domains. elAPI is a specialized API client developed to interact seamlessly with eLabFTW, a widely used electronic lab notebook (ELN).

ELNs play a critical role in modern scientific research by allowing researchers to securely document experiments, manage data, and ensure regulatory compliance. However, the complexity of laboratory workflows often requires sophisticated data management and automation capabilities. elAPI addresses these needs by simplifying interactions with eLabFTW, enabling users to automate key functions and efficiently manage experimental data.

One of the key strengths of elAPI is its ease of use and flexibility. Designed with both researchers and administrators in mind, the API client offers a straightforward setup process and a user-friendly interface. This makes it suitable for both seasoned developers and individuals with minimal coding experience. Moreover, elAPI is ideal for educational purposes, allowing students and early-career researchers to familiarize themselves with automated data management in a laboratory setting. The flexible configuration options make it easy to adapt to a wide range of research environments, from small academic labs to large industrial facilities.

elAPI is implemented as a command-line interface (CLI) and Python library, allowing users to execute API requests for data uploading, fetching, and exporting. The client supports every eLabFTW API endpoint, including GET, POST, PATCH, and DELETE operations, with built-in safeguards for error prevention. By leveraging session reuse, parallel requests, and optional experimental support for HTTP/2, elAPI significantly speeds up operations, enhancing overall efficiency.

A distinctive feature of elAPI is its robust plugin system, which enables users to extend the client’s capabilities with custom functionalities. The plugin system is particularly useful for tailoring the API client to meet specific research needs, as it allows for seamless integration of external tools and workflows. For instance, current productive plugins developed for elAPI support billing, statistical analyses, and user and team management. The plugin system is designed to be easily extensible, meaning researchers and developers can create and share new plugins to enhance elAPI's functionality further.

Looking ahead, future developments for elAPI might include the creation of plugins to facilitate data transfer to and from platforms like Dataverse, an open-source data repository system used by researchers to store and share datasets. Additionally, there are plans to integrate elAPI with institutional archive systems, allowing for the secure and compliant long-term storage of research data. These planned integrations will not only broaden the use cases for elAPI but will also further support the reproducibility and transparency of scientific research by making data sharing and archival processes more efficient.



Ethische Aspekte der Offenheit im Forschungsdatenmanagement

Dr. Beate Ulrike La Sala, Dr. Nina Dworschak

Goethe-Universität Frankfurt, Deutschland

Datenethik und Verantwortung im Forschungsdatenmanagement (FDM) sind zentrale Themen, insbesondere in den Geistes- und Sozialwissenschaften, wo Forschungsdaten häufig sensible Informationen über Individuen oder soziale Gruppen enthalten. Der verantwortungsvolle Umgang mit diesen Daten stellt Forschende vor erhebliche Herausforderungen. Dieses Poster soll ethische Fragestellungen beleuchten, die bei der Erhebung, Verwaltung und Weiterverwendung von Forschungsdaten auftreten.

Ein besonders brisantes Thema stellt der Schutz sensibler Daten dar. In den Geistes- und Sozialwissenschaften handelt es sich oft um personenbezogene Informationen, die durch Interviews, ethnografische Studien oder Umfragen gesammelt werden. Hier muss der Datenschutz höchste Priorität haben. Die Gewährleistung der Privatsphäre, die Einholung einer informierten Einwilligung und die Anonymisierung von Daten sind zentrale ethische Verpflichtungen. Trotz dieser Maßnahmen verbleiben ethische Grauzonen, etwa im Spannungsfeld zwischen dem Schutz individueller Rechte und den Anforderungen an die Offenheit von Daten.

Eine wachsende Herausforderung in der Praxis besteht in der Findung einer Balance zwischen Offenheit und Sicherheit. Während offene Datenpraktiken, wie sie durch Lizenzen wie Creative Commons BY (CC BY) gefördert werden, die Verbreitung von Wissen und die Reproduzierbarkeit von Forschungsergebnissen befördern, bringt diese Offenheit Risiken mit sich. Ethisch problematisch wird es, wenn sensible Daten in falsche Hände gelangen oder für kommerzielle Zwecke missbraucht werden. In einem global vernetzten Forschungssystem, in dem Daten über Ländergrenzen hinweg zugänglich sind, kann FDM nicht alle Risiken vollständig abfedern. Forschende müssen sich der potenziellen Konsequenzen bewusst sein, dass frei zugängliche Daten auch von unterschiedlichsten Akteuren genutzt werden können, die ethisch fragwürdige Ziele verfolgen.

Die ethischen Grenzen offener Daten zeigen sich nicht zuletzt auch in der Gefahr, dass personenbezogene oder kontextuelle Informationen aus ihrer ursprünglichen Bedeutung gerissen werden. Dies kann zu einer Verzerrung der Ergebnisse und sogar zur Stigmatisierung der Betroffenen führen, insbesondere in politisch oder kulturell sensiblen Kontexten. Auch der Missbrauch von Daten durch kommerzielle Akteure stellt eine reale Bedrohung dar. Unternehmen könnten frei zugängliche Forschungsdaten für profitorientierte Zwecke nutzen, ohne die ethischen Verpflichtungen der Forschenden oder die Rechte der Datensubjekte zu berücksichtigen. Fragwürdige internationale staatliche Akteure können diese ebenfalls für ihre Zwecke missbrauchen.

Während FDM Richtlinien und Instrumente bietet, um ethische Standards und Datenschutz zu fördern, stößt es an seine Grenzen, wenn es um die Kontrolle der globalen Nutzung und den Missbrauch von Daten geht. Offene Daten können nicht vollständig vor kommerziellem Missbrauch geschützt werden. Hier braucht es weitergehende Maßnahmen, die über FDM hinausgehen. Rechtliche Rahmenbedingungen müssen gestärkt und technische Lösungen sowie strengere Lizenzbedingungen implementiert werden, um den Zugang zu sensiblen Daten zu regulieren.

Das Poster zeigt, dass FDM eine grundlegende Infrastruktur für ethische Forschung bereitstellt, jedoch an seine Grenzen stößt, wenn es darum geht, spezifische Risiken wie algorithmische Verzerrungen, Intransparenz von KI-Entscheidungen und den Schutz sensibler Daten zu minimieren. Um diese Herausforderungen anzugehen, ist eine stärkere Zusammenarbeit zwischen Forschenden, politischen Institutionen, FDM-Expert*innen, Datenschutzbeauftragten und Regulierungsbehörden notwendig. Nur durch eine interdisziplinäre (auch internationale) Zusammenarbeit kann verantwortungsvolle Forschung im digitalen Zeitalter sichergestellt werden.



Modulare standortübergreifende Schulungsangebote: Das FDM-Curriculum der Universitätsallianz Ruhr

Julia Stapels1, Tuba Güden-Silber2, Jessica Stegemann3

1TU Dortmund, Deutschland; 2Ruhr-Universität Bochum; 3Universität Duisburg-Essen

Im Zuge des Wandels der Wissenschaften nimmt das Forschungsdatenmanagement an Bedeutung zu und damit der Bedarf der Forschenden nach Schulungsangeboten. Um diesen Anforderungen bedarfsorientiert und ressourceneffizient zu begegnen, sind innovative Konzepte gefragt. Ein Beispiel dafür sind modulare standortübergreifende Schulungsangebote wie das FDM-Curriculum der Universitätsallianz (UA) Ruhr (Ruhr Universität Bochum, TU Dortmund, Universität Duisburg-Essen). Das FDM-Curriculum der UA Ruhr besteht aus einem Angebot an Grundlagenschulungen und ergänzenden Vertiefungsmodulen, die in der Regel online, und teilweise in Präsenz, an den verschiedenen Standorten angeboten werden. Die Vertiefungsmodule ermöglichen es den Forschenden, sich intensiver mit spezifischen Themenbereichen auseinanderzusetzen, in Hands-on-Workshops den Umgang mit Tools auszuprobieren und praxisnahe Tipps für ihren Forschungsalltag zu erhalten. Bei Teilnahme an einer Grundlagenschulung und zwei Vertiefungsveranstaltungen wird ein FDM-Badge ausgestellt. Mit diesem Nachweis wird ein zusätzlicher Anreiz zur Teilnahme an den Schulungen geschaffen. Das Curriculum steht allen Forschenden der UA Ruhr ab dem Wintersemester 2024/25 offen. Der standortübergreifende Ansatz ermöglicht es, eine breite, sowohl fachbereichsspezifische als auch interdisziplinäre Auswahl für Forschende mit ca. 20 Veranstaltungen pro Semester zu gestalten und dabei die Ressourcen der beteiligten Hochschulen schonend sowie die vorhandenen Expertisen zielgerichtet einzusetzen. Unsere Erfahrungen bei der Konzeption und Umsetzung des Curriculums sollen in diesem Beitrag weitergegeben werden.



Advancing the Federated Repositories in NFDI4Chem

Christian Bonatto Minella, Felix Bach

FIZ Karlsruhe, Deutschland

This poster provides an updated overview of the current state of the federation of repositories for chemistry data in NFDI4Chem and outlines the plans for the next funding period (5 years), focusing on new integrations, ongoing challenges, and the roadmap for future improvements. It highlights how NFDI4Chem is evolving to support the chemistry community by fostering an interoperable network of research data repositories.

Building on the achievements of the NFDI4Chem consortium within the NFDI framework, Task Area 3 (TA3 - repositories) continues its mission to develop a federated system of chemistry repositories for the efficient collection, management, and reuse of research data. During the first funding phase, we focused on strengthening the federation by implementing enhanced metadata standards, APIs, protocols, and community-relevant vocabularies and ontologies. This work involved continuous gap analyses, community engagement, and developing clear criteria to assess repository readiness. [1]

Our knowledge base article, “Choose a Repository”, helps researchers select the appropriate repository for their specific data type and needs.[2]

The current federation includes repositories such as:

- Chemotion (processes and analytics)

- RADAR4Chem (multidisciplinary)

- nmrXiv (NMR data)

- MassBank EU (mass spectral data)

- Suprabank (intermolecular and supramolecular interactions)

- STRENDA DB (enzymology data)

- NOMAD (simulation data)

- VibSpecDB (vibrational spectroscopy, pre-release version)

After the initial repository selection, efforts are now directed at consolidating and expanding the federation to include additional repositories that meet evolving NFDI4Chem standards. [1,3]

Close collaboration with repository teams has refined technical interoperability, with significant progress made in compliance with standards (such as MIChI), as many repositories have adapted accordingly.

TA3 has conducted evaluations to identify gaps in data type coverage and collaborated with repository leaders to address these issues through targeted adaptations or by onboarding new repositories. [3] Our goal is to ensure that all repositories in the federation meet the highest standards for data accessibility and usability, providing comprehensive coverage across all chemistry subdisciplines. This will enhance publishing and archiving facilities for researchers while improving the overall research experience.

In the next funding phase, we will continue systematic gap analysis to prioritise areas that need adaptations or new integrations. We are also assessing other relevant repositories and projects in chemistry for potential integration into NFDI4Chem. Repositories that meet the evolving needs of researchers and align with our criteria will be incorporated, expanding the available resources.

TA3 remains focused on maintaining and optimising the federated repository system established in the first phase. This includes improving user interfaces, metadata standards, and machine-actionable workflows in collaboration with other task areas. We aim to develop sustainable operational models while onboarding new repositories that meet our standards.

Additionally, we will continue to strengthen international collaboration through ongoing partnerships with FAIRsharing, including curating our collection of standards and repositories.[4] Tracking data reuse and citations will help evaluate our success in promoting the publication and reuse of high-quality, FAIR data within the chemistry community.

References

[1] https://zenodo.org/records/8199755

[2] https://knowledgebase.nfdi4chem.de/knowledge_base/docs/choose_repository/

[3] https://zenodo.org/records/8347993

[4] https://fairsharing.org/5027



V-FOR-WaTer: A Scalable Web Portal for Simplified Environmental Data Processing and Analysis

Safa Bouguezzi1, Elnaz Azmi1, Balazs Bischof2, Kaoutar Boussaoud1, Alexander Dolich2, Sibylle K. Hassler2,3, Mirko Mälicke2, Ahish Manoj Jaseetha2, Jörg Meyer1, Achim Streit1, Erwin Zehe2

1Scientific Computing Center (SCC); 2Institute for Water and Environment (IWU); 3Institute of Meteorology and Climate Research (IMK-ASF)

The increase of data in volume and complexity creates significant challenges for researchers in fields such as environmental science and hydrology. These challenges include difficulties in finding relevant data, pre-processing and storing datasets, and using analytical tools. The V-FOR-WaTer web portal provides a platform that integrates tools for data pre-processing and analysis that address these issues. The main strength of this portal is its emphasis on allowing researchers to access heterogeneous data sources, execute workflows, and use predefined analysis tools. It reduces the risk of errors that could happen by handling data manually and increases the reproducibility of analysis steps. This ensures that the portal provides consistent structured datasets, allowing the community to download and use data more efficiently.

The workflows and predefined analysis tools are contextualized to a catchment area, as commonly done in hydrology. Using V-FOR-WaTer, available datasources are harmonized on spatial and temporal scales, while maintaining extensive metadata. The architecture of the portal is scalable since each instance of the tools is deployed in separate containers, which are accessible through the GeoAPI processes of the OGC standard. Therefore, integrating new tools is feasible without altering the established workflows.

As environmental datasets are complex, V-FOR-WaTer is designed to handle this heterogeneity. The V-FOR-WaTer portal empowers scientists to run tools on a wider variety of supported datasets by simplifying data processing and reducing the cost of comparing or validating tools in different catchments.



Bridging the Troubled Waters of Peer Review with ing.grid: Towards Openness, Fairness and FAIRness

Kevin Tiernan Logan1,2, Michaela Leštáková1,2, Agnes Kleinhans1,2, Peter F. Pelz1,2

1Chair of Fluid Systems, TU Darmstadt; 2NFDI4ing

Peer review has become a dominant practice in scientific publishing [1]. It plays an essential role in the ability to trust scientific research [2]. However, the practice of peer review has been receiving more and more criticism, highlighting the challenges it faces. These include – but are not limited to – review and publication speed, finding (good) reviewers, review bias, and also fraudulent reviews.

The scientific community has actively reflected on these challenges and numerous suggestions for improvement have been proposed. Among the new developments aimed at improving the peer review process have been (i) publishing preprints and subsequent post-publication open peer review [1], (ii) providing formal recognition for reviewers [1] as well as (iii) requiring supplementary material in the form of FAIR research objects.

Some of these practices have already been implemented in one form or another by major publishers like PLOS or F1000Research, showing that the peer review landscape is changing. We would like to present our own experience with pushing peer review forward in the independent, scholarly-led journal ing.grid founded in 2021. ing.grid is a diamond OA journal for FAIR data management in engineering sciences that accepts manuscripts as well as software and data submissions. To improve the review process, we have implemented a post-publication open peer review process that aims for fast publication of the first version of the submission as a preprint and ultimately lead to fairer, high quality reviews. The principles of FAIRness and Open Science are reflected in the guidelines, as we require the supplementary material, especially the associated research objects like code and data, to be FAIRly available whenever relevant. Last but not least, we are aware of the need to provide formal recognition for reviewers, and so we provide review certificates for our reviewers and give them the option to submit their reviews under their name, optionally linked with their ORCID, or anonymously.

Our submission will show the mechanism of the open peer review process in ing.grid and reflect on how well it works in practice based on the existing publications. We will outline the problems that we are facing and how we are planning to address them in the near future.

References

[1] Central, BioMed (2017). What might peer review look like in 2030?. figshare. Journal contribution. https://doi.org/10.6084/m9.figshare.4884878.v1

[2] Preston, Andrew (2017): The Future of Peer Review. In: Scientific American, 09.08.2017. Available online under https://www.scientificamerican.com/blog/observations/the-future-of-peer-review/, last checked on 24.09.2024.



Automated Metadata Extraction Compliant with Machine-actionable Software Management Plans

Dhwani Solanki, Suhasini Venkatesh, Dietrich Rebholz-Schuhmann, Leyla Jael Castro

ZB MED Information Centre for Life Sciences, Deutschland

Research software and its corresponding FAIR for Research Software (FAIR4RS) principles are gaining more attention from research communities in different domains due to their role in the reproducibility of science. The Software Management Plans (SMPs) are a nice complement to the FAIR4RS principles and research software good practices. A machine-actionable layer providing semantically structured metadata describing the research software would make it easier for machines to process the data and would enable, for instance, the creation of Knowledge Graphs around research software metadata and related research artifacts (e.g., data processed by the software). To this end, we have created a metadata schema supporting machine-actionable SMPs (maSMPs) based on schema.org, and compatible with Bioschemas and Codemeta. To make it easier for researchers, we are also working on a tool to automatically extract such metadata from GitHub repositories. Here we introduce our approach towards maSMPs and present our preliminary work on automatic metadata extraction from GitHub API.



Lessons learned: der Aufbau einer verbundweiten Infrastruktur für die langfristige Verfügbarkeit von Daten

Alexandra Ullrich1, Robert Günther1, Martin Simon2

1Universitätsbibliothek Bayreuth, Deutschland; 2Universitätsbibliothek Regensburg, Deutschland

Die Archivierung von Forschungsdaten stellt einen wichtigen Bestandteil des Forschungsdatenlebenszyklus dar. Das Ziel ist die Gewährleistung einer langfristigen Nachnutzbarkeit von Daten für Wissenschaft und Forschung. Der Fokus darf dabei jedoch nicht allein auf der rein technischen Archivierung liegen. Entscheidend ist auch, dass verschiedene organisatorische Aspekte berücksichtigt werden, um sicherzustellen zu können, dass Daten für einen unbestimmten Zeitraum - mindestens aber zehn Jahre - auffindbar, lesbar und nachnutzbar bleiben. Dazu gehört beispielsweise eine Beschreibung der Daten mit ausreichenden Metadaten, um zu gewährleisten, dass Daten auch in Zukunft verstanden werden können. Darüber hinaus müssen aber auch grundlegende Faktoren wie die Sicherstellung einer dauerhaften Finanzierung für die Archivierung der Daten bedacht werden.

Um diese verschiedenen Voraussetzungen zu berücksichtigen, wird im Rahmen des Projekts "Digitale Langzeitverfügbarkeit im Bibliotheksverbund Bayern" derzeit eine verbundweite, zentral-dezentrale Infrastruktur (ZDI) aufgebaut, die eine Möglichkeit schafft, Daten langfristig verfügbar zu machen. Die Betreuung des Archivsystems, sowie der dafür notwendigen Speicherstrukturen wird in diesem Konzept von der Verbundzentrale übernommen. Die Bibliotheken der bayerischen Universitäten und Fachhochschulen übernehmen die Rolle der dezentralen Partner und damit verbunden unter anderem die Betreuung und Beratung der Forschenden, sowie die Vorbereitung der Daten. Der Aufbau einer derartigen verbundweiten Infrastruktur ist mit vielfältigen Herausforderungen verbunden. Denn bei der Konzeption einer solchen Struktur müssen unterschiedliche Voraussetzungen und Anforderungen an den Partnerinstitutionen berücksichtigt werden. So sind beispielsweise an Universitäten in der Regel andere technische Voraussetzungen, personelle Kapazitäten und Strukturen vorhanden als an Fachhochschulen. Aber auch innerhalb einer Institution können sich verschiedene Anforderungen ergeben. So können Forschende in ihrer Rolle als Datengebende mitunter andere Anforderungen oder Interessen bei der Archivierung von Daten haben als Bibliotheken oder deren Institutionen. Für Forschende ist in der Regel eine schnelle und unkomplizierte Veröffentlichung und Sicherung von Daten wichtig. Für Bibliotheken hingegen ist eine ausführliche Beschreibung der Daten mit Metadaten sowie die Verfügbarkeit der Daten jenseits der fördermittelseitigen Vorgaben von zentraler Bedeutung.

Das Poster gibt einen kurzen Überblick über das Projekt und das damit verbundene Konzept einer zentral-dezentralen Infrastruktur. Es veranschaulicht die verschiedenen Herausforderungen beim Aufbau der verbundweiten Infrastruktur und präsentiert die daraus gewonnenen Erkenntnisse sowie mögliche Lösungsansätze.



Wissenschaftliche Reviewprozesse auf Daten- und Software: das Diamond Overlay Journal JoDaKISS

Sibylle Hermann1, Holger Steeb1, Bernd Flemisch1, Dominik Göddeke1, Jeroen Hanselmann2, Jan Heiland3, Melanie Herschel4, Timo Koch5, Jan Range1

1Universität Stuttgart, Deutschland; 2Rheinland-Pfälzische Technische Universität Kaiserslautern-Landau, Deutschland; 3Max Planck Institute for Dynamics of Complex Technical Systems Magdeburg, Deutschland; 4Technische Universität Nanyang, Singapur; 5Universität Oslo, Norwegen

Mit diesem Poster stellen wir ein neues Diamond Overlay-Journal zur wissenschaftlichen Publikation von Datensätzen aus Experimenten und Simulationen sowie Simulationssoftware vor. Unsere bisherigen Bemühungen um das Datenmanagement, insbesondere durch das DaRUS-Repositorium, haben gezeigt, dass kuratierte Datensätze und Software von der wissenschaftlichen Gemeinschaft gut angenommen und für weitere wissenschaftliche Untersuchungen intensiv genutzt werden. Trotz eines etablierten Prozesses zur formalen Überprüfung einer Datensatz- und Softwarebeschreibung fehlt jedoch noch ein fundierter Überprüfungsprozess der wissenschaftlichen Inhalte. Mit dem Overlay-Journal JoDaKISS (https://jodakiss.episciences.org/) möchten wir diese Lücke schließen, indem wir Experten in den jeweiligen wissenschaftlichen Bereichen mit der Überprüfung beauftragen. Dieser Ansatz fördert eine wissenschaftliche Diskussion und Bewertung, die unabhängig von kommerziellen Interessen klassischer Verlage und nach den FAIR-Prinzipien verfügbar ist.

Die Simulationswissenschaft, ein Forschungsfeld, das eng mit Mathematik, Informatik, Naturwissenschaften und Ingenieurwesen verknüpft ist, profitiert besonders von diesem neuen Journal. Wir konzentrieren uns auf alle Aspekte von „Daten“ im Zusammenhang mit wissenschaftlichen Simulationen, einschließlich Quellcode von Simulationssoftware, Eingabedaten und numerischen Ergebnissen. Ein besonderes Augenmerk liegt auf der Überprüfung der Einhaltung von Best Practices und Standards sowie der wissenschaftlichen Originalität der Daten.

Unser vorgeschlagener Publikationsworkflow integriert automatisierte Überprüfungsprozesse und gewährleistet die Betriebssystem- und Plattformunabhängigkeit von Software- und Datencontainern. Durch die Implementierung eines wissenschaftlichen Überprüfungsprozesses durch Fachexperten stellen wir die höchste wissenschaftliche Qualität der Publikationen sicher. Das Poster beschreibt die Motivation, Methodik und den erwarteten Nutzen dieses neuen Overlay-Journals, das als ein wichtiger Schritt in Richtung eines unabhängigen, qualitativ hochwertigen Daten- und Softwaremanagements in der wissenschaftlichen Gemeinschaft gesehen wird.



 
Impressum · Kontaktadresse:
Datenschutzerklärung · Veranstaltung: E-Science-Tage 2025
Conference Software: ConfTool Pro 2.8.105+CC
© 2001–2025 by Dr. H. Weinreich, Hamburg, Germany