Fylo›ARCADIA›Graph

Data leakage and training data bias impact model performance — ARCADIA Knowledge Graph

InferenceChain·arcadia

Data leakage and training data bias impact model performance

This inference chain explains how naive split strategies, sequence filtering stringency, and validation set similarity modulate data leakage, which boosts model performance, and how biases in training data structure and curation couple with species abundance to generate performance biases in protein language models.

Confidence

90%

◑partialactivecomplexity: mid

Reasoning Steps (2)

Sequence similarity filtering reduces data leakageStep 1

Training data structure and curation biases influence model performance biasesStep 2

Source

Synthesis for current paper

Connections (6)

Naive split increases data leakageAssociation

Filtering stringency affects data leakageAssociation

Higher validation set similarity increases data leakageAssociation

Training data structure influences performance biasAssociation

User-level data curation bias affects performanceAssociation

Species abundance causes model biasAssociation