Hyperparameter optimization

Hyperparameters (non-comprehensive):
- Data
  - Mixture proportions
- Model
  - Size
  - Shape
- Optimization
  - Number of steps
  - Batch size
  - Learning rate schedule
  - Optimizer hyperparameters
  - Weight decay
  - Max grad norm

Potential optimization targets:
- Held-out language modeling loss
- Downstream task performance (validation set)

Potential approaches:
- Guess suitable HP from literature + heuristics
- Search at large scale
- Search at small scale and extrapolate

Assumptions:
- Finite data, epoching.
- Context size has already been fixed and is small (256-512bp). All examples have the exact same length.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Hyperparameter optimization #80

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Hyperparameter optimization #80

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions