Interface RedTeamAgentConfig

interface RedTeamAgentConfig {
    attackPlan?: string;
    detectRefusals?: boolean;
    injectionProbability?: number;
    maxBacktracks?: number;
    maxTokens?: number;
    metapromptModel?: LanguageModel;
    metapromptTemperature?: number;
    metapromptTemplate?: string;
    model?: LanguageModel;
    scoreResponses?: boolean;
    strategy: RedTeamStrategy;
    successConfirmTurns?: number;
    successScore?: number;
    target: string;
    techniques?: AttackTechnique[];
    temperature?: number;
    totalTurns?: number;
}

Index

Properties

attackPlan? detectRefusals? injectionProbability? maxBacktracks? maxTokens? metapromptModel? metapromptTemperature? metapromptTemplate? model? scoreResponses? strategy successConfirmTurns? successScore? target techniques? temperature? totalTurns?

Properties

`Optional`attackPlan

attackPlan?: string

`Optional`detectRefusals

detectRefusals?: boolean

Use pattern-based refusal detection to skip LLM scorer on obvious refusals. Default true.

`Optional`injectionProbability

injectionProbability?: number

Probability (0.0-1.0) of applying a random encoding technique per turn. Default 0.0 (off).

`Optional`maxBacktracks

maxBacktracks?: number

Maximum number of hard-refusal backtracks allowed per run. When omitted, scales with totalTurns as max(1, floor(totalTurns / 3)) — so a 30-turn run gets 10, a 5-turn run gets 1. Each backtrack consumes a turn from the budget. Set explicitly to override.

`Optional`maxTokens

maxTokens?: number

`Optional`metapromptModel

metapromptModel?: LanguageModel

`Optional`metapromptTemperature

metapromptTemperature?: number

Separate temperature for metaprompt/scoring calls. Defaults to temperature.

`Optional`metapromptTemplate

metapromptTemplate?: string

`Optional`model

model?: LanguageModel

`Optional`scoreResponses

scoreResponses?: boolean

Score target responses each turn to feed back into the attacker. Default true.

strategy

strategy: RedTeamStrategy

`Optional`successConfirmTurns

successConfirmTurns?: number

Consecutive turns >= threshold before triggering early exit. Default 2.

`Optional`successScore

successScore?: number

Score threshold (0-10) for early exit. Default 9. Set to undefined to disable.

target

target: string

`Optional`techniques

techniques?: AttackTechnique[]

List of AttackTechnique instances to sample from. Defaults to all built-ins.

`Optional`temperature

temperature?: number

`Optional`totalTurns

totalTurns?: number

Interface RedTeamAgentConfig

Index

Properties

Properties

`Optional`attackPlan

`Optional`detectRefusals

`Optional`injectionProbability

`Optional`maxBacktracks

`Optional`maxTokens

`Optional`metapromptModel

`Optional`metapromptTemperature

`Optional`metapromptTemplate

`Optional`model

`Optional`scoreResponses

strategy

`Optional`successConfirmTurns

`Optional`successScore

target

`Optional`techniques

`Optional`temperature

`Optional`totalTurns

Settings

On This Page

Interface RedTeamAgentConfig

Index

Properties

Properties

OptionalattackPlan

OptionaldetectRefusals

OptionalinjectionProbability

OptionalmaxBacktracks

OptionalmaxTokens

OptionalmetapromptModel

OptionalmetapromptTemperature

OptionalmetapromptTemplate

Optionalmodel

OptionalscoreResponses

strategy

OptionalsuccessConfirmTurns

OptionalsuccessScore

target

Optionaltechniques

Optionaltemperature

OptionaltotalTurns

Settings

On This Page

`Optional`attackPlan

`Optional`detectRefusals

`Optional`injectionProbability

`Optional`maxBacktracks

`Optional`maxTokens

`Optional`metapromptModel

`Optional`metapromptTemperature

`Optional`metapromptTemplate

`Optional`model

`Optional`scoreResponses

`Optional`successConfirmTurns

`Optional`successScore

`Optional`techniques

`Optional`temperature

`Optional`totalTurns