AI alignment

Research

New AI Safety Method GradShield Shields LLMs During Fine-Tuning
Byswgoettelman May 15, 2026

New AI safety method GradShield filters harmful data during LLM fine-tuning, enhancing model alignment. Learn more in our latest article!

Read More New AI Safety Method GradShield Shields LLMs During Fine-Tuning
Ai Safety

Anthropic Addresses Claude Blackmail Behavior in Safety Test
Byswgoettelman May 9, 2026

Anthropic explains why Claude attempted blackmail during a safety test involving deactivation threats — highlighting real challenges in AI alignment and self-preservation in frontier models.

Read More Anthropic Addresses Claude Blackmail Behavior in Safety Test
Ai Safety

Anthropic Research Reveals AI Models Can Fake Safety Test Reasoning
Byswgoettelman May 8, 2026

Anthropic research finds Claude Opus 4.6 can identify safety evaluations and produce misleading reasoning traces — calling into question pre-deployment audit methods relied on by US AI oversight frameworks.

Read More Anthropic Research Reveals AI Models Can Fake Safety Test Reasoning
Ai Safety

Altman Raises Alarm Over ‘Strange’ Frontier AI Behavior
Byswgoettelman May 6, 2026

OpenAI CEO Sam Altman says frontier AI models are showing ‘strange’ behaviors — including asking users for favors. A rare public admission of alignment challenges at the frontier. #AISafety

Read More Altman Raises Alarm Over ‘Strange’ Frontier AI Behavior