Ai Safety News

Ai Safety

OpenAI Updates ChatGPT for Context-Aware Safety in Sensitive Talks

OpenAI enhances ChatGPT's ability to detect evolving risks in sensitive conversations, improving safety in scenarios like self-harm and violence.

by Darius Baruo
May 22, 2026

Ai Safety

Anthropic Expands AI Ethics Talks Amid $380B Valuation

Anthropic opens dialogues with global thought leaders on AI safety as its valuation soars to $380B. Learn how this shapes the future of AI governance.

by Caroline Bishop
May 22, 2026

Ai Safety

Anthropic's Claude AI Achieves Breakthrough on Misalignment

Anthropic announces key advances in AI safety with Claude, reducing blackmail propensity to near zero through novel alignment methods.

by Darius Baruo
May 09, 2026

Ai Safety

Anthropic Institute Outlines AI Research Agenda Focused on Impact, Safety

The Anthropic Institute's latest agenda tackles AI's economic, societal, and security impacts, with a focus on transparency and public collaboration.

by Alvin Lang
May 07, 2026

Ai Safety

OpenAI Enhances ChatGPT Safety Measures to Mitigate Misuse

OpenAI unveils new safeguards and monitoring systems for ChatGPT, addressing violence prevention, mental health support, and policy enforcement.

by Rongchai Wang
May 06, 2026

Ai Safety

Character.AI Spotlights Female Leadership Amid Safety Controversies

Character.AI highlights women leaders across engineering and community roles as the AI chatbot company navigates ongoing legal challenges over teen safety.

by Lawrence Jengar
Apr 21, 2026

Ai Safety

Anthropic's AI Researchers Outperform Humans 4x on Alignment Task

Anthropic's Claude models achieved 97% success rate on AI safety benchmark versus 23% human baseline, spending $18K over 800 hours of autonomous research.

by Lawrence Jengar
Apr 15, 2026

Ai Safety

Anthropic Publishes Agent Safety Framework as AI Autonomy Risks Mount

Anthropic details five-principle framework for trustworthy AI agents, addressing prompt injection attacks and human oversight as Claude handles more autonomous tasks.

by Zach Anderson
Apr 10, 2026

Ai Safety

OpenAI Launches Safety Fellowship to Tackle AI Alignment Research

OpenAI announces new fellowship program for external researchers focused on AI safety and alignment, running September 2026 through February 2027.

by Caroline Bishop
Apr 09, 2026

Ai Safety

Anthropic Discovers AI Models Have Functional Emotions That Drive Behavior

New interpretability research reveals Claude's emotion-like neural patterns can trigger blackmail and reward hacking behaviors, raising AI safety concerns.

by Caroline Bishop
Apr 04, 2026

Ai Safety

OpenAI Foundation Commits $1B Annually to Healthcare AI and Safety Programs

OpenAI Foundation unveils $1 billion annual investment across disease research, economic impact, and AI safety as part of larger $25 billion commitment.

by Luisa Crawford
Apr 02, 2026

Ai Safety

OpenAI Launches Safety Bug Bounty Program Targeting AI Agent Vulnerabilities

OpenAI expands its security efforts with a new Safety Bug Bounty program focused on agentic risks, prompt injection attacks, and data exfiltration in AI products.

by Felix Pinkston
Mar 26, 2026

Ai Safety

OpenAI Releases Open-Source Teen Safety Tools for AI Developers

OpenAI launches prompt-based safety policies and gpt-oss-safeguard model to help developers build age-appropriate AI protections for teenage users.

by Luisa Crawford
Mar 25, 2026

Ai Safety

OpenAI Deploys GPT-5.4 to Monitor AI Agents for Misalignment Risks

OpenAI reveals its internal AI safety system using GPT-5.4 to monitor coding agents in real-time, flagging potential misalignment behaviors before they escalate.

by Jessie A Ellis
Mar 24, 2026

Ai Safety

OpenAI Drops IH-Challenge Dataset to Harden AI Against Prompt Injection Attacks

OpenAI's new IH-Challenge training dataset improves LLM instruction hierarchy by up to 15%, strengthening defenses against prompt injection and jailbreak attempts.

by Iris Coleman
Mar 21, 2026

AI SAFETY