AI 快讯列表关于 训练数据
| 时间 | 详情 |
|---|---|
|
2025-11-01 03:59 |
2024年AI数据爬取遭遇封锁:网站用虚假数据、拦截器和付费墙反制人工智能
根据DeepLearningAI报道,越来越多网站通过虚假数据、反爬虫拦截器和付费墙等措施,限制AI爬虫抓取站点内容(来源:DeepLearningAI, The Batch)。这一变化对AI行业影响深远,尤其是依赖网络数据训练大模型的企业面临新的挑战。数据开放程度下降,促使企业寻求新的数据获取渠道,包括自有数据和付费授权,推动AI数据市场变革。这一趋势加剧了内容所有者与AI开发者之间的数据博弈,未来AI训练数据来源和合规性成为行业关注焦点。 |
|
2025-08-28 23:00 |
研究人员发布新方法量化GPT-2模型训练数据记忆比特数,提升AI安全性
根据DeepLearning.AI报道,研究团队开发出一种新方法,可精确估算语言模型从训练数据中记忆了多少比特信息。通过对数百个GPT-2风格模型在合成数据和FineWeb子集上的测试,并比较训练模型与更强基线模型的负对数似然,研究人员实现了对模型记忆量的精确测量。这一突破为AI企业用户提供了评估和减少数据泄露及过拟合风险的实用工具,有助于提升企业级AI应用的安全性与可控性(来源:DeepLearning.AI,2025年8月28日)。 |