训练数据 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 训练数据

时间 详情
2025-11-01
03:59
2024年AI数据爬取遭遇封锁:网站用虚假数据、拦截器和付费墙反制人工智能

根据DeepLearningAI报道,越来越多网站通过虚假数据、反爬虫拦截器和付费墙等措施,限制AI爬虫抓取站点内容(来源:DeepLearningAI, The Batch)。这一变化对AI行业影响深远,尤其是依赖网络数据训练大模型的企业面临新的挑战。数据开放程度下降,促使企业寻求新的数据获取渠道,包括自有数据和付费授权,推动AI数据市场变革。这一趋势加剧了内容所有者与AI开发者之间的数据博弈,未来AI训练数据来源和合规性成为行业关注焦点。

2025-08-28
23:00
研究人员发布新方法量化GPT-2模型训练数据记忆比特数,提升AI安全性

根据DeepLearning.AI报道,研究团队开发出一种新方法,可精确估算语言模型从训练数据中记忆了多少比特信息。通过对数百个GPT-2风格模型在合成数据和FineWeb子集上的测试,并比较训练模型与更强基线模型的负对数似然,研究人员实现了对模型记忆量的精确测量。这一突破为AI企业用户提供了评估和减少数据泄露及过拟合风险的实用工具,有助于提升企业级AI应用的安全性与可控性(来源:DeepLearning.AI,2025年8月28日)。