OpenAI推出了GPTBot:一个旨在自动从整个互联网上抓取数据的网络爬虫

AI智能对话 10个月前
189 0 0

OpenAI为了回应关于在公共网站上收集数据所引发的隐私和知识产权问题,推出了一个名为GPTBot的新网络爬虫工具。这项技术旨在透明地收集公共网络数据,并将其用于训练他们的AI模型,所有这些都在OpenAI的旗帜下进行。

GPTBot的用户代理旨在收集有助于改进未来AI模型的数据。在此过程中,GPTBot将忽略需要付费的来源。然而,需要注意的是,一些收集到的数据可能无意中包含可识别的信息或文本,违反了OpenAI的政策。

OpenAI意识到需要为网站管理员提供有关GPTBot平台访问的选项。授予访问权限被视为在改进AI模型的准确性方面进行合作,最终增强其功能并加强安全措施。相反,OpenAI还制定了一套程序,供那些不希望将其网站包括在GPTBot数据收集工作中的人使用。这些指导包括将GPTBot指令纳入网站的robots.txt文件中,并配置其对特定内容段的访问权限。

为了增加透明度,OpenAI发布了与GPTBot活动相关的IP地址范围。这一发布不仅有助于识别机器人的行动,还提供了必要时阻止其访问的手段。

这些透明度举措凸显了OpenAI对AI模型运营商面临的批评的回应,这些运营商被指控在未经明确同意的情况下收集数据。普遍的观点是,该行业的做法可能侵犯了知识产权和隐私保护,因为它们在未经适当授权的情况下从公共网站中收集内容。这反过来促使人们呼吁AI实体提供更全面的选择加入和退出机制,让网站所有者和数据保管人能够对其内容的使用发表意见。

在相关发展中,众筹平台Kickstarter最近引入了与AI项目相关的规定。其中一个重要要求是,利用外部数据源的项目必须提供适当的许可协议和从源网站获得的同意的证据。未能履行这一义务的项目将无资格在Kickstarter上列出。

在接下来的一周里,预计OpenAI将进行一次重大改革,即将基础的ChatGPT层转换为GPT-4。此外,代码解释器插件的改进将包括支持上传多个文件到提示中,体现了OpenAI对持续改进和创新的承诺。

©版权声明

相关文章