维基百科现已提供 JSON 格式内容快照数据集:机器可读,减少主站爬虫流量 - 果核剥壳

4 月 18 日消息,维基百科运营方维基媒体基金会下辖 Wikimedia Enterprise 当地时间 16 日宣布其在 Kaggle 平台上发布了 JSON 格式、英语和法语版本的测试版维基百科结构化内容快照数据集。

该数据集可用于 AI / ML 建模、基准测试、对齐、微调和探索性分析。其在设计时考虑了机器学习工作流程,简化了机器访问内容的流程,使用者无需对维基百科主站原始内容进行抓取和或解析。

这也意味着 AI 爬虫可直接利用现成的数据集,减少了机器人在主站爬取带来的流量开支,有利于维基百科的可持续运营。

维基百科现已提供 JSON 格式内容快照数据集:机器可读,减少主站爬虫流量

如果您喜欢本站,点击这儿不花一分钱捐赠本站

这些信息可能会帮助到你: 下载帮助 | 报毒说明 | 进站必看

修改版本安卓软件,加群提示为修改者自留,非本站信息,注意鉴别

(1)
上一篇 2025年4月18日 上午10:53
下一篇 2025年4月18日 上午11:13

相关推荐

发表回复

评论问题之前,点击我,能帮你解决大部分问题

您的电子邮箱地址不会被公开。 必填项已用*标注

评论列表(1条)

  • 长安码徒
    长安码徒 2025年4月22日 下午2:03
    Google Chrome 134.0.0.0 Google Chrome 134.0.0.0 Windows 10 x64 Edition Windows 10 x64 Edition

    这是双赢啊。百家号 CSDN闻闻你们自己的灵魂吧。