Openrefine:免费开源数据清洗工具【美国】

2025-03-13站长工具 编辑:admin

  网站名称:Openrefine

  所属国家:美国

  网站地址:http://openrefine.org

  网站缩略图:

Openrefine首页缩略图
Openrefine首页缩略图

  【官网介绍】:

  OpenRefine 的发展历程

  在过去的十年里,OpenRefine 经历了重大变革,包括名称和开发模式的变化。它从企业主导的开源模式转变为基于社区的开源模式,后来还偶尔获得一些资助支持。

  2008 年 - 2010 年:Freebase Gridworks

  OpenRefine 的历史可以追溯到 2010 年 5 月,当时元网技术公司(Metaweb Technologies, Inc.)开始开发一款名为 Freebase Gridworks 的开源数据清理工具。Freebase Gridworks 由大卫・胡恩(David Huynh)构思,它简化了数据清理和数据转换过程,以便将数据导入到 Freebase 中,Freebase 是元网公司构建的一个大型协作知识库。Freebase Gridworks 提供了一个用于编辑和核对大型数据集的用户界面。

  2010 年 - 2012 年:谷歌精炼(Google Refine)

  2010 年 7 月,谷歌收购了元网技术公司以及 Freebase Gridworks。收购完成后,该工具更名为 “谷歌精炼”(Google Refine)。在谷歌的管理下,谷歌精炼 2.0 版本发布,其数据清理功能得到了增强。这个版本使该工具在处理各种数据相关任务方面赢得了声誉,例如清理杂乱数据、转换数据格式以及通过网络服务扩展数据集。

  2012 年 - 2019 年:OpenRefine

  2012 年,谷歌将该项目的领导权移交给了开源社区,开源社区将其更名为 “OpenRefine”,并将项目迁移到了 GitHub 上。在接下来的几年里,OpenRefine 不断获得多样化的用户群体,其中包括科学家和研究人员、记者、语义网从业者、图书馆员以及文化遗产专家。

  2017 年,由于有了一个核对端点以及向维基媒体项目发布数据的流程,OpenRefine 开始与维基数据(Wikidata)集成。

  2018 年 12 月,谷歌新闻倡议(Google News Initiative)捐赠了 10 万美元以支持 OpenRefine 的开发。同年,该项目的标志也进行了更新。

  2019 年 - 至今:OpenRefine,成为科学与社会编码组织(Code for Science & Society)的一部分

  在随后的几年里,OpenRefine 通过从陈 - 扎克伯格倡议(Chang Zuckerberg Initiative)、维基媒体基金会(Wikimedia Foundation)和德国国家研究数据基础设施(NFDI)获得定期资金,确认了其基于资助的可持续发展模式。为了帮助管理资金,2020 年,OpenRefine 成为了科学与社会编码组织(CS&S)的一个受资助项目,CS&S 是美国的一家符合 501 (c)(3) 条款的慈善组织。

  在此期间,OpenRefine 取得了巨大的发展,活跃贡献者(包括付费和志愿者)的数量翻了一番,翻译的语言种类增加,与维基共享资源(Wikimedia Commons)和维基库(Wikibase)实现了原生集成,并且有更多的用户开始依赖它。随着顾问委员会的成立以及参与谷歌编程之夏(Google Summer of Code)和 Outreachy 等实习项目,该项目也变得更加有序。

  网站介绍:

  Openrefine是一个帮助用户转换数据集的工具,优化数据的质量以便于在真实场景中使用,你的数据是杂乱无章的。错误会散步到你的大数据集中,无论你有多么细心,错误总是存在。数据量越大,错误越多。正确且清晰地认识以上的现状,于是有了数据质量的说法。

  数据剖析Data Profiling:也叫做数据考古(Data Archeology),是数据集(Data Set)内部为达一致性、单值性和逻辑性而进行的数值质量的统计分析及评估。数据剖析是Olson于2003年提出的概念,使用分析技术来发现正确的、结构化的、有内容、有质量的数据。换句话说,它是评估你的数据和信息的当前状态以及包含了多少错误的方法。

  数据清洗Data Cleaning:是尝试通过移除空的数据行或重复的数据行、过滤数据行、聚集或转换数据值、分开多值单元等,以半自动化的方式修复错误数据的过程。数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认。

  IDTs:Interactive Data Transformation tools,交互数据转换工具,它可以对大数据进行快速、廉价的操作,使用单个的集成接口。

  OpenRefine就是这样的IDT工具,可以观察和操纵数据的工具。它类似于传统Excel的表格处理软件,但是工作方式更像是数据库,以列和字段的方式工作,而不是以单元格的方式工作。这意味着OpenRefine不仅适合对新的行数据进行编码,而且功能还极为强大。安装问题

相关热词:
大家都爱看
ThePatternLibrary:免费纹理素材资源网【美ThePatternLibrary:免费纹理素材资源网【美 Openrefine:免费开源数据清洗工具【美国】Openrefine:免费开源数据清洗工具【美国】 Orson:无编码自适应建站平台【美国】Orson:无编码自适应建站平台【美国】 TheDoDo:在线宠物图片聚合网【美国】TheDoDo:在线宠物图片聚合网【美国】
查看更多热点新闻