OpenRefine 3.9.3

OpenRefine


Очередная бесплатная программа для ознакомления. Данные редко бывают аккуратными, таблицы растут как сорняк, названия колонок пляшут, дубли плодятся и это частая история у многих знакомых в офисах. Была задача найти метод укротить хаос без громоздких скриптов и тяжеловесных BI‑комбайнов, и вот наткнулся на OpenRefine, пару тестов на кривых csv прошли успешно.

Интерфейс открывается в браузере, отдельный клиент не нужен, запускаю jar, поднимается локальный сервер. Подтягивает csv, tsv, json, xml, глотает сотни тысяч строк, память ест умеренно. Нравится умное кластерирование, пару кликов и дубли слипаются, типографические ошибки ловятся. Можно прописать свой API, склеить локальные справочники с открытыми источниками, через reconciliation получить устойчивые идентификаторы. Формулы похожи на табличные, учить синтаксис легко, сложные сценарии уже лежат в разделе рецептов, импортируешь и работаешь.

Замеченные минусы: русская локализация неполная, кое‑где команды остаются на английском, при загрузке огромных файлов браузер подтормаживает, помогает ручная настройка памяти JVM. С портала тянется готовая сборка напрямую, не надо лазить по гиту, а кто хочет может скачать у нас по ссылке ниже.

Тестировал короткое время, все удобно, потому что логика проста, операции можно откатить, история шагов сохраняется вместе с проектом. Итак, давайте делать выводы, а он просто, софт OpenRefine реально экономит часы рутины, подойдет наверное в первую очередь аналитикам, а уже потом дата инженерам и тем, кто устал чистить таблицы вручную, софт супер, оставляю в наборе.

Размер: 176 MB
ОС: Windows 7+
Скачать  бесплатно


Вчера, 05:25