Знаете ли вы о том, что представляет собой разметка данных и почему она важна для развития науки? Разметка, или маркировка, предполагает подписание или объяснение определенной «сырой» информации, чтобы в дальнейшем ИИ имел возможность на ней учиться. К примеру, врач отмечает на снимке, где именно находится опухоль, подлежащая удалению. Ученый-лингвист показывает, что слово «ручка» в данном случае употребления является именно ручкой для письма, а не дверной ручкой или, скажем, ручкой ребенка. Без такой разметки ИИ не понимает, что он видит или читает, поэтому качественная маркировка — основа обучения любых современных нейросетей.
Решение для сложных исследовательских данных
Centaur – сервис, предназначенный для маркировки исследовательских данных, в котором задействованы целые сети ученых и профессионалов из различных областей. Платформа выросла из исследований в MIT Center for Collective Intelligence – центра коллективного интеллекта Массачусетского технологического института (США), в котором долго изучали, каким образом люди и компьютеры могут работать вместе эффективнее, чем по отдельности.
Основатель проекта Эрик Дюэйм проводил эксперименты по комбинированию мнений медицинских специалистов и AI-алгоритмов для оценки кожных поражений на предмет смертельно опасных болезней. Оказалось, что ключ в доверии к мнениям лежит в метриках производительности, а не в опыте и регалиях ученых; а также в понимании, каким образом могут дополнять друг друга мнения различных людей и алгоритмов. Данная методология и легла в основу платформы.
Название отсылает к центавр (кентавр)-шахматам – стилю игры, в котором человек сотрудничает с AI для оптимальных решений. Платформа Centaur комбинирует человеческую оценку глобальной сети экспертов со сложными системами измерения качества и AI. Результатом выступает коллективный интеллект, который, по заявлениям компании, дает более высокое качество разметки данных для разработки AI-моделей. Платформа представляется разработчиками в качестве решения для тех ситуаций, в которых внутренняя маркировка исследовательских данных слишком медленная, и при этом обычный краудсорсинг не обеспечивает нужного уровня экспертизы.
Как устроена система
Centaur предоставляет пользователям доступ к масштабной сети, в которой уже участвуют тысячи профессионалов своего дела, ученых, а также и начинающих студентов; в этом взаимодействии и осуществляется разметка данных. Платформа позволяет увидеть инсайты на уровне отдельных разметчиков; можно видеть, кто именно работает с информацией и насколько качественно это делает. Платформа не использует фиксированные команды разметчиков; вместо этого каждая задача распределяется по сети специалистов, квалификация которых соответствует требованиям проекта.
Контроль качества работы построен на измерении производительности каждого разметчика. Можно задать порог качества и включать в финальный датасет только мнения тех, кто соответствует установленному пользователем порогу. Система стимулирует производительность через небольшие порции работы и мобильные соревнования — разметчики получают оплату только за качественную работу, поэтому замотивированы усердно работать над каждым кейсом. Для каждого исследовательского случая генерируется несколько независимых оценок, а для неоднозначных кейсов их количество увеличивается.
Примеры использования и результаты
На сайте приведены кейсы клиентов; показательным, на наш взгляд, является случай компании SciBite, входящей в Elsevier (знаменитого издательства научных статей). Нейросеть нашла около 5000 потенциальных новых синонимов для медицинской терминологии, и сделано это было именно благодаря аналитике терминов, на ручную обработку которых ушли бы месяцы.
Платформа безопасна в отношении обработки чувствительных данных, а это в особенности существенно для медицины, финансов и прочих областей. Компания Centaur утверждает, что использует ведущие мировые практики безопасности и конфиденциальности, хотя конкретные сертификации и стандарты на сайте не представлены.
Выводы
Таким образом, платформа Centaur выглядит интересной попыткой решить давнюю проблему современной науки и индустрии ИИ – нехватку качественно размеченных данных и зависимость от медленной скорости внутренних процессов.
Разумеется, данный проект в большей степени ориентирован на зарубежную науку. Однако он вполне может заинтересовать и тех, кто работает с исследовательскими данными на иностранных языках. Также, как считают эксперты Creator Project, платформа может служить в качестве примера того, каким образом выстраиваются процессы разметки информации для обучения ИИ.
По сути, Centaur формирует гибридный формат взаимодействия человека и нейросетей, в котором каждый приносит свою часть компетенции: человек – свою экспертность, машина – контроль качества и организацию большого процесса. Насколько эта модель станет стандартом индустрии, покажет время, но уже сейчас она демонстрирует, что «кентавр-подход» в разметке способен закрывать задачи, которые традиционные инструменты решают слишком долго или недостаточно точно.
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Разбор и оценка ИИ-моделей и проектов, внимательно отслеживает развитие технологий и тенденции в области искусственного интеллекта. Аналитические обзоры помогают понять принципы работы ИИ, их возможности и ограничения, дает рекомендации по использованию инновационных решений в различных сферах. Делает сложные темы доступными для широкой аудитории.
Социальные сети автора:










Centaur AI может стать ценным инструментом для проектов, требующих высококачественной разметки данных. Несмотря на потенциально высокую стоимость и более длительные сроки выполнения работ, преимущества профессионального подхода могут перевесить эти недостатки. Тем не менее важно тщательно взвесить все «за» и «против» и убедиться, что платформа соответствует вашим конкретным требованиям и бюджету.
Centaur AI решает ключевую проблему: качество данных. Сочетание платформы и экспертов гарантирует высокоточную разметку. Это ускорит обучение ИИ-моделей в сложных отраслях.