...

Centaur AI. Платформа для разметки данных с экспертной сетью

Знаете ли вы о том, что представляет собой разметка данных и почему она важна для развития науки? Разметка, или маркировка, предполагает подписание или объяснение определенной «сырой» информации, чтобы в дальнейшем ИИ имел возможность на ней учиться. К примеру, врач отмечает на снимке, где именно находится опухоль, подлежащая удалению. Ученый-лингвист показывает, что слово «ручка» в данном случае употребления является именно ручкой для письма, а не дверной ручкой или, скажем, ручкой ребенка. Без такой разметки ИИ не понимает, что он видит или читает, поэтому качественная маркировка — основа обучения любых современных нейросетей.

Решение для сложных исследовательских данных

Centaur – сервис, предназначенный для маркировки исследовательских данных, в котором задействованы целые сети ученых и профессионалов из различных областей. Платформа выросла из исследований в MIT Center for Collective Intelligence – центра коллективного интеллекта Массачусетского технологического института (США), в котором долго изучали, каким образом люди и компьютеры могут работать вместе эффективнее, чем по отдельности.

Основатель проекта Эрик Дюэйм проводил эксперименты по комбинированию мнений медицинских специалистов и AI-алгоритмов для оценки кожных поражений на предмет смертельно опасных болезней. Оказалось, что ключ в доверии к мнениям лежит в метриках производительности, а не в опыте и регалиях ученых; а также в понимании, каким образом могут дополнять друг друга мнения различных людей и алгоритмов. Данная методология и легла в основу платформы.

Название отсылает к центавр (кентавр)-шахматам – стилю игры, в котором человек сотрудничает с AI для оптимальных решений. Платформа Centaur комбинирует человеческую оценку глобальной сети экспертов со сложными системами измерения качества и AI. Результатом выступает коллективный интеллект, который, по заявлениям компании, дает более высокое качество разметки данных для разработки AI-моделей. Платформа представляется разработчиками в качестве решения для тех ситуаций, в которых внутренняя маркировка исследовательских данных слишком медленная, и при этом обычный краудсорсинг не обеспечивает нужного уровня экспертизы.

Как устроена система

Centaur предоставляет пользователям доступ к масштабной сети, в которой уже участвуют тысячи профессионалов своего дела, ученых, а также и начинающих студентов; в этом взаимодействии и осуществляется разметка данных. Платформа позволяет увидеть инсайты на уровне отдельных разметчиков; можно видеть, кто именно работает с информацией и насколько качественно это делает. Платформа не использует фиксированные команды разметчиков; вместо этого каждая задача распределяется по сети специалистов, квалификация которых соответствует требованиям проекта.

Контроль качества работы построен на измерении производительности каждого разметчика. Можно задать порог качества и включать в финальный датасет только мнения тех, кто соответствует установленному пользователем порогу. Система стимулирует производительность через небольшие порции работы и мобильные соревнования — разметчики получают оплату только за качественную работу, поэтому замотивированы усердно работать над каждым кейсом. Для каждого исследовательского случая генерируется несколько независимых оценок, а для неоднозначных кейсов их количество увеличивается.

Примеры использования и результаты

На сайте приведены кейсы клиентов; показательным, на наш взгляд, является случай компании SciBite, входящей в Elsevier (знаменитого издательства научных статей). Нейросеть нашла около 5000 потенциальных новых синонимов для медицинской терминологии, и сделано это было именно благодаря аналитике терминов, на ручную обработку которых ушли бы месяцы.

Платформа безопасна в отношении обработки чувствительных данных, а это в особенности существенно для медицины, финансов и прочих областей. Компания Centaur утверждает, что использует ведущие мировые практики безопасности и конфиденциальности, хотя конкретные сертификации и стандарты на сайте не представлены.

Выводы

Таким образом, платформа Centaur выглядит интересной попыткой решить давнюю проблему современной науки и индустрии ИИ – нехватку качественно размеченных данных и зависимость от медленной скорости внутренних процессов.

Разумеется, данный проект в большей степени ориентирован на зарубежную науку. Однако он вполне может заинтересовать и тех, кто работает с исследовательскими данными на иностранных языках. Также, как считают эксперты Creator Project, платформа может служить в качестве примера того, каким образом выстраиваются процессы разметки информации для обучения ИИ.

По сути, Centaur формирует гибридный формат взаимодействия человека и нейросетей, в котором каждый приносит свою часть компетенции: человек – свою экспертность, машина – контроль качества и организацию большого процесса. Насколько эта модель станет стандартом индустрии, покажет время, но уже сейчас она демонстрирует, что «кентавр-подход» в разметке способен закрывать задачи, которые традиционные инструменты решают слишком долго или недостаточно точно.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

2 комментария к “Centaur AI. Платформа для разметки данных с экспертной сетью

  1. Centaur AI может стать ценным инструментом для проектов, требующих высококачественной разметки данных. Несмотря на потенциально высокую стоимость и более длительные сроки выполнения работ, преимущества профессионального подхода могут перевесить эти недостатки. Тем не менее важно тщательно взвесить все «за» и «против» и убедиться, что платформа соответствует вашим конкретным требованиям и бюджету.

  2. Centaur AI решает ключевую проблему: качество данных. Сочетание платформы и экспертов гарантирует высокоточную разметку. Это ускорит обучение ИИ-моделей в сложных отраслях.

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять