Вчера OpenAI выпустила GPT-4, свою долгожданную парадигму искусственного интеллекта для генерации текста, и это интригующая работа.
GPT-4 во многом превосходит своего предшественника GPT-3, например, предоставляя больше реальных данных и позволяя разработчикам легче описывать его стиль и поведение. Это также мультимедиа в том смысле, что он может понимать изображения, позволяя комментировать и даже подробно объяснять содержание изображения.
Но у GPT-4 есть серьезные недостатки. Как и GPT-3, модель «галлюцинирует» факты и допускает основные ошибки рассуждений. На примере OpenAI частный блогGPT-4 описывает Элвиса Пресли как «сына актера». (Ни один из его родителей не был актером.)
Чтобы лучше понять цикл разработки GPT-4 и его возможности, а также его ограничения, TechCrunch поговорил во вторник с Грегом Брокманом, соучредителем и президентом OpenAI, посредством видеозвонка.
Когда его попросили сравнить GPT-4 с GPT-3, Брокманн назвал это одним словом: разные.
«Это совершенно другое», — сказал он TechCrunch. «Еще много проблем и багов [the model] Сделать… но вы действительно можете увидеть скачок в навыках в таких вещах, как исчисление или юриспруденция, переходя от очень плохого в определенных областях к действительно хорошему по сравнению с людьми. «
Результаты испытаний подтверждают его случай. На экзамене AP Calculus BC GPT-4 набрал 4 балла из 5, в то время как GPT-3 набрал 1 балл (GPT-3.5, промежуточная форма между GPT-3 и GPT-4, также набрал 4 балла) и в a. Имитация экзамена на адвоката, сдать GPT-4 с результатом, близким к 10% лучших участников теста; Оценка GPT-3.5 колебалась вокруг нижних 10%.
Смена передач Одним из самых интересных аспектов GPT-4 является вышеупомянутая мультимедиа. В отличие от GPT-3 и GPT-3.5, которые могут принимать только текстовые подсказки (например, «Написать статью о жирафах»), GPT-4 может получать подсказку как с изображениями, так и с текстом для выполнения какого-либо действия (например, изображение Жирафы в Серенгети с подсказкой «Сколько здесь выставлено жирафов?»).
Это потому, что GPT-4 обучался на изображении И текстовые данные, в то время как его предшественники обучались только на тексте. OpenAI заявляет, что данные обучения поступали из «множества лицензированных, установленных и общедоступных источников данных, которые могут включать общедоступную личную информацию», но Брокман возражал, когда его спросили о деталях. (Данные обучения OpenAI и раньше были в юридических проблемах.)
Возможности распознавания изображений GPT-4 впечатляют. Например, отправьте подсказку «Что смешного в этой картинке? Опишите ее панель за панелью» плюс трехпанельное изображение, показывающее поддельный кабель VGA, подключенный к iPhone, дайте разбивку GPT-4 каждой панели изображения и объясните шутку. правильно («юмор на этой картинке исходит от абсурдности подключения устаревшего разъема VGA к маленькому современному порту зарядки смартфона»).
В настоящее время только один партнер по запуску имеет доступ к возможностям анализа изображений GPT-4 — вспомогательному приложению для слабовидящих под названием Be My Eyes. По словам Брокманна, более широкое развертывание, когда бы оно ни происходило, будет «медленным и преднамеренным», поскольку OpenAI взвешивает риски и преимущества.
«Есть такие политические вопросы, как распознавание лиц и то, как мы обрабатываем изображения людей, которые нам нужно обработать и проработать», — сказал Брокманн. «Нам нужно знать, например, где находятся области риска — где находятся красные линии — и затем со временем прояснить это».
OpenAI столкнулась с аналогичными этическими дилеммами в отношении DALL-E 2, своей системы преобразования текста в изображение. Первоначально отключив эту возможность, OpenAI позволил клиентам загружать лица людей для редактирования с помощью системы генерации изображений на основе ИИ. В то время OpenAI утверждала, что обновления ее системы безопасности сделали возможной функцию модификации лица за счет «уменьшения потенциального вреда» от дипфейков, а также попыток создания сексуального, политического и насильственного контента.
Другой постоянный запрет на использование GPT-4 непреднамеренными способами, которые могут нанести психологический, денежный или другой вред. Через несколько часов после того, как модель была выпущена, израильская фирма по кибербезопасности Adversa AI опубликовала Сообщение блога Демонстрация способов обхода фильтров контента OpenAI и получения GPT-4 для создания фишинговых писем, оскорбительных описаний геев и другого крайне нежелательного текста.
Это не новое явление в области языковой парадигмы. Meta BlenderBot и ChatGPT OpenAI также были вынуждены говорить глубоко оскорбительные вещи и даже раскрывать конфиденциальные подробности о своей внутренней работе. Но многие, в том числе и этот репортер, надеялись, что GPT-4 может предложить значительные улучшения в области модерации.
Отвечая на вопрос о надежности GPT-4, Брокманн подтвердил, что модель прошла шесть месяцев обучения безопасности и что при внутреннем тестировании вероятность ответа на запросы о контенте, не разрешенном политикой использования OpenAI, снизилась на 82 %. % с большей вероятностью даст ответы. «Реалистичный» из GPT-3.5.
«Мы потратили много времени, пытаясь понять, на что способен GPT-4, — сказал Брокманн. «Вывод этого в мир — это то, как мы учимся. Мы постоянно делаем обновления, и они включают в себя ряд улучшений, чтобы модель была более масштабируемой для любого персонажа или типа ситуации, в которой вы хотите ее видеть».
Честно говоря, первые результаты в реальном мире не так уж многообещающи. Наряду с тестами Adversa AI, Bing Chat, чат-бот Microsoft на базе GPT-4, показал высокую уязвимость для джейлбрейка. С помощью тщательно продуманных входных данных пользователи смогли убедить бота признаваться в любви, угрожать причинением вреда, защищать Холокост и разрабатывать теории заговора.
Брокманн не стал отрицать, что GPT-4 здесь ограничен. Но он подчеркнул новые средства маршрутизации модели, в том числе возможность уровня API, называемую «системными» сообщениями. Системные сообщения — это, по сути, инструкции, которые задают тон и устанавливают границы взаимодействия GPT-4. Например, системное сообщение может выглядеть так: «Вы учитель, который всегда отвечает в стиле Сократа. Вы». никогда Дайте ученику ответ, но всегда старайтесь задавать правильный вопрос, чтобы помочь ему научиться думать самостоятельно».
Идея состоит в том, что системные сообщения действуют как брандмауэр, предотвращающий сбой GPT-4.
«Действительно, знакомство с тоном, стилем и сущностью GPT-4 было для нас огромным фокусом», — сказал Брокманн. «Я думаю, что мы начинаем немного лучше понимать, как заниматься проектированием, как иметь повторяемый процесс такого рода, который дает вам предсказуемые результаты, которые будут действительно полезны для людей».
Брокманн также указал на Evals, новую программную среду OpenAI с открытым исходным кодом для оценки производительности своих моделей ИИ, как на свидетельство приверженности OpenAI «улучшению» своих моделей. Eals позволяет пользователям разрабатывать и запускать эталонные тесты для оценки таких моделей, как GPT-4, при проверке их производительности — своего рода краудсорсинговый подход к тестированию моделей.
С Evals мы можем видеть [use cases] которые интересуют пользователей в систематической форме, которую мы можем протестировать», — сказал Брокманн. [open-sourced] Это потому, что мы переходим от запуска новой модели каждый квартал — что бы ни было раньше — к постоянным улучшениям. Вы не делаете то, что не измеряете, не так ли? Мы также делаем новые версии [of the model]По крайней мере, мы можем знать, что это за изменения».
Я спросил Брокмана, будет ли OpenAI когда-нибудь компенсировать людям тестирование своих моделей с помощью Eval. Он не делал коммитов, но отметил, что — в течение ограниченного времени — OpenAI предоставила пользователям Evals ранний доступ к API GPT-4.
В разговоре с Брокманом я также затронул контекстное окно GPT-4, которое указывает, какой текст форма может учитывать перед созданием дополнительного текста. OpenAI тестирует версию GPT-4, которая может «запоминать» примерно 50 страниц контента, или в пять раз больше, чем обычный GPT-4 может иметь в своей «памяти», и в восемь раз больше, чем GPT-3.
Брокман считает, что расширенное контекстное окно ведет к новым, ранее неизведанным приложениям, особенно на предприятии. Он представляет себе чат-бота с искусственным интеллектом, разработанного для компании, который использует контекст и знания из различных источников, включая сотрудников из разных отделов, чтобы отвечать на вопросы в высокоинформативной, но разговорной манере.
этот Не новая концепция. Но Брокманн утверждает, что ответы GPT-4 будут гораздо полезнее, чем сегодняшние ответы чат-ботов и поисковых систем.
«Раньше модель ничего не знала о том, кто вы, что вас волнует и так далее», — сказал Брокманн. Имея такую историю [with the larger context window] Это, безусловно, сделает его более способным… оно будет взимать плату за то, что люди могут сделать».
«Создатель. Дружелюбный к хипстерам социальный медиа-голик. Интернет-фанат. Страстный фанатик алкоголя».
More Stories
Азиатские рынки в основном упали, так как инвесторы оценили высказывания Йеллен о банках
Банки больше занимают у ФРС: что вам нужно знать
Процентные ставки в Великобритании: Банк Англии вырос на четверть процентного пункта