нейросети для работы с изображениями, видео, текстом и голосом
Topaz Labs
Кратко: семейство ИИ-сервисов для улучшения изображений и видео
Где попробовать: на сайте
Сколько стоит: набор всех приложений 758 $ либо отдельно каждое от 80 до 300 $. Есть 30 дней бесплатного периода
Topaz Labs — компания, у которой есть девять сервисов на основе нейросетей, которые работают с изображениями и видео. Алгоритмы Topaz используют как любители, так и профессиональные фотографы. Все сервисы доступны бесплатно, хоть и с вотермаркой.
Вот какие сервисы предлагает компания:
- Topaz Photo AI — автоматическое улучшение любого фото. Подойдет тем, кому не хочется разбираться в настройках.
- Topaz Video AI — стабилизация, масштабирование и улучшение качества видео.
- Topaz Gigapixel AI — улучшает качество фотографий, снятых на плохую камеру. Хорошо работает со старыми снимками.
- Topaz Sharpen AI — улучшает резкость фотографий.
- Topaz DeNoise AI — устраняет шум в фотографиях, снятых с высоким ISO и при низком освещении.
- Topaz Mask AI — позволяет менять фон изображений в пару кликов.
- Topaz Adjust AI — улучшает цвета, тени и другие места фотографий, чтобы сделать их выразительнее.
- Topaz Studio — продвинутый редактор фотографий.
- Topaz JPEG to RAW AI — конвертер изображений из JPEG в RAW-формат.
У продуктов достаточно много сценариев применения. Например, с помощью Video Enhance AI и Gigapixel AI делают ремастеры старых видео и фильмов: улучшают качество вплоть до 8K и 60 кадров в секунду. Другими нейросетями пользуются профессиональные фотографы.
Я протестировал работу Topaz на одном неудачном снимке из путешествия. Исправлял я его в программе Gigapixel AI: нейросеть там обучили так, чтобы она могла различать на фотографиях шумы.
45 интересных сайтов, на которых можно застрять надолго
Программа сама выставляет настройки при загрузке файла, так что новичкам не придется долго разбираться в параметрах. В процессе обработки алгоритмы вставляют в некачественные части изображения необходимые детали, которые встречаются у похожих качественных фото. В результате размытое изображение заметно преобразилось.
Это моя неудачная фотография северного сияния до обработки
Главный минус продуктов Topaz — системные требования. Во-первых, компьютер должен обладать современной 64-разрядной версией операционной системы. Хотя старые ОС вроде Windows 7 отдельно поддерживаются для нескольких программ, компания не рекомендует их использовать. Лучше всего, если на вашем компьютере стоит как минимум Windows 10 либо macOS Mojave 10.14.
Во-вторых, оперативной памяти должно быть не менее 8 Гб, а видеопамяти — не менее 2 Гб. Я использовал Gigapixel AI на компьютере с процессором Intel Core i5 третьего поколения, и в момент обработки фотографии приложение задействовало 95% его ресурсов. Из-за этого местами компьютер подтормаживал, но в остальном проблем не возникало.
https://www.youtube.com/embed/vBj3ZLjOtS4Советский мультфильм «На краю земли», улучшенный с помощью нейросети
Runway ML
Кратко: видеоредактор с поддержкой нейросетей, заметно облегчающих работу
Где попробовать: на сайте
Сколько стоит: расширенная версия 15 $ в месяц, полная — 35 $ в месяц. Можно сделать до трех проектов бесплатно
Runway ML — фото- и видеоредактор на основе нейросетей. Задачи, для которых раньше требовалось много работы и соответствующие навыки, с таким редактором решаются за несколько минут. Хоть и не без проблем: как и в работе многих нейросетей, у Runway проявляются ошибки и артефакты.
В Runway можно работать прямо на сайте, ничего скачивать не нужно — это удобно. Чтобы воспользоваться сервисом, нужно зарегистрироваться, а потом перейти на вкладку AI Magic Tools с нейросетевыми помощниками. В этом разделе представлены сразу десять нейросетей, которые помогут в работе.
Нейросеть «Яндекса» качественно переводит иностранные ютуб-видео: как ей пользоваться
Можно убрать с видео человека или другой объект, добавить «зеленый экран» вместо фона, размыть фон, заменить один предмет на другой и не только. Сервис предлагает попробовать нейросети на своих видео из папки Demo Assets, чтобы вы могли протестировать его возможности. Также можно загрузить собственный ролик и отредактировать его.
Audo Studio
Кратко: сервис, который убирает посторонние звуки при записи речи
Где попробовать: на сайте
Сколько стоит: полная версия 12 $ в месяц, в урезанной версии 20 минут в месяц бесплатно
Главная задача Audo — выделить голос и избавиться от всего, что мешает его услышать. Искусственный интеллект обучили на разных записях шумов, и, по ощущениям, он справляется почти идеально. Звуки фена, лай собак, дрель соседа — на финальной звуковой дорожке не остается ничего лишнего.
Для обычных пользователей есть функция удаления шумов по одному клику. Для профессиональных пользователей, например блогеров или подкастеров, есть платная программа Studio. Она не только убирает шумы, но и улучшает записанную речь: выравнивает громкость, обрезает оговорки и длинные паузы. Также есть отдельное приложение Magic Mic от тех же разработчиков — оно убирает шумы в прямом эфире во время звонков.
В качестве главного минуса можно выделить искажение голоса, привычное для нейросетевых шумоподавителей. В Audo этот эффект местами более выражен, чем в других сервисах. По всей видимости, нейросеть работает с исходниками так, чтобы никакие лишние звуки гарантированно не попали в результат, из-за чего изначальный голос «цепляет» обработкой.
MuseNet
Кратко: нейросеть, которая создает музыку
Где попробовать: на сайте
Сколько стоит: полностью бесплатно
MuseNet — проект OpenAI, создателей популярной нейросети для рисования DALL-E. Но этот сервис работает не с изображениями, а с музыкой.
Нейросеть обучили создавать композиции на основе сотен тысяч других музыкальных произведений. В итоге она генерирует четырехминутные треки. На сайте можно задать, с какой мелодии начнется музыка, выбрать общий стиль и добавить любимые инструменты. Например, можно начать музыку с мелодии из «Крестного отца», выбрать в качестве стиля джаз и добавить немного гитары.
Как объясняют создатели, нейросеть MuseNet не обучена специально под человеческое понимание музыки. Она обнаруживает закономерности гармонии, ритма и стиля по-своему, при этом итоговые композиции все равно звучат приятно. Главный минус — сервис существует внутри блога OpenAI, отдельной программы нет.
Сам написал код и распечатал гаджеты на 3D-принтере: как я организовал работу умного дома
Такую музыку можно свободно использовать в качестве фоновой. Разве что разработчики просят не взимать плату за ее прослушивание, а также предупреждают, что нейросеть может случайно проиграть мелодию с авторскими правами. Шансы очень малы, но подбор от нейросети вполне может однажды совпасть с реальным треком.
DeepL
Кратко: мощный онлайн-переводчик, который справляется с задачами лучше Гугла
Где попробовать: на сайте, в приложениях для macOS, Windows, iOS и Android
Сколько стоит: бесплатно с ограничениями, есть pro-версия от 9 $ в месяц, но в России она недоступна
Методы машинного обучения применяют все основные технологические гиганты, которые связаны с переводами, — от «Гугла» до «Майкрософта». Но гораздо точнее считывает контекст немецкий стартап DeepL: с помощью нейросетей он достаточно успешно и связно переводит как общие тексты, так и специализированные.
Поддерживается 25 языков, и стандартные связки вроде английский — русский или испанский — русский работают хорошо. За раз можно перевести до пяти тысяч символов, также доступна загрузка документов — до трех в месяц в бесплатной версии. Есть функция глоссария: можно заранее «объяснить» сервису, как правильно переводить нетипичные слова, термины и фразы.
Подписка предназначена для профессионального использования: убирается большинство ограничений и лимитов, тексты удаляются с серверов сразу же после перевода, добавляются функции персонализации для переводчиков.
Uberduck
Кратко: генератор голоса с возможностью «клонирования» чужого голоса и перевода текста в речь
Где попробовать: на сайте
Сколько стоит: бесплатно с ограничениями, есть pro-версия за 9 $ в месяц
Uberduck начинался как шуточный генератор, где можно было зачитать любой англоязычный текст, имитируя голоса и манеру известных рэперов. А уже через полтора года сервис не только получил признание, но и нашел коммерческое применение задумки.
Для бесплатного использования в библиотеке Uberduck доступно более четырех тысяч голосов — от Канье Уэста до Шрека. Озвучивают они преимущественно англоязычный текст, но можно найти голоса, натренированные на других языках. Русскоязычных голосов нет: попробовать синтезировать текст на кириллице можно, но связной речи точно не получится.
Нейросеть Midjourney генерирует кадры из несуществующих фильмов: как сделать такое самому
Технология качественно переводит текст в речь — можно легко запутаться, где говорит реальный человек, а где нейросеть. Хотя зависит от конкретного голоса: одни звучат естественно, в других отчетливо слышна «роботизированность». Новые голоса добавляет сообщество, которое активно помогает разработчикам.
Платные функции еще интереснее. Например, за 40 $ можно «клонировать» свой голос, редактировать его и использовать для озвучки текста. Для этого нужно передать сервису около 20 минут записи своей речи. Также можно воспользоваться уже синтезированными уникальными голосами в коммерческих целях.
ChatGPT
Кратко: главная нейросеть для генерации текста
Где попробовать: на сайте
Сколько стоит: полностью бесплатно
ChatGPT — последняя разработка OpenAI, которую уже называют революционной. Чат-бот, основанный на новейшей версии алгоритма GPT, умеет имитировать осознанный диалог с собеседником, писать тексты, стихи, песни, код, придумывать сценарии, составлять сочинения для экзаменов. ChatGPT набрала первый миллион пользователей за рекордные пять дней — теперь в СМИ размышляют, сколько профессий «убьет» нейросеть.
В отличие от многих нейросетевых чат-ботов, ChatGPT запоминает детали разговора и может строить ответы, основываясь на информации, которую ему уже сообщил пользователь. Поэтому у нее оказывается больше контекста. Также она генерирует текст, гораздо более осмысленный и связный, чем предыдущие версии GPT.
Как рисуют нейросети: 12 интересных сервисов
Ответы у чат-бота генерируются за считаные секунды. Нейросеть не может написать глубокие размышления или придумать что-то уникальное, но качественно собирает общую информацию и выдает базовые знания. Мы подробно писали про ChatGPT в отдельном материале.