я только что скинул отрывок срифмованного текста и.. через 10 минут мне прислали несколько практически готовых по сути, к публикации версий трека. нейросеть за 10 минут написала под текст аранжировку, нашла подходящие голоса и темпы и манеры исполнения…
Для понимания восторга — ранее я видел сети, которые были по сути просто расширенными фильтрами — типа дипфейков и тд.
т.е. в них надо было грузить медиа-контент, чтобы из него сделать такой же медиа-контент, но с другим допустим лицом и голосом.
это по сути прокачанные фильтры и не более.
А тут.
Те переменные и компоненты, которая сеть выбрала сама, их количество в разы превышает то, что делают простые вышеупомянутые «фильтры».
Т.к. сетке был дан просто текст.
Без разбивки в стиле «куплеты / припевы / переходы» и тд.
Все это она определила сама и как это все исполнять, под какие аранжировки (варианты которых она тоже тут же накидала сама), и так далее.
Т.е. это имитатор нового уровня, гораздо более производительный и решающий в разы больше задач.
такая сетка вполне себе может.. допустим в риал-тайме прогнозировать события (например дорожную ситуацию), исходя из поступающей с камер информации.
Или поведение рядом находящихся людей, путём физиогномики.
(хотя выводы по физиогномике научно-спорные, но какой-то процент я бы учитывал, допустим при знакомстве с новыми людьми, с которыми придётся взаимодействовать).
Вариантов применения множество.
Это интересно.