Будинки Думки Ай є (також) силою для добра | Бен Діксон

Ай є (також) силою для добра | Бен Діксон

2024

Зміст:

Як глибоке навчання породжує людські голоси
Відтворення голосу безголосової людини
Збалансування негативних застосувань синтетизаторів ШІ

Відео: Ð-Ð¾Ð³Ð³Ð°Ð½Ð¾ ft_ Ð"ÑƒÑ„ & Ð-Ðš-47 - Ð¢ÐµÐ¼ (Листопад 2024)

У 2017 році аміотрофічний латеральний склероз (АЛС), руйнівний неврологічний розлад, пограбував Пат Квінн, засновника відомого виклику Ice Bucket Challenge, його вміння говорити.

У 2018 році штучний інтелект допоміг йому повернути його.

Завдяки прогресу в машинному та глибокому навчанні алгоритми штучного інтелекту стали дуже хорошими для наслідування людей. Але хоча багато визначних подій у космосі були негативними, сила імітації AI була силою позитивних змін для Квін.

"Більшість людей, які живуть з АЛС (також відомою як хвороба моторних нейронів), в кінцевому підсумку паралізуються і не можуть спілкуватися ні з чим, окрім штучних" комп'ютерних "голосів", - каже Оскар Вестердал, співзасновник Project Revoice, ініціативи, яка має на меті допомогти пацієнтам з АЛС, як Квін. .

Щоб відтворити голос Квін, Project Revoice співпрацював з Lyrebird, однією з декількох компаній, які використовують AI для клонування голосу людини - групою, яка також включає Google WaveNet і Voicery, стартап з підтримкою Y Combinator, який використовує AI для створення синтезованих записів голосу. .

Як глибоке навчання породжує людські голоси

За цими програмами стоїть алгоритми глибокого навчання, популярна галузь AI, яка використовує великі набори даних для розуміння та шаблонів, які не можуть бути захоплені традиційним програмним забезпеченням, заснованим на правилах. Коли ви навчаєте глибоко вивчаючий синтезатор голосу з достатньою кількістю голосових записів, він створює цифрову модель, яка представляє голос людини та може генерувати нові голосові зразки.

До появи технології синтезу голосу на основі ШІ, пацієнтам з АЛС довелося використовувати загальні цифрові голоси, які не були власними. Інші технології можуть з'єднати попередньо записані речення з голосом пацієнта, але результати були надто штучними і вимагали десятки годин запису голосу, щоб вони були мінімальними.

З іншого боку, програми глибокого навчання вимагають набагато менше даних та забезпечують кращі результати. "Те, що Lyrebird може досягти лише за пару годин аудіо, є чудовим - це дає людям повний цифровий голос-клон, щоб вони могли говорити все, що хочуть", - говорить Вестердал.

Відтворення голосу безголосової людини

Однією з меж програм глибокого навчання є їх залежність від високоякісних зразків даних для навчання їх нейронних мереж. Проблема пацієнтів з АЛС полягає в тому, що як тільки вони втрачають голос, запис голосових зразків неможливий. На щастя, у Квін були записані основні записи та інтерв'ю.

"Найбільшим викликом була якість. Ця технологія повністю залежить від того, щоб мати послідовні, якісні записи, які також відповідають точному сценарію - тому нам довелося працювати зі звуковою студією, щоб вручну" переробити "та переписати кожен діалог, який ми могли знайти Пат, - каже Вестердал.

"Ми трохи боялися, що нам не вдасться забезпечити чудову якість, щоб створити голос Пата", - говорить Хосе Сотело, співзасновник Lyrebird. "Оскільки ми не змогли отримати чисті записи, остаточна якість штучного голосу не є ідеальною. Ми думаємо, що ми можемо зробити набагато кращу роботу з чистими записами".

Результати все ще звучать трохи неприродно і синтетично. Але для Квін, яка використовувала загальний голос для спілкування, різниця була драматичною. "Почувши мій голос через цю нову технологію, мене здуло! Для пацієнтів, які знають, що вони можуть мати власний голос після того, як АЛС забирає його, це змінить спосіб життя людей з БАС", - говорить він.

Квін рекомендує пацієнтам, які страждають на АЛС, записати свій голос, поки не пізно. "Після того, як я знову почув власний голос, мені потрібні пацієнти з АЛС, щоб знати, що запис їх голосу неймовірно важливий", - говорить він.

Збалансування негативних застосувань синтетизаторів ШІ

На початку цього року програма FakeApp, що працює на AI з можливістю зміни обличчя, викликала натиск фальшивих порнографічних роликів із знаменитостями та політиками. Існує занепокоєння, що такі програми, як FakeApp і Lyrebird, приведуть у нову епоху фальшивих новин, шахрайства та підробки.

На сторінці етики на веб-сайті Lyrebird раніше було визнано, що ця технологія "може мати небезпечні наслідки, такі як введення в оману дипломатів, шахрайство та взагалі будь-яку іншу проблему, спричинену крадіжкою особи когось іншого".

Для досягнення суті, на веб-сайті компанії є кілька синтезованих записів, створених на голоси Дональда Трампа та Барака Обами.

@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI (@LyrebirdAi) 4 вересня 2017 року

Історія Квін може допомогти пролити світло на позитивні сторони галузі, яка розгорнулася з точки зору потенційно моторошного та неетичного використання її програм. "Важливо, щоб люди усвідомили яскраву сторону цієї технології", - нагадує Сотело Ліреберда.

Крім медичних застосувань, додатки синтезатора AI можуть служити і іншим продуктивним цілям. Voicery надає брендам спеціалізовані оцифровані голоси, що працюють на основі AI-алгоритмів. Google також експериментує з WaveNet, щоб забезпечити більш природний досвід користувачам своїх пристроїв, що працюють на Google Assistant. Інші сфери, де ця технологія є корисною, включають автоматизацію аудіокниг або значно спрощення звукозапису у фільмах.

Етичні та правові перешкоди не виникнуть сумнівів, і дебати триватимуть. Але для Квінна ШІ - це сила добра. "Я не хочу звучати як комп'ютер", - каже він. "Я хочу звучати як я".