Будинки Бізнес 7 порад щодо успішності машинного навчання

7 порад щодо успішності машинного навчання

2024

Зміст:

1. Не забувайте логістику
2. Зважайте на свої дані
3. Алгоритми не магічні кулі
4. Використовуйте різноманітний набір інструментів
5. Експериментуйте з гібридним навчанням
6. Дешеве не означає погано
7. Не називайте це AI

Відео: Настя и сборник весёлых историй (Вересень 2024)

Перша частина нашого бізнес-посібника з машинного навчання (ML) розповіла про те, наскільки концепція парасольки ML значно більше нюансується в бізнес-середовищі. Найефективніші стратегії розглядають ML в практичному розумінні, використовуючи як складні методи глибокого навчання, так і менш інтенсивні методи «дешевого навчання» для оптимізації процесів у бізнесі та отримання відчутного розуміння ділової розвідки (BI).

Метою розгортання ML в рамках ваших бізнес-додатків є поліпшення нижнього рівня або натиск на конкурентну перевагу вашої компанії. Але в більш широкій схемі вашої організації, максимум часу та ресурсів, які ви вкладаєте в цей процес, виходить далеко за рамки алгоритмів. Ті, хто приймає рішення у вашому бізнесі, повинні переконатися, що все, що впливає на імплементацію Вашого МЛ - від даних та логістики до того, як Ви взаємодієте з користувачами - співпрацює разом для досягнення максимальної ефективності.

Тед Даннінг, доктор філософії, - головний архітектор додатків у MapR, корпоративній програмній компанії, що пропонує різні дистрибутивні дані та інструменти управління даними. Даннінг також є співавтором двох книг про те, що він називає «Практичне машинне навчання», і впродовж багатьох років розвивав технології ML для багатьох компаній, включаючи систему виявлення шахрайства ID Analytics (придбану LifeLock) та програмне забезпечення Musicmatch Jukebox, який згодом став Yahoo Music. В даний час він обіймає посаду віце-президента з інкубації для програмного фонду Apache.

Даннінг спостерігав, як простір ML розвивається протягом десятиліть, і дізнався багато про те, що працює, а що - ні в практичному бізнес-середовищі. Нижче Даннінг викладає сім найкращих практик, яких слід дотримуватися при розробці бізнес-рішень, що кореняться в ML.

1. Не забувайте логістику

Успішний ML - це не лише вибір правильного інструменту чи алгоритму. Даннінг сказав, що вам також потрібно розібратися, який підхід підходить, і розробити його для конкретної ситуації, з якою ви вирішите. Наприклад, Даннінг говорив про ML в онлайн-маркетинговій кампанії на відміну від набагато складніших сценаріїв, таких як алгоритми, що керують автономним автомобілем. Витрата ваших ресурсів на додаткове вдосконалення алгоритму коштує неприємностей для машини, але в маркетинговому сценарії ви побачите набагато кращий прибуток від оптимізації всієї логістики навколо нього.

"Часто для бізнесу саме цінність, а не навчання дає цінність. Це та частина, на яку слід витрачати свій час і ресурси", - сказав Даннінг. "Налаштування алгоритму дозволить вам трохи покращити. Але коригування даних, графічного інтерфейсу та того, як ви слухаєте та спілкування зі своїми користувачами, може легко забезпечити вам 100-відсоткове поліпшення. Витрата часу на налаштування алгоритму коштує частки, оскільки дуже важливий для бізнесу, як слухає ваших користувачів ".

Щоб проілюструвати цей момент, Даннінг пояснив, як колись він побудував модель для виявлення шахрайства з додатками (відкриття підроблених рахунків з викраденими ідентифікаторами) у базі даних клієнтів компанії. Створена ним модель отримала чудові результати, але Даннінг помітив, що вона дуже сильно зважила стать заявника.

Виявилося, що логістика вимкнена. Як працював процес подання заявки, заявник заповнив свою стать лише після того, як вони вже стали замовником і пройшли ряд етапів перевірки для фільтрації шахраїв. Тож, використовуючи гендерне поле, модель МЛ обманювала логістику всього процесу шахрайства. Це не має нічого спільного з алгоритмом, і все, що стосується того, як компанія отримувала свої дані в першу чергу.

2. Зважайте на свої дані

Данінг сповнений влучних примх мудрості. Почавши з "це логістика, а не навчання", він сказав, що інша половина цієї ідеї - це "дані, а не алгоритми". Значна частина забезпечення того, що ваші алгоритми ML надають цінну інформацію, - це переконання, що ви подаєте їм правильні дані. Даннінг сказав, що якщо ви не отримуєте результату, на який шукаєте, частіше, ніж ні, тому що ви не використовуєте потрібних даних.

"Люди все звикають і его пов'язані з певними алгоритмами, але в наш час через інструменти там кожен і їх мати можуть і придумують всілякі нові алгоритми", - сказав Даннінг. "Дані набагато важливіші, і вони дадуть вам набагато більше, ніж нескінченне налаштування алгоритмів. Якщо ви працюєте над важкою проблемою, як розпізнавання мови чи комп’ютерний зір, це одне. Але це поле, кероване даними. У більшості сценаріїв ви будете отримувати набагато більше користі від коригування отриманих даних та зміни питання ".

Саме це зробив Даннінг у середині 2000-х, будуючи двигун відеорекомендацій у компанії під назвою Veoh Networks. Команда працювала над тим, щоб визначити пари створених користувачем відео, на які люди натискали більше, ніж очікувалося, але алгоритм не працював. Вони думали з точки зору музики, де користувачі знають своїх улюблених виконавців та пісні на ім’я. Тож вони змінили питання, налаштувавши інтерфейс користувача, не торкаючись самого алгоритму.

"У відео, створеному користувачем, ніхто не знає, що виконавці і багато відео справді мали спам-заголовки, щоб отримати більше переглядів. Велосипедне перетворення алгоритму ніколи не дало б нам хороших результатів", - сказав Даннінг. "Те, що ми зробили, змінило користувальницький інтерфейс, щоб випромінювати сигнал маяка кожні 10 секунд. Ми виявили, що якщо ми використовуємо маяк замість клацань для необроблених даних рекомендатора, ми отримали приголомшливі результати. Підйом для цієї зміни було декілька стовідсоткове поліпшення взаємодії завдяки рекомендаціям, без алгоритмічних змін ".

3. Алгоритми не магічні кулі

Реалізації ML процвітають при постійній спробі та помилках. Незалежно від того, наскільки хорошими є ваші алгоритми, якщо ваша система взаємодіє з людьми, їх потрібно буде з часом коригувати. Даннінг підкреслив, що бізнесу слід постійно вимірювати загальну ефективність їх впровадження та визначати зміни та змінні, які покращують його і роблять його гіршим. Це може здатися плацдармом, але Даннінг сказав, незважаючи на те, наскільки це очевидно це звучить, дуже мало людей це робить чи робить це добре.

"Дуже багато людей хочуть розгорнути систему або вжити певних дій, і вони хочуть, щоб їх алгоритм працював ідеально назавжди", - сказав Даннінг. "Жоден алгоритм не стане магічною кулею. Жоден дизайн інтерфейсу користувача не буде залишатися назавжди. Жоден метод збору даних ніколи не буде замінений. Все це може і відбудеться, і бізнесу потрібно пильно вимірювати, оцінювати та переоцінювати, як їх система працює. "

4. Використовуйте різноманітний набір інструментів

Є десятки інструментів ML, багатьма з яких ви можете користуватися безкоштовно. У багатьох проектах Apache Software Foundation (ASF), включаючи Mahout, Singa та Spark, ви отримали популярні бібліотеки фреймворків з відкритим кодом, такі як Caffe, H20, Shogun, TensorFlow, Torch та ML. Потім є варіанти на основі передплати, зокрема Amazon Machine Learning, BigML та Microsoft Azure Machine Learning Studio. Microsoft також має безкоштовний когнітивний інструментарій.

Є безліч ресурсів. Даннінг спілкувався з численними підприємствами, науковцями з питань даних та практиками ML, і завжди запитує їх, скільки різних рамок та інструментів вони використовують. У середньому Даннінг сказав, що більшість з них використовують мінімум 5-7 інструментів і часто набагато більше.

"Ви не можете приклеїтись до одного інструменту. Вам доведеться використовувати декілька, і як такий, вам краще побудувати свою систему таким чином, щоб вона була агностичною", - сказав Даннінг. "Кожен, хто намагається переконати вас у тому, що цей інструмент єдиний, який вам коли-небудь знадобиться, продає вам купюру товару.

"На наступному тижні може статися щось, що засмутить візок із яблуками, і швидкість нововведень, яку ми бачимо, це триватиме щонайменше ще п’ять-10 років", - продовжив Даннінг. "Подивіться на дешевий приклад навчання, де, можливо, ви повторно використовуєте наявний класифікатор зображень для аналізу зображень у каталозі. Це глибоке навчання з комп’ютерним зором, кинутим у нього. Але є інструменти, які упаковують все це. Вам потрібно вимірювати, оцінювати та змінювати різні інструменти, і ваша інфраструктура повинна це вітати ".

5. Експериментуйте з гібридним навчанням

Даннінг сказав, що ви також можете змішати дешеве і глибоке навчання разом у щось гібридне. Наприклад, якщо ви берете існуючу модель комп’ютерного зору і переконструюєте кілька перших верств шарів, де приймається рішення, ви можете скооптувати існуючий каркас для абсолютно нового випадку використання. Даннінг вказав на змагання Kaggle, в яких учасники змагалися саме так; вони взяли набір даних і написали новий алгоритм, щоб допомогти комп’ютеру відрізнити котів від собак.

"Розрізняти котів і собак - це дуже тонка річ алгоритму ML. Подумайте про логіку: у котів гострі вуха, але це роблять німецькі вівчарки. Собаки не мають плям, крім далматинців тощо. Це може бути досить важко розпізнати саме по собі, - сказав Даннінг. "Хлопець, який виграв, розробив систему, яка робила це з 99-відсотковою точністю. Але мене більше вразила людина, яка прийшла третьою. Замість того, щоб будувати з нуля, він взяв існуючу програму розпізнавання зображень з іншого завдання, зняв верхнього шару, і поклав туди простий класифікатор. Він наводив це кілька прикладів, і незабаром це було на 98 відсотків точним у відмежуванні котів від собак. Весь процес зайняв хлопця три години ".

6. Дешеве не означає погано

Незважаючи на явну конотацію, Даннінг сказав, що дешеве навчання не означає поганого навчання. Кількість часу, який ви витрачаєте на впровадження ML, безпосередньо не співвідноситься з його діловою цінністю. Більш важлива якість, за його словами, полягає в тому, щоб переконатися, що процес є повторюваним та надійним. Якщо бізнесу вдасться досягти цього, не вкладаючи зайвої кількості ресурсів, то це ще краще.

"Дешевий не означає погано. Якщо він працює, він працює. Якщо він дешевий і працює, це велично. Але зусилля, які ви вкладаєте в будівництво, не визначають значення. Це сукупність помилок", - сказав Даннінг . "Важливе значення полягає в тому, як він покращує бізнес. Якщо поліпшується прибуток, зменшуються витрати або покращується ваша конкурентна ситуація. Це ефект, а не зусилля".

7. Не називайте це AI

Даннінг підкреслив, що, говорячи про ці методи, підприємства повинні використовувати точну термінологію: ML, комп’ютерне бачення або глибоке навчання. Все це, як правило, підпадає під парасольовий термін "штучний інтелект", але, на думку Даннінга, визначення ШІ просто "речі, які ще не працюють".

"Найкраще визначення, яке я коли-небудь чув про AI, - це те, що ми поки не можемо пояснити. Те, що ми ще не з'ясували", - сказав Даннінг. "Кожен раз, коли ми отримуємо щось для роботи, люди кажуть:" О, це не AI, це просто програмне забезпечення. Це просто двигун правил. Це справді просто регрес логістики ". Перш ніж щось з'ясувати, ми називаємо його AI. Потім, ми завжди називаємо щось інше. Багато в чому AI краще використовувати як слово для наступного кордону, а в AI завжди буде наступний кордон. AI is куди ми їдемо, а не туди, куди вже дійшли ».