Пам'ятаєте гравців, у яких сотні підлітків грали в Axie Infinity, щоб заробити чарівні любовні зілля? Так, це було 4 роки тому. Тепер ви можете просто тренуватися та запускати 100 автономних операторів кодеків, які гратимуть за вас ... і монетизувати його та продавати іншим ✅ AI x Робототехніка Наратив AI x Robotics загострюється по-справжньому з моделями VLA ​ На даному етапі в екосистемі штучного інтелекту більшість протоколів і агентів використовують текстові LLM-движки або статичні скріншоти для інтерпретації даних ​ Але просто пам'ятайте, що більша частина реального світу не має доступу до API, вам потрібне бачення, рішення та дії. Реальний світ потрібно бачити в пікселях, і саме тут на допомогу приходять моделі VLA ​ @Codecopenflow дозволяє автоматизувати програмне забезпечення та робототехніку за допомогою бачення, використовуючи технологічний стек, створений з нуля ✅ Оператори кодеків ​ Оператори — це автономні програмні агенти, які можуть виконувати завдання за допомогою циклу «сприймання-обґрунтування-дія». Можливість бачити екран (або потоки з камери, або дані датчиків) дозволяє їм приймати рішення, які LLM не змогли б зробити ​ • Сприйняття: Робить знімки екрана, канали з камери або дані датчика • Міркування: обробляє спостереження та інструкції за допомогою моделей мови бачення • Дія: Виконує рішення за допомогою взаємодії з інтерфейсом користувача або керування обладнанням ​ У безперервному циклі Оператори можуть працювати на «чистих» серверах, віртуальних машинах (на будь-якій операційній системі) або навіть на роботах. ​ Кожен оператор автоматично отримує виділену обчислювальну машину (ізольовану віртуальну машину або екземпляр контейнера) і може бути захищений TEE (ізоляцією на апаратному рівні) для конфіденційного коду та даних. ​ ✅ Рівень інтелекту штучного інтелекту ​ Оператори можуть бути налаштовані на використання однієї або декількох моделей (LLM або VLA), об'єднаних в якості їх «мозку» ​ Наприклад, поєднання недорогої мовної моделі Mixtral-8×7B з моделлю зору CogVLM з відкритим вихідним кодом дозволяє операторам читати текст на екрані та інтерпретувати трансляції з екрана в реальному часі або з камери – і все це за невелику частину вартості GPT-4. ​ Модель VLA (Vision-Language-Action) дозволяє агенту інтерпретувати візуальні дані, а потім приймати рішення про дію на основі того, що він бачить ✅ Випадки використання ​ 🔹 Автоматизація настільних комп'ютерів ​ Може автоматизувати повторювані офісні завдання, керуючи графічними інтерфейсами. Наприклад, заповнення електронних таблиць, оновлення календарів або інші завдання, які вимагають взаємодії з графічним інтерфейсом ​ Може обробляти оновлення інтерфейсу користувача, оскільки насправді може бачити, що робить ​ 🔹 Ігрові агенти ​ Оператор може керувати гравцями або тестувати відеоігри. Агенти транслюють екран і можуть виконувати дії на основі того, що вони бачать, надсилаючи команди з клавіатури або миші в гру. ​ Може використовуватися для QA-тестування, або навіть для просунутих NPC-опонентів або автоматизації web3-ігор ​ 🔹 Робототехніка ​ Оператори можуть керувати фізичними роботами. Машинний рівень буде підключатися до апаратного забезпечення робота з датчиками та виконавчими механізмами, а агент може надсилати команди для переміщення руки або навігації. ​ Наприклад, він може знімати зображення з камери об'єктів, що рухаються по конвеєрній стрічці, і робити дії на основі цього руху. Якщо на шляху є перешкода, Оператор може побачити її та керувати роботом, щоб її уникнути ​ ✅ Збір даних і захисні рейки в мережі ​ Передаючи інформацію Операторів ончейн до Solana, вони можуть пропонувати незмінні журнали дій з усіх виконаних дій ​ У майбутньому ми можемо побачити момент, коли компанії з робототехніки будуть зобов'язані здійснювати стейкінг токенів, щоб гарантувати, що їхні оператори не змусять робота вступати в фізичний контакт з людиною через певну силу. Якщо вони його порушать, то будуть скорочені на частину токена в стейкінгу (наприклад, EigenLayer / Symbiotic restaking) ​ ✅ Навчальне середовище для робототехніки ​ За допомогою Codec ненавчені віртуальні моделі можуть бути розгорнуті на динамічному, високоточному тренувальному полігоні без необхідності використання фізичного робота. ​ Моделюйте, тренуйте та вдосконалюйте складні моделі поведінки на хмарному рівні, а потім із впевненістю переносьте ці політики на реальне обладнання. Навчальні середовища можуть бути швидко створені для всіх типів операторів (програмне забезпечення, ігри або робототехніка) ​ ✅ Кодек SDK ​ Було розроблено повноцінний SDK та API, щоб розробники могли легко розгортати своїх Операторів ​ ✅ Маркетплейс операторів ​ Операторів можна (у майбутньому) продавати на кастомному маркетплейсі. ​ Буде розподілено дохід, щоб ви могли доставляти та монетизувати свого оператора VLA, а це означає, що якщо ви навчатимете ефективних операторів, ви зможете мати додаткові потоки доходу ​ ✅ Висновок ​ Я думаю, що в наступному році ми побачимо масштабні зрушення в галузі VLA. Ми бачили, як швидко розробляються LLM, це було лише кілька років тому з моменту запуску GPT-1. Робототехніка та моделі зору, швидше за все, стануть гарячим наративом у певний момент цього циклу, і мені подобається позиціонуватися на ранніх етапах ​ О, і я вже згадував, що співзасновники з ігор 👀 Hugging Face та Elixir ​ Примітка: Slappjakke має великі $CODEC сумки, і це один із тих випадків, коли я став ще більш оптимістичним, коли писав цю тему, і додав ще більше ​ Це, як завжди, не фінансова порада і інвестиція з високим ризиком, тому проведіть власне дослідження.
Показати оригінал
8,27 тис.
100
Вміст на цій сторінці надається третіми сторонами. Якщо не вказано інше, OKX не є автором цитованих статей і не претендує на авторські права на матеріали. Вміст надається виключно з інформаційною метою і не відображає поглядів OKX. Він не є схваленням жодних дій і не має розглядатися як інвестиційна порада або заохочення купувати чи продавати цифрові активи. Короткий виклад вмісту чи інша інформація, створена генеративним ШІ, можуть бути неточними або суперечливими. Прочитайте статтю за посиланням, щоб дізнатися більше. OKX не несе відповідальності за вміст, розміщений на сторонніх сайтах. Утримування цифрових активів, зокрема стейблкоїнів і NFT, пов’язане з високим ризиком, а вартість таких активів може сильно коливатися. Перш ніж торгувати цифровими активами або утримувати їх, ретельно оцініть свій фінансовий стан.