Після обчислювальної потужності, високоякісний корпус даних або визначають верхній рівень можливостей великої моделі

robot
Генерація анотацій у процесі

З 21 по 23 лютого в Шанхаї відбудеться Глобальна конференція розробників 2025 року (Global Developer Conference, надалі - GDC). Комісія з економіки і інформатизації Шанхая пояснює, що в цьому році в GDC візьмуть участь понад 100 внутрішніх та зарубіжних розробників, таких як Hugging Face, спільнота розробників Microsoft, CSDN, спільнота MoDAGA Alibaba, Фонд лінуксу, Фонд ARPA, спільнота Huawei тощо; фокусуючись на основних технологіях, таких як великі моделі, Обчислювальна потужність, корпуси, інструменти, програмні платформи тощо, групи розробників, які беруть участь, охоплюють аспекти аппаратної розробки, хмарних обчислень, великих даних, інтернет речей, штучного інтелекту, робототехніки, блокчейну та Метавсесвіту.

Компанія Shanghai Kupas Technology Co., Ltd. - один із учасників цього заходу. Kupas - це підприємство-платформа для даних корпусів штучного інтелекту, яке було створено ​​відповідно до вимог Шанхайського міського комітету та міськради. Компанія спеціалізується на наданні послуг з корпусування зацікавленим сторонам, таким як базові моделі, вертикальні моделі та малі та середні інноваційні підприємці, забезпечуючи послуги з корпусування низької вартості та високої якості.

"Наша вся команда не відпочивала з початку китайського нового року і продовжувала дослідження та відстеження інновацій DeepSeek" - заявив голова Купасіс Хуан Хайцин у коментарі для інтерфейсу новин. З'явлення DeepSeek викликало як захоплення, так і тривогу в цілій галузі штучного інтелекту. Основна тривога полягає в тому, чому існуючі великі моделі отримали стільки коштів, але не досягли такого ефекту, як DeepSeek."

Він вважає, що успішна основа DeepSeek, крім інноваційного початкового алгоритму, полягає в використанні високоякісного корпусу даних, що значно економить Обчислювальна потужність та дані, що надає концепції Китайської великої модельної галузі "обгон в повороті". Хуан Хайцін вказує, що згідно з поточною ситуацією з великими моделями, які розвиваються, високоякісний корпус даних визначатиме верхню межу здатності великої моделі, а високоякісне постачання корпусу даних значно знизить витрати на навчання великих модельних компаній.

Він пояснив, що Купасі вже повністю запустив будівництво корпусних корпусів у сферах фінансів, виробництва, освіти, охорони здоров'я, розваг, міського управління та інших сфер. Платформа операційного управління корпусом 1.0 вже була введена в експлуатацію, і зараз прискорюється розробка платформи 2.0 з моделювання реального світу, симуляції та синтезу даних. На даний момент ця компанія вже співпрацює з понад 50 екологічними партнерами корпусу, надаючи їм високоякісний та ефективний набір даних для зниження вартості великих моделей.

Закон масштабування все ще працює, але швидкість вже сповільнилася, вважає Хуан Хайцін. Він вважає, що у майбутньому застосування багатомодових великих моделей почнуть вибухати поза межами мовних великих моделей, а бізнес-моделі ToB (підприємства) та ToG (управління) стануть основними напрямками розвитку великих компаній-моделей, багато базових компаній-моделей вже переходять до промислових категорій, у майбутньому на ринку Китаю виживуть менше десяти базових великих моделей.

У конкретній галузі він вважає, що зараз фінанси, освіта, медицина, промисловість вже віддали перевагу великим моделям. Щодо ключових сфер, таких як автономне водіння, інтелектуальні роботи, науковий інтелект, також активно застосовують великі моделі. З плином часу у майбутньому транспортна галузь, роздрібна торгівля та інші галузі також будуть використовувати великі моделі. Відповідно, виникає більш великий та вищої якості попит на вертикальні корпуси. Для моделей мислення також потрібно створювати процес мислення на основі початкових даних, що також ставить перед виробництвом корпусів нові вимоги.

У зборі та виробництві корпусних даних Хуан Хайцін пропонує також забезпечити вдосконалення законодавства з питань авторського права, оновити обсяги розумного визначення даних для навчання штучних інтелектів та великих моделей.

"Це не змінює минуле (правило), а лише додає і оновлює, я вважаю, що це досить придатний і доступний шлях." сказав Хуан Хайцін, "В галузі штучного інтелекту, великих моделей та мовних даних, раніше діюче авторське право було призначене для людей, великі моделі при тренуванні мовних даних, якщо використовувати стандарти минулого для вимірювання стандартів машинного навчання, це може бути не зовсім вірним. Крім того, ця проблема вже вплинула на витрати компаній великих моделей на закупівлю мовних даних та юридичні ризики."

Він запропонував прискорити встановлення раціональних правил використання великих корпусів даних для впереднього навчання текстів та видобування даних, сприяти застосуванню "тексту та видобування даних"; впровадження в країні раціонального використання даних для машинного навчання, збалансування прав власників авторських прав та потреб розвитку технологій, вирішення проблеми важкості надання дозволів; уряд повинен прийняти заохочувальні заходи, підтримувати розробку автоматизованих платформ ланцюга інструментів для мовних даних, зниження вартості мовних даних; створити платформу ланцюжка інструментів для автоматичного очищення та позначення штучного інтелекту, зниження вартості мовних даних; прискорити правові дослідження обсягу захисту штучного інтелекту, розроблення чітких правил власності та відповідальності за штучний інтелект.

Хуан Хайцин також заявив, що в майбутньому штучний інтелект буде провідним у маркуванні та очищенні даних, а маркування даних буде переходити з працеінтенсивних галузей до знаннєвих та технічних галузей.

(Джерело статті: новини інтерфейсу)

Джерело: Східний багатство мережі

Автор: Новини інтерфейсу

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • 1
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити