2月21日から23日、上海市では2025年のグローバル開発者会議(Global Developer Conference、以下GDCという)が開催されます。上海市産業情報化委員会によると、Hugging Face、Microsoft Developer Community、CSDN、Alibaba Mada Community、Linux Foundation、ARPA Foundation、Huawei Communityなど、国内外から100以上の開発者コミュニティが今回のGDCに参加します。大規模モデル、コンピューティングパワー、コーパス、ツール、ソフトウェアプラットフォームなどのコア技術に焦点を当て、参加する開発者たちはハードウェア開発、クラウドコンピューティング、ビッグデータ、モノのインターネット、AI、ロボット、ブロックチェーン、そしてメタバースなどの分野に関わっています。上海のクパシテクノロジー株式会社は、今回の会議に参加している企業の一つです。クパシは、上海市委員会および市政府の要請に基づいて設立された人工知能コーパスデータプラットフォーム企業で、同社の位置付けは、専門的な機能性コーパスサービス運営プラットフォームであり、ベースモデル、業界モデル、中小企業向けに低コストで高品質なコーパスデータサービスを提供することに取り組んでいます。「私たちのチームは除夕から休んでいません。DeepSeekの革新に取り組んでいます。」Kuiper CEOのHuang Haiqing氏はInterface Newsに述べ、DeepSeekの登場により、AI業界全体が興奮と不安を覚えています。不安の主な点は、なぜ既存の大規模モデルがこれほど多額の資金を投入してもDeepSeekのような効果を上げられないのか、です。彼は、DeepSeekの成功の核心は、元のアルゴリズムの革新だけでなく、高品質な言語データセットの採用にもあると考えています。これにより、コンピューティングパワーやデータの大幅な節約が可能となり、中国の大規模モデル産業にとって新たな方向転換のヒントとなるでしょう。黄海清氏は、現在の大規模モデルの発展状況に基づいて、高品質な言語データセットが大規模モデルの能力の上限を決定すると述べており、高品質な言語データの供給は大規模モデル企業のトレーニングコストを大幅に削減することができます。彼は、クパシはすでに具体的な知能、金融、製造、教育、医療、エンターテイメント、都市統治などの分野の産業コーパスの構築を全面的に開始し、コーパス運営1.0プラットフォームはすでに稼働しており、現在、リアルワールドからシミュレーションまで、データ合成プラットフォーム2.0の開発を加速させています。現在、この企業はすでに50を超えるコーパス生態系のパートナーとリンクしており、パートナーに高品質かつ有効なデータセットを提供することで大規模なモデルのコストを削減しています。Scaling Lawはまだ機能していますが、速度は遅くなっています、と黄海清は判断しています。彼は今後、言語モデルだけでなく、マルチモーダルモデルの適用が爆発的になると考えています。また、ToB(企業)とToG(政府)のビジネスモデルが主要な発展方向になると信じています。現在、多くの基本的なモデル会社が業界に転向していますが、将来、中国市場で生き残ることができる基本的なモデル会社は10社に満たないでしょう。具体の業界では、金融、教育、医療、産業などが既に大規模モデルに取り組んでいると彼は考えています。自動運転、エンボディード・インテリジェンス、サイエンス・インテリジェンスなどの重点分野でも大規模モデルが積極的に活用されています。時間の経過とともに、将来は交通業や小売業などの業界も大規模モデルを採用するでしょう。それに伴い、垂直業界のコーパスにはより多く、より高品質の需要があります。推論モデルに焦点を当てる場合、推論プロセスを元のデータ上に構築する必要があり、これによりコーパスの生成に新たな要求が提起されます。言語データの収集と生産に関して、黄海清は著作権法の面で時代と共に進化し、人工知能や大規模モデルトレーニングの言語データの適切な定義範囲を更新することを提案しています。「これは過去を変えることではなく、追加および更新を行うものであり、私はこれが比較的適切で操作可能な経路であると考えています。」と黄海清は述べています。「人工知能、大規模モデル、コーパスデータの分野では、従来の著作権法は人間向けでしたが、大規模モデルはコーパスデータをトレーニングする際、過去の基準で機械学習を評価すると、必ずしも適切ではありません。さらに、この問題は大規模モデル企業のコーパスデータの調達コストや法的リスクに影響を与えています。」彼は、大規模なモデルの言語データの適切な使用ルールを迅速に明確にすることを提案し、事前トレーニング領域における「テキストとデータマイニング」の適用を推進することを提案しました。国内で機械学習に対するデータの適切な使用を推進し、著作権者の権利と科学技術の発展の必要性をバランスよく保ち、認可の難題を解決することを提案しました。政府は、自動化ツールチェーンプラットフォームの研究開発を強化し、言語データのコストを下げるために、言語データ企業を支援するための政策を制定すべきです。AIの自動クリーニングおよびラベリングツールチェーンプラットフォームを構築し、言語データのコストを下げるべきです。人工知能による生成物の保護範囲に関する法的研究を迅速に進め、明確なルールに基づく人工知能による生成物の所有権と責任を定めるべきです。黄海清はまた、将来、AIがデータのラベリングとクリーニングをリードし、データのラベリングが労働集約型の産業から知識型および技術型に移行するだろうと述べた。(記事の出典:界面ニュース)出典:Oriental Fortune Network著者: インターフェースニュース
コンピューティングパワー之後,高品質なコーパスデータセットまたは大規模モデルの能力上限を決定します
2月21日から23日、上海市では2025年のグローバル開発者会議(Global Developer Conference、以下GDCという)が開催されます。上海市産業情報化委員会によると、Hugging Face、Microsoft Developer Community、CSDN、Alibaba Mada Community、Linux Foundation、ARPA Foundation、Huawei Communityなど、国内外から100以上の開発者コミュニティが今回のGDCに参加します。大規模モデル、コンピューティングパワー、コーパス、ツール、ソフトウェアプラットフォームなどのコア技術に焦点を当て、参加する開発者たちはハードウェア開発、クラウドコンピューティング、ビッグデータ、モノのインターネット、AI、ロボット、ブロックチェーン、そしてメタバースなどの分野に関わっています。
上海のクパシテクノロジー株式会社は、今回の会議に参加している企業の一つです。クパシは、上海市委員会および市政府の要請に基づいて設立された人工知能コーパスデータプラットフォーム企業で、同社の位置付けは、専門的な機能性コーパスサービス運営プラットフォームであり、ベースモデル、業界モデル、中小企業向けに低コストで高品質なコーパスデータサービスを提供することに取り組んでいます。
「私たちのチームは除夕から休んでいません。DeepSeekの革新に取り組んでいます。」Kuiper CEOのHuang Haiqing氏はInterface Newsに述べ、DeepSeekの登場により、AI業界全体が興奮と不安を覚えています。不安の主な点は、なぜ既存の大規模モデルがこれほど多額の資金を投入してもDeepSeekのような効果を上げられないのか、です。
彼は、DeepSeekの成功の核心は、元のアルゴリズムの革新だけでなく、高品質な言語データセットの採用にもあると考えています。これにより、コンピューティングパワーやデータの大幅な節約が可能となり、中国の大規模モデル産業にとって新たな方向転換のヒントとなるでしょう。黄海清氏は、現在の大規模モデルの発展状況に基づいて、高品質な言語データセットが大規模モデルの能力の上限を決定すると述べており、高品質な言語データの供給は大規模モデル企業のトレーニングコストを大幅に削減することができます。
彼は、クパシはすでに具体的な知能、金融、製造、教育、医療、エンターテイメント、都市統治などの分野の産業コーパスの構築を全面的に開始し、コーパス運営1.0プラットフォームはすでに稼働しており、現在、リアルワールドからシミュレーションまで、データ合成プラットフォーム2.0の開発を加速させています。現在、この企業はすでに50を超えるコーパス生態系のパートナーとリンクしており、パートナーに高品質かつ有効なデータセットを提供することで大規模なモデルのコストを削減しています。
Scaling Lawはまだ機能していますが、速度は遅くなっています、と黄海清は判断しています。彼は今後、言語モデルだけでなく、マルチモーダルモデルの適用が爆発的になると考えています。また、ToB(企業)とToG(政府)のビジネスモデルが主要な発展方向になると信じています。現在、多くの基本的なモデル会社が業界に転向していますが、将来、中国市場で生き残ることができる基本的なモデル会社は10社に満たないでしょう。
具体の業界では、金融、教育、医療、産業などが既に大規模モデルに取り組んでいると彼は考えています。自動運転、エンボディード・インテリジェンス、サイエンス・インテリジェンスなどの重点分野でも大規模モデルが積極的に活用されています。時間の経過とともに、将来は交通業や小売業などの業界も大規模モデルを採用するでしょう。それに伴い、垂直業界のコーパスにはより多く、より高品質の需要があります。推論モデルに焦点を当てる場合、推論プロセスを元のデータ上に構築する必要があり、これによりコーパスの生成に新たな要求が提起されます。
言語データの収集と生産に関して、黄海清は著作権法の面で時代と共に進化し、人工知能や大規模モデルトレーニングの言語データの適切な定義範囲を更新することを提案しています。
「これは過去を変えることではなく、追加および更新を行うものであり、私はこれが比較的適切で操作可能な経路であると考えています。」と黄海清は述べています。「人工知能、大規模モデル、コーパスデータの分野では、従来の著作権法は人間向けでしたが、大規模モデルはコーパスデータをトレーニングする際、過去の基準で機械学習を評価すると、必ずしも適切ではありません。さらに、この問題は大規模モデル企業のコーパスデータの調達コストや法的リスクに影響を与えています。」
彼は、大規模なモデルの言語データの適切な使用ルールを迅速に明確にすることを提案し、事前トレーニング領域における「テキストとデータマイニング」の適用を推進することを提案しました。国内で機械学習に対するデータの適切な使用を推進し、著作権者の権利と科学技術の発展の必要性をバランスよく保ち、認可の難題を解決することを提案しました。政府は、自動化ツールチェーンプラットフォームの研究開発を強化し、言語データのコストを下げるために、言語データ企業を支援するための政策を制定すべきです。AIの自動クリーニングおよびラベリングツールチェーンプラットフォームを構築し、言語データのコストを下げるべきです。人工知能による生成物の保護範囲に関する法的研究を迅速に進め、明確なルールに基づく人工知能による生成物の所有権と責任を定めるべきです。
黄海清はまた、将来、AIがデータのラベリングとクリーニングをリードし、データのラベリングが労働集約型の産業から知識型および技術型に移行するだろうと述べた。
(記事の出典:界面ニュース)
出典:Oriental Fortune Network
著者: インターフェースニュース