Após Poder de computação,a alta qualidade do conjunto de dados de corpus ou determina o limite da capacidade do grande modelo

robot
Geração do resumo em andamento

De 21 a 23 de fevereiro, a cidade de Xangai sediará a Conferência Global de Desenvolvedores de 2025 (Global Developer Conference, aqui referida como GDC). A Comissão de Economia e Informação de Xangai introduziu que 100 comunidades de desenvolvedores nacionais e estrangeiras, incluindo Hugging Face, a Comunidade de Desenvolvedores da Microsoft, CSDN, a Comunidade de Desenvolvedores do Alibaba, a Fundação Linux, a Fundação ARPA, a Comunidade Huawei, entre outras, participarão do GDC deste ano; focando em tecnologias centrais como modelos de grande escala, poder de computação, corpora, ferramentas, plataformas de software, e o grupo de desenvolvedores participantes envolve desenvolvimento de hardware, computação em nuvem, big data, internet das coisas, IA, robótica, blockchain e Metaverso.

Shanghai Coopas Technology Co., Ltd. é uma das empresas que participam da conferência. A empresa está posicionada como uma plataforma profissional de operação de serviços de corpus funcional e está comprometida em fornecer serviços de dados de corpus de baixo custo e alta qualidade para modelos básicos, modelos verticais e pequenos e médios empreendedores inovadores.

"Toda a nossa equipa não descansou desde o quarto dia do Ano Novo Lunar, todos estão a fazer investigação e acompanhamento da inovação do DeepSeek." O CEO da Kupas, Huang Haiqing, disse ao Interface News que o surgimento repentino do DeepSeek deixou a indústria de IA excitada e ansiosa. A principal preocupação é por que os modelos grandes existentes receberam tanto investimento, mas não conseguiram alcançar os mesmos resultados que o DeepSeek.

Ele acredita que, para além da inovação do algoritmo original, o sucesso central do DeepSeek reside no uso de conjuntos de dados de alta qualidade, o que pode economizar significativamente Poder de computação e dados, fornecendo assim uma ideia para a indústria de grandes modelos da China 'ultrapassar pela direita'. Huang Haiqing afirmou que, de acordo com a situação atual do desenvolvimento de grandes modelos, conjuntos de dados de alta qualidade determinarão o limite de capacidade dos grandes modelos, e o fornecimento de conjuntos de dados de alta qualidade pode reduzir consideravelmente os custos de treinamento das empresas de grandes modelos.

Ele introduziu que o Kupas já iniciou abrangente construção de corpus da indústria nos campos de inteligência encarnada, finanças, manufatura, educação, saúde, entretenimento, governança urbana, etc. A plataforma de operação de corpus 1.0 já está em operação e está acelerando o desenvolvimento da plataforma 2.0 da simulação do mundo real à síntese de dados. Atualmente, a empresa já se conectou a mais de 50 parceiros ecológicos de corpus, reduzindo o custo dos grandes modelos, fornecendo conjuntos de dados de alta qualidade e eficazes aos parceiros.

A Lei da Escala ainda está em funcionamento, mas a velocidade diminuiu, julga Huang Haiqing. Ele acredita que, no futuro, para além dos modelos linguísticos de grande escala, a aplicação de modelos multimodais de grande escala começará a explodir, e os modelos de negócios ToB (empresarial) e ToG (governo) se tornarão a principal direção de desenvolvimento das empresas de grandes modelos. Atualmente, muitas empresas de modelos de grande escala estão se voltando para indústrias verticais, e no futuro, no mercado chinês, apenas menos de dez empresas de modelos de grande escala poderão sobreviver.

Em setores específicos, ele acredita que atualmente os setores financeiro, educacional, médico e industrial já abraçaram prioritariamente modelos grandes. E em áreas-chave, como direção autônoma, inteligência encarnada, inteligência científica, também estão ativamente aplicando modelos grandes. Com o passar do tempo, o futuro setor de transporte, varejo e outros setores também aplicarão modelos grandes. Isso também demandará um maior e melhor qualidade de corpus vertical da indústria. Para modelos de raciocínio, também será necessário construir processos de raciocínio nos dados originais, o que também traz novas exigências para a produção de corpus.

Na recolha e produção de dados de corpus, Huang Haiqing também sugere acompanhar de perto a legislação de direitos de autor, e fazer algumas atualizações no âmbito da definição razoável de dados de corpus para inteligência artificial e treino de grandes modelos.

"Isso não se trata de mudar o passado, mas de adicionar e atualizar. Eu acho que este é um caminho mais adequado e operacional," disse Huang Haiqing. "No campo da inteligência artificial, modelos grandes e dados de corpus, as leis de direitos autorais anteriores eram destinadas a pessoas. Ao treinar dados de corpus para modelos grandes, se usarmos os padrões antigos para avaliar os padrões de aprendizado de máquina, pode não ser tão apropriado. Além disso, esse problema já afetou os custos de aquisição de corpus de empresas de modelos grandes e os riscos legais."

Ele sugeriu acelerar a definição de regras razoáveis para o uso de grandes conjuntos de dados de modelos de linguagem, promover a aplicação de 'textos e mineração de dados' no campo do pré-treinamento; promover o uso razoável de dados para aprendizado de máquina no país, equilibrar os direitos dos detentores de direitos autorais e as necessidades de desenvolvimento tecnológico, e resolver o problema da difícil autorização; o governo deve implementar políticas de incentivo, apoiar o desenvolvimento de plataformas de cadeia de ferramentas automatizadas para empresas de dados de linguagem, e reduzir o custo de dados de linguagem; construir uma plataforma de cadeia de ferramentas de limpeza e marcação automática de IA, reduzindo custos de dados de linguagem; acelerar a pesquisa jurídica sobre o escopo de proteção de produtos gerados por inteligência artificial, e estabelecer regras claras sobre a propriedade e responsabilidade dos produtos gerados por inteligência artificial.

Huang Haiqing also stated that in the future, AI will dominate the annotation and cleaning of data, and data annotation will transition from labor-intensive industries to knowledge-based and technical ones.

(Fonte do artigo: Interface News)

Fonte: East Money

Autor: Interface Notícias

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • 1
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)