Tôi đã thấy một xu hướng khá thú vị. Có vẻ như Moondream đã ra mắt dịch vụ mới mang tên "Lens" chuyên về nâng cao độ chính xác của mô hình ngôn ngữ thị giác. Đó là vào tuần trước, ngày 21 tháng 4.



Cho đến nay, VLM (mô hình ngôn ngữ thị giác) đã thể hiện xuất sắc trong phòng thí nghiệm, nhưng khi đem ra thực tế thì độ chính xác lại giảm rõ rệt. Lens là dịch vụ tinh chỉnh nhằm khắc phục điều đó, hỗ trợ cả học tăng cường và tinh chỉnh có giám sát. Đây là API tính phí theo mức sử dụng, nên người dùng chỉ cần dùng bao nhiêu thì trả bấy nhiêu.

Điều đặc biệt là khả năng cải thiện đáng kể chỉ với lượng dữ liệu nhỏ. Ví dụ, khi dùng để phân tích video phát trực tiếp của NBA, điểm F1 đã tăng từ 28% lên đến 79%. Các lỗi phát hiện sai cũng giảm đáng kể.

Trong các nhiệm vụ như phân biệt quốc gia từ hình ảnh Street View hoặc xử lý hình ảnh y tế, mô hình đã thể hiện hiệu suất vượt trội so với các mô hình hiện có. Có vẻ như việc ứng dụng mô hình ngôn ngữ thị giác đã tiến một bước lớn.

PTZOptics, đối tác ban đầu của Moondream, dự định tích hợp Lens để nâng cao độ chính xác của theo dõi mục tiêu và phát hiện bất thường. Trước đó, Moondream cũng đã phát hành động cơ suy luận Photon, nhưng Lens bổ sung để cân bằng giữa tốc độ và độ chính xác trong vận hành VLM.

Giải quyết các thách thức trong ứng dụng thực tế bằng công nghệ. Những cải tiến nhỏ như vậy sẽ dẫn đến việc phổ biến rộng rãi mô hình ngôn ngữ thị giác trong tương lai.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim