66B là một mô hình ngôn ngữ có quy mô tham số lên tới 66 tỷ, được thiết kế để thực hiện nhiều tác vụ NLP với hiệu suất cao. Nó kế thừa các cải tiến trong kiến trúc transformer và tối ưu hóa để tăng khả năng suy luận và sinh ngôn ngữ tự nhiên.
Kiến trúc của 66B dựa trên transformer với chú ý tự trọng cao và cơ chế feed-forward mạnh mẽ. Với 66 tỷ tham số, mô hình tận dụng kỹ thuật tối ưu hóa như hỗ trợ định dạng precision hỗn hợp, phân bổ chú ý mượt mà và tối ưu hóa phân phối tài nguyên trên nhiều GPU.
66B được huấn luyện trên tập dữ liệu đa ngôn ngữ và đa chủ đề, bao gồm văn bản từ web, sách, bài báo và nguồn công khai khác. Quá trình huấn luyện chú trọng đến tính đa dạng, khuyến khích sự trung lập và giảm thiểu thiên vị.
66B được đánh giá qua các bài toán suy luận, tổng hợp, sinh ngôn ngữ và dịch máy. Ứng dụng tiềm năng gồm trợ lý ảo, hỗ trợ viết, phân tích văn bản, tóm tắt nội dung và sáng tạo nội dung.
Trong sử dụng thực tế, người dùng cần nhận diện các hạn chế, cung cấp nguồn tham khảo và áp dụng biện pháp kiểm tra để đảm bảo an toàn, nhằm giảm thiểu thiên vị và thông tin sai lệch.