66B được xây dựng trên kiến trúc Transformer phổ biến, với nhiều lớp tự chú ý và mạng feed-forward. Mô hình được đào tạo trên tập dữ liệu văn bản đa dạng nhằm nắm bắt ngữ cảnh, ngữ pháp và tri thức chung của thế giới.

Về hiệu suất, 66B có khả năng sinh văn bản, trả lời câu hỏi và hỗ trợ viết mã ở mức độ linh hoạt tương đối cho một mô hình ở kích thước vừa phải. Tuy vậy, nó vẫn có giới hạn về hiểu biết ngữ nghĩa sâu, có thể sinh thông tin sai và gặp khó khăn với tác vụ đòi hỏi suy luận dài hoặc dữ liệu mỏng.
So với các mẫu có 100B hoặc 175B tham số, 66B mang lại lợi thế về yêu cầu tính toán và tài nguyên triển khai, phù hợp với hạ tầng hạn chế. Tuy nhiên, hiệu suất ở các tác vụ phức tạp vẫn có thể thua kém so với các model lớn hơn.

66B có thể được dùng cho hỗ trợ khách hàng tự động, tạo nội dung, trợ lý lập trình và phân tích ngôn ngữ. Để triển khai an toàn và ổn định, cần tinh chỉnh, giám sát đầu ra và áp dụng các biện pháp lọc nội dung phù hợp.
