Claude Fable 5 là mô hình mạnh nhất trên hầu hết benchmark hiện nay, nhưng Gemini 3.5 Flash mang đến hiệu suất tiệm cận với tốc độ nhanh gấp 4 lần và chi phí rẻ hơn gấp 5 đến 7 lần. Nếu bạn đang cân nhắc giữa hai mô hình này cho production, thực chất bạn đang đứng trước hai triết lý hoàn toàn khác nhau về một mô hình frontier.
Tóm tắt các điểm chính
Fable 5 đại diện cho đỉnh cao năng lực của Anthropic: mô hình mạnh nhất được mở công khai, đạt điểm số vượt trội trên mọi benchmark, nhưng đi kèm mức giá 10 đô la cho một triệu token input và 50 đô la cho output, cùng hệ thống phân loại an toàn có thể âm thầm chuyển hướng truy vấn sang mô hình khác giữa chừng. Gemini 3.5 Flash là hướng đặt cược của Google DeepMind vào điểm giao hoàn hảo giữa tốc độ, chi phí và trí thông minh: một mô hình dòng Flash nhưng vượt qua cả mô hình lớn hơn của chính Google trên các benchmark lập trình và tác tử, tốc độ đầu ra vượt trội, và giá chỉ 1,50 đô la input cùng 9 đô la output. Infinity News sẽ so sánh hai mô hình trên bốn khía cạnh: hiệu suất lập trình và tác tử, tốc độ và độ trễ, khả năng xử lý ngữ cảnh dài, và chi phí.
- Fable 5 đạt 80,3% trên SWE-Bench Pro, bỏ xa Gemini 3.5 Flash ở mức 55,1% trên bộ công khai, khoảng cách 25 điểm phản ánh khác biệt thực sự về năng lực giải quyết issue GitHub phức tạp.
- Gemini 3.5 Flash đạt tốc độ đầu ra khoảng 280 token mỗi giây, nhanh gấp 4 lần so với các mô hình frontier cùng phân khúc, với mức giá rẻ hơn Fable 5 từ 5 đến 7 lần cho mỗi token.
- Chi phí output của Fable 5 là 50 đô la cho mỗi triệu token, trong khi Gemini 3.5 Flash chỉ 9 đô la, kèm theo mức giảm 90% cho input đã cache xuống còn 0,15 đô la.
- Gemini 3.5 Flash được phát hành rộng rãi từ ngày đầu, còn Fable 5 yêu cầu credit sử dụng bổ sung sau ngày 22 tháng 6 năm 2026.
- Lựa chọn tối ưu phụ thuộc vào việc tác vụ của bạn có đủ khó để cần đến đỉnh năng lực của Fable 5 hay không, hay tốc độ và chi phí trên mỗi lần gọi mới là yếu tố quyết định.
Tổng quan Claude Fable 5
Claude Fable 5 là mô hình đầu tiên thuộc lớp Mythos của Anthropic được mở cho người dùng phổ thông, ra mắt chỉ hai ngày trước thời điểm bài viết này được công bố. Fable 5 dùng chung kiến trúc nền tảng với Claude Mythos 5, nhưng kích hoạt các bộ phân loại an toàn: một đầu dò giám sát các kích hoạt nội bộ trên toàn bộ lưu lượng và các yêu cầu bị gắn cờ sẽ được leo thang lên một bộ phân loại LLM riêng biệt. Những yêu cầu bị chặn sẽ được định tuyến lại sang Claude Opus 4.8.
Fable 5 là mô hình dẫn đầu trên hầu hết mọi benchmark được kiểm tra, thực sự cực kỳ mạnh ở công nghệ phần mềm, công việc tri thức, thị giác máy và các tác vụ tác tử kéo dài. Nhiệm vụ càng phức tạp và kéo dài, khoảng cách dẫn trước của Fable 5 so với các mô hình Claude đời trước càng lớn.
Gemini 3.5 Flash
Gemini 3.5 Flash là bản phát hành tháng 5 của Google DeepMind, được công bố tại Google I/O 2026 như mô hình đầu tiên trong gia đình Gemini 3.5 mới. Dù mang thương hiệu "Flash", đây không phải là mô hình ngân sách theo nghĩa truyền thống: nó vượt qua cả Gemini 3.1 Pro lớn hơn của chính Google trên bộ benchmark lập trình và tác tử, trong khi chạy nhanh gấp khoảng 4 lần so với các mô hình frontier cùng phân khúc.
Gemini 3.5 Flash là mô hình suy luận với các tham số nỗ lực suy nghĩ có thể cấu hình (tối thiểu, thấp, trung bình, cao), mặc định ở mức trung bình. Mô hình hỗ trợ cửa sổ ngữ cảnh một triệu token, đầu vào đa phương thức (văn bản, hình ảnh, âm thanh, video, PDF) và tốc độ đầu ra đạt khoảng hơn 280 token mỗi giây. Google đã đưa mô hình này làm mặc định trong ứng dụng Gemini và AI Mode trong Search ngay từ ngày ra mắt.
Một điểm đáng lưu ý: 3.5 Flash có giá mỗi token cao gấp khoảng 3 lần so với Gemini 3 Flash tiền nhiệm (0,50 đô la input và 3 đô la output). Vì vậy, giá của nó rẻ khi so với các mô hình flagship, chứ không rẻ so với chính dòng Flash. Ngoài ra, vì token suy nghĩ được tính theo giá output, các tác vụ suy luận nặng ở mức nỗ lực cao có thể tiêu tốn nhiều token output hơn đáng kể so với những gì prompt gợi ý ban đầu. Đây là điều cần lưu tâm khi ước tính chi phí thực tế.
So sánh Claude Fable 5 và Gemini 3.5 Flash
Hai bảng dưới đây tóm tắt vị trí của từng mô hình: một bảng cho kết quả benchmark và một bảng cho các yếu tố thực tiễn như giá cả, tốc độ và khả năng truy cập.
Kết quả benchmark
| Benchmark | Claude Fable 5 | Gemini 3.5 Flash |
|---|---|---|
| SWE-Bench Pro | 80,3% | 55,1% (bộ công khai) |
| Terminal-Bench 2.1 | 88,0%* | 76,2% |
| Humanity's Last Exam (có công cụ) | 64,5% | Thấp hơn Gemini 3.1 Pro (không so sánh trực tiếp) |
| OSWorld-Verified | 85,0% | Chưa công bố |
| MCP Atlas (phối hợp đa công cụ) | Chưa công bố | 83,6% |
Có thể thấy Claude Fable 5 chiến thắng trong tất cả các so sánh benchmark trực tiếp mà có dữ liệu sẵn để đối chiếu giữa hai mô hình.
Giá cả, tốc độ và khả năng truy cập
| Tiêu chí | Claude Fable 5 | Gemini 3.5 Flash |
|---|---|---|
| Giá input API (mỗi 1M token) | 10 đô la | 1,50 đô la |
| Giá output API (mỗi 1M token) | 50 đô la | 9,00 đô la |
| Giá input đã cache | Không có | 0,15 đô la mỗi 1M (giảm 90%) |
| Tốc độ đầu ra | Độ trễ tiêu chuẩn của mô hình frontier | Hơn 280 token mỗi giây, nhanh gấp ~4 lần |
| Cửa sổ ngữ cảnh | Tuyên bố duy trì qua hàng triệu token; chưa công bố MRCR ở mức 512K+ | 1 triệu token (giới hạn input 1.048.576) |
| Tình trạng truy cập | Giới hạn (cần credit sử dụng sau 22/6) | Mở rộng (ứng dụng Gemini, AI Studio, Antigravity, API, AI Mode trong Search) |
Hiệu suất lập trình và tác tử
Đây là khía cạnh mà khoảng cách năng lực giữa hai mô hình lớn nhất. Trên SWE-Bench Pro, Fable 5 đạt 80,3% so với 55,1% của Gemini 3.5 Flash trên bộ công khai. Khoảng cách 25 điểm phần trăm này phản ánh sự khác biệt thực sự. Với lập trình cấp repository trên các codebase phức tạp, Fable 5 có thể tự động giải quyết phần lớn issue GitHub thực tế, điều mà Gemini 3.5 Flash khó có thể làm được với cùng mức độ tin cậy.
Thế mạnh mà Gemini 3.5 Flash mang lại nằm ở thông lượng tác tử chứ không phải chiều sâu tác tử. Flash được tối ưu hóa rõ ràng cho các vòng lặp thực thi song song, triển khai sub-agent và lặp nhanh. Điểm số 83,6% trên MCP Atlas, benchmark phối hợp đa công cụ nơi nó đánh bại GPT-5.5 với 75,3%, cho thấy một mô hình được xây dựng để điều phối nhiều lệnh gọi công cụ nhanh thay vì duy trì một chuỗi suy luận sâu và dài. Google cũng báo cáo mức cải thiện đáng kể về hiệu quả token trong các kịch bản tác tử thực tế so với các phiên bản Flash trước đây.
Cách suy nghĩ đúng về vấn đề này: nếu tác tử của bạn cần suy nghĩ kỹ về một số ít bước khó như tái cấu trúc phức tạp, thay đổi kiến trúc hay gỡ lỗi hóc búa, Fable 5 chiến thắng. Nếu tác tử của bạn cần thực thi nhiều bước nhanh, có độ khó vừa phải và song song như pipeline thu thập và tóm tắt, phối hợp đa công cụ hay phân loại khối lượng lớn, hồ sơ tốc độ và chi phí của Flash là lựa chọn hợp lý.
Tốc độ và độ trễ
Gemini 3.5 Flash tạo ra đầu ra ở tốc độ khoảng hơn 280 token mỗi giây, nhanh gấp nhiều lần so với các mô hình flagship frontier thông thường. Fable 5 không được định vị là một mô hình nhanh. Nó được định vị là mô hình bạn sử dụng khi tác vụ đủ khó để bạn sẵn sàng chờ đợi câu trả lời.
Hiệu suất ngữ cảnh dài
Gemini 3.5 Flash hỗ trợ khoảng một triệu token input và dòng Gemini từ trước đến nay luôn mạnh về truy xuất ngữ cảnh dài. Tuy nhiên, Flash được báo cáo là thua chính Gemini 3.1 Pro của Google trên MRCR v2.
Anthropic tuyên bố Fable 5 duy trì được sự tập trung qua hàng triệu token trong các tác vụ kéo dài và cải thiện đầu ra bằng ghi chú của chính nó. Nhưng Anthropic chưa công bố điểm số kiểu MRCR ở dải 512K đến 1M, vì vậy không thể so sánh một cách công bằng ở đây.
Với nhu cầu rà soát tài liệu hàng triệu token, cả hai mô hình đều chưa có lợi thế công bố rõ ràng. Nếu độ tin cậy ở ngữ cảnh dài là biến số quan trọng nhất, GPT-5.5 với điểm MRCR v2 đã công bố 74,0% ở dải 512K đến 1M mới là cái tên đáng chú ý.
Chi phí và khả năng truy cập
Khoảng cách giá giữa hai mô hình là rất lớn. Fable 5 có giá 10 đô la cho mỗi triệu token input và 50 đô la cho mỗi triệu token output. Gemini 3.5 Flash có giá lần lượt là 1,50 đô la và 9 đô la, đồng thời còn có input đã cache ở mức 0,15 đô la mỗi triệu token, tương đương mức giảm 90%. Như vậy Gemini 3.5 Flash rẻ hơn khoảng 6 đến 7 lần cho input và 5 đến 6 lần cho output.
Tuy nhiên, câu chuyện giá cả không bao giờ đơn giản như bề mặt. Trước hết, Flash là mô hình suy luận mà token suy nghĩ được tính theo giá output, vì vậy các tác vụ suy luận ở mức nỗ lực cao có thể tiêu tốn nhiều token output hơn đáng kể so với những gì prompt gợi ý. Cần benchmark trên chính khối lượng công việc của bạn trước khi mặc định Flash là rẻ cho use case của mình. Ngoài ra, khi bộ phân loại của Fable 5 chuyển hướng một truy vấn, bạn bị tính giá theo Opus 4.8 (5 đô la input và 25 đô la output), không phải giá Fable 5. Dù đây có lẽ là yếu tố giảm nhẹ nhỏ về chi phí.
Khả năng truy cập là một bất đối xứng khác. Gemini 3.5 Flash được phát hành rộng rãi ngay từ ngày đầu trên ứng dụng Gemini, Google AI Studio, Antigravity, Gemini API và AI Mode trong Search. Quyền truy cập theo gói đăng ký của Fable 5 có một cột mốc quan trọng: người dùng Pro, Max, Team và Enterprise chỉ được truy cập miễn phí đến ngày 22 tháng 6 năm 2026, thời điểm đang đến rất gần, sau đó cần credit sử dụng bổ sung trên gói đăng ký hiện có.
Khi nào nên chọn Claude Fable 5 và khi nào nên chọn Gemini 3.5 Flash?
Quyết định xoay quanh hai biến số: tác vụ của bạn có đủ khó để cần đến đỉnh năng lực của Fable 5 hay không, và liệu tốc độ cùng chi phí trên mỗi lần gọi có phải là yếu tố chi phối bài toán kinh tế của bạn hay không.
| Use case | Khuyến nghị | Lý do |
|---|---|---|
| Lập trình cấp repository trên codebase phức tạp | Claude Fable 5 | 80,3% so với 55,1% trên SWE-Bench Pro là khoảng cách 25 điểm phản ánh khác biệt năng lực thực sự |
| Pipeline tác tử khối lượng lớn, nhạy cảm về độ trễ | Gemini 3.5 Flash | Tốc độ đầu ra khoảng hơn 280 token mỗi giây, thực thi sub-agent song song và chi phí token thấp hơn 5 đến 7 lần, nhân lên qua hàng nghìn lần gọi |
| Sản phẩm tiêu dùng tương tác và trải nghiệm chat | Gemini 3.5 Flash | Lợi thế tốc độ gấp 4 lần là một tính năng sản phẩm; độ trễ và chi phí của Fable 5 không phù hợp cho mục đích tiêu dùng tần suất cao |
| Công việc tri thức và tài chính phức tạp | Claude Fable 5 | Dẫn trước Hebbia's Finance Benchmark và Humanity's Last Exam có công cụ (64,5%) |
| Phối hợp đa công cụ trên nhiều dịch vụ | Gemini 3.5 Flash | 83,6% trên MCP Atlas là điểm phối hợp đa công cụ cao nhất được công bố trong số các mô hình frontier |
| Pipeline đa phương thức (video, âm thanh, PDF) | Gemini 3.5 Flash | Đầu vào đa phương thức tự nhiên cho văn bản, hình ảnh, âm thanh, video và PDF |
| Ngành được quản lý yêu cầu không lưu trữ dữ liệu | Gemini 3.5 Flash | Yêu cầu lưu trữ 30 ngày bắt buộc của Fable 5 là rào cản cứng với một số doanh nghiệp |
Chọn Claude Fable 5 nếu...
Use case chính của bạn là lập trình cấp repository. Bạn cần đỉnh năng lực cao nhất hiện có cho các tác vụ phân tích phức tạp như tài chính, suy luận đa ngành hay tác vụ tác tử kéo dài, và độ trễ là yếu tố thứ yếu. Công việc của bạn không liên quan đến an ninh mạng, sinh học hay hóa học, nhờ đó việc bộ phân loại chuyển hướng ít có khả năng ảnh hưởng đến phiên làm việc.
Chọn Gemini 3.5 Flash nếu...
Bài toán kinh tế của bạn được thúc đẩy bởi khối lượng: hàng nghìn lần gọi mỗi ngày, nơi chênh lệch chi phí nhân lên thành sự khác biệt về bậc độ lớn của tổng chi tiêu. Tốc độ là yêu cầu sản phẩm, như trải nghiệm người dùng tương tác, tác tử thời gian thực hoặc pipeline mà thời gian thực thi qua nhiều lệnh gọi công cụ quan trọng hơn chiều sâu từng bước. Bạn cần đầu vào đa phương thức rộng như video, âm thanh, PDF trong cùng một mô hình. Chính sách dữ liệu doanh nghiệp của bạn không thể đáp ứng yêu cầu lưu trữ 30 ngày bắt buộc của Fable 5, hoặc bạn cần một mô hình không âm thầm thay đổi giữa chừng trong pipeline.
Kết luận
Đây không thực sự là một so sánh ngang hàng. Fable 5 và Gemini 3.5 Flash chiếm giữ những vị trí khác nhau trên thị trường: một bên là đỉnh cao năng lực đi kèm với những rào cản nhất định, bên kia là đường biên hiệu quả với mức trần năng lực thấp hơn.
Nếu năng lực thô cho các tác vụ khó là biến số duy nhất, Fable 5 chiến thắng một cách quyết định. Nhưng đề xuất giá trị của Flash không phải là "gần giỏi bằng với giá rẻ hơn". Infinity News không muốn hạ thấp giá trị của nó: đây là trí thông minh tiệm cận frontier được phân phối đủ nhanh và đủ rẻ để sử dụng ở những nơi mà Fable 5 chưa bao giờ khả thi về mặt kinh tế.