Mô hình Composer của Cursor là gì?

Cursor đã huấn luyện Composer 2.5 trên Qwen K2.5 bằng các kỹ thuật RL mới, cạnh tranh với GPT 5.5 và Opus.

Câu chuyện về Cursor: Từ trình soạn thảo code đến AI lab

Khi Cursor ra mắt, nó là một wrapper thông minh xung quanh GPT-4 — một trình soạn thảo code giúp việc hỗ trợ AI trở nên liền mạch với quy trình phát triển. Ngày nay, công ty đứng sau nó, Anysphere, đang đào tạo các mô hình tiên tiến của riêng mình và cạnh tranh trực tiếp với OpenAI và Anthropic về hiệu năng chuẩn. Đó là một bước ngoặt đáng kể trong một thời gian rất ngắn.

Điểm nhấn của sự chuyển đổi này là mô hình Composer của Cursor — cụ thể là phiên bản được đào tạo trên Qwen 2.5 Coder bằng các kỹ thuật học tăng cường mới. Hiểu được Composer là gì, cách thức hoạt động và những tín hiệu phát triển của nó trong bối cảnh AI rộng lớn hơn không chỉ quan trọng đối với các nhà phát triển mà còn đối với bất kỳ ai đang suy nghĩ về hướng đi của những ứng dụng AI chuyên biệt.

Bài viết này sẽ phân tích chi tiết mô hình Composer của Cursor là gì, Anysphere đã xây dựng nó như thế nào, nó cạnh tranh với đối thủ nào và tham vọng rộng lớn hơn của công ty có ý nghĩa gì đối với lĩnh vực AI lập trình.

Tính năng Composer của Cursor là gì?

Trước khi nói về mô hình, cần làm rõ bối cảnh sản phẩm. Cursor là một trình soạn thảo code – về cơ bản là một phiên bản phát triển từ VS Code – được xây dựng bởi Anysphere. Tính năng mạnh mẽ nhất của nó được gọi là Composer, hoạt động như một trợ lý lập trình tự động có thể chỉnh sửa nhiều file cùng một lúc.

Không giống như tính năng tự động hoàn thành đơn giản hoặc trợ lý trò chuyện chỉ chỉnh sửa một file, Composer hoạt động giống như một lập trình viên tập sự mà bạn có thể giao nhiệm vụ:

  • Bạn mô tả một tính năng, sửa lỗi hoặc tái cấu trúc bằng ngôn ngữ tự nhiên
  • Composer đọc ngữ cảnh codebase liên quan
  • Nó đề xuất và áp dụng các thay đổi trên nhiều file
  • Nó có thể lặp lại dựa trên phản hồi của bạn

Điều này khác biệt hoàn toàn so với các công cụ lập trình AI đời đầu chỉ gợi ý code trực tiếp. Composer suy luận về cấu trúc của dự án, hiểu các dependency và thực hiện những kế hoạch nhiều bước — đó là lý do nó được xếp vào loại “agentic”.

Sự khác biệt giữa Composer và Cursor Tab

Nhiều người dùng nhầm lẫn Cursor Tab (tính năng tự động hoàn thành) với Composer. Chúng là hai công cụ khác nhau:

  • Cursor Tab xử lý việc hoàn thành theo thời gian thực, nhận biết ngữ cảnh khi bạn gõ. Nó nhanh, cục bộ và phản hồi nhanh.
  • Composer chủ động, hỗ trợ nhiều file và có khả năng hội thoại. Bạn đưa ra mục tiêu; nó sẽ tìm ra cách đạt được mục tiêu đó trên toàn bộ codebase của bạn.

Composer là nơi Anysphere đã đầu tư mạnh vào việc đào tạo các mô hình độc quyền thay vì hoàn toàn dựa vào những lệnh gọi API đến các nhà cung cấp bên thứ ba.

Cách Anysphere đào tạo mô hình Composer

Quyết định của Anysphere trong việc tự đào tạo mô hình của mình thay vì chỉ dựa vào các lệnh gọi API của OpenAI hoặc Anthropic đánh dấu bước tiến của công ty vào lĩnh vực trí tuệ nhân tạo tiên tiến. Dưới đây là những thông tin đã biết về phương pháp kỹ thuật.

Nền tảng Qwen 2.5 Coder

Mô hình Composer được xây dựng trên nền tảng Qwen 2.5 Coder, một mô hình trọng số mở được phát hành bởi nhóm Qwen của Alibaba. Qwen 2.5 Coder nổi bật khi ra mắt nhờ hiệu năng mạnh mẽ trên các bài kiểm tra lập trình — trong một số đánh giá, nó đạt hiệu suất tương đương hoặc vượt trội hơn nhiều so với các mô hình mã nguồn đóng lớn hơn trên những tác vụ như HumanEval và SWE-bench.

Việc sử dụng mô hình trọng số mở làm nền tảng là một lựa chọn chiến lược có chủ đích. Điều này cho phép Anysphere:

  • Tinh chỉnh mô hình trên dữ liệu mã hóa độc quyền mà không phải trả phí API trên mỗi token
  • Kiểm soát trực tiếp cơ sở hạ tầng suy luận
  • Sửa đổi hành vi của mô hình ở cấp độ cơ bản thay vì chỉ nhắc nhở về các hạn chế

Phương pháp này, đôi khi được gọi là huấn luyện trước liên tục hoặc tinh chỉnh theo lĩnh vực cụ thể, ngày càng phổ biến trong các công ty muốn kiểm soát ở cấp độ mô hình mà không phải tốn chi phí huấn luyện từ đầu.

Học tăng cường cho các code agent

Phần thú vị hơn trong quá trình huấn luyện Composer là việc ứng dụng các kỹ thuật học tăng cường được thiết kế đặc biệt cho những nhiệm vụ lập trình agentic.

Việc tinh chỉnh có giám sát tiêu chuẩn dạy mô hình bắt chước các đầu ra tốt. Huấn luyện dựa trên học tăng cường dạy mô hình tối đa hóa tín hiệu phần thưởng — trong ngữ cảnh mã hóa, có thể là những thứ như:

  • Code được tạo ra có vượt qua công cụ test hay không
  • Code đã sửa đổi có còn biên dịch và chạy chính xác hay không
  • Agent có hoàn thành nhiệm vụ được mô tả trong prompt mà không làm hỏng chức năng hiện có hay không

Đây là một vấn đề khó hơn so với huấn luyện trên các ví dụ tĩnh, nhưng nó tạo ra những mô hình tốt hơn trong suy luận đa bước và phục hồi lỗi. Mô hình không chỉ học cách viết code trông đúng mà còn học cách viết code thực sự hoạt động.

Cách tiếp cận của Anysphere dựa trên các truyền thống nghiên cứu tương tự như những gì DeepMind đã sử dụng cho AlphaCode và những gì các công ty như Cognition (nhà sản xuất Devin) đã và đang khám phá trong lĩnh vực agent lập trình tự động.

Ý nghĩa thực sự của “các kỹ thuật RL mới”

Công ty đã cố tình giữ kín thông tin cụ thể về việc triển khai RL của mình, điều này có thể hiểu được từ góc độ cạnh tranh. Nhưng dựa trên các tín hiệu công khai và những gì được biết từ cộng đồng nghiên cứu rộng lớn hơn, những kỹ thuật này có thể bao gồm một số sự kết hợp của:

  • Process Reward Model (PRM) — các mô hình chấm điểm những bước trung gian, không chỉ đầu ra cuối cùng
  • Phản hồi thực thi — sử dụng kết quả thực thi code thực tế (đạt/không đạt, lỗi runtime, độ phủ kiểm thử) làm tín hiệu phần thưởng
  • Tối ưu hóa cấp độ quỹ đạo — huấn luyện mô hình để tối ưu hóa trên toàn bộ chuỗi chỉnh sửa, không chỉ các lần hoàn thành riêng lẻ

Loại đào tạo này tốn kém về mặt tính toán và yêu cầu cơ sở hạ tầng đáng kể. Đây cũng là nơi ranh giới giữa “công ty sản phẩm được hỗ trợ bởi AI” và “phòng thí nghiệm nghiên cứu AI” bắt đầu mờ đi.

Hiệu suất benchmark và cạnh tranh thực tế

Vậy mô hình Composer thực sự hoạt động như thế nào? Câu trả lời thẳng thắn là: Điều đó phụ thuộc vào người bạn hỏi và những tiêu chuẩn đánh giá nào bạn xem xét.

Vị thế của Composer so với các mô hình chính

Anysphere đã công bố kết quả đánh giá hiệu năng cho thấy mô hình Composer cạnh tranh khá tốt với:

  • GPT-4.5 trên một số tác vụ tạo code và chỉnh sửa nhiều file
  • Claude Opus trên các tiêu chuẩn đánh giá kỹ thuật phần mềm như SWE-bench

SWE-bench đặc biệt phù hợp ở đây vì nó đo lường khả năng của một mô hình trong việc giải quyết các vấn đề thực tế trên GitHub — chứ không chỉ viết những code snippet sạch một cách riêng lẻ. Điều này phù hợp hơn nhiều với những gì Composer cần làm trong thực tế.

Cần phải làm rõ rằng hiệu năng benchmark và trải nghiệm thực tế của nhà phát triển không phải lúc nào cũng tương quan hoàn hảo. Điểm mạnh của Cursor một phần nằm ở cách Composer tích hợp với trình soạn thảo — ngữ cảnh mà nó có thể truy cập, giao diện người dùng để xem xét sự khác biệt và vòng lặp lặp lại. Một mô hình có điểm số thấp hơn một chút trên các bài kiểm tra hiệu năng vẫn có thể mang lại cảm giác tốt hơn trong thực tế nếu trải nghiệm sản phẩm xung quanh mạnh mẽ.

Lợi thế chuyên môn hóa

Các mô hình tiên tiến đa năng như GPT-4o và Claude Opus được huấn luyện để giỏi mọi thứ — viết, suy luận, lập trình, phân tích, v.v... Composer được huấn luyện đặc biệt cho các tác vụ lập trình, đặc biệt là quy trình chỉnh sửa đa file tự động.

Sự chuyên môn hóa này mang lại những lợi ích thực sự. Một mô hình với 30% tham số của GPT-4o có thể sánh ngang hoặc vượt trội hơn nó trong các tác vụ cụ thể về code nếu nó được huấn luyện rộng rãi trên dữ liệu phù hợp và với những tín hiệu phần thưởng phù hợp. Đây cũng chính là điều đã giúp các mô hình như DeepSeek Coder và Qwen Coder cạnh tranh được mặc dù nhỏ hơn nhiều so với những sản phẩm chủ lực của OpenAI.