Cách sử dụng Gemini API

Khi cần truyền một lượng lớn dữ liệu cho mô hình AI để phân tích, bạn cần xem xét bộ nhớ hội thoại của nó, hay còn gọi là cửa sổ ngữ cảnh. Nếu bạn gửi quá nhiều dữ liệu, mô hình sẽ quên một phần hướng dẫn của bạn, dẫn đến kết quả không chính xác và vô dụng.

Mô hình Google Gemini 1.5 Pro có thể xử lý một lượng lớn dữ liệu cùng lúc, hỗ trợ tối đa một triệu từ trong mỗi prompt - tương đương hơn 700.000 từ. Thêm vào đó, 1.5 Pro là đa phương thức, nghĩa là nó có thể làm việc với tối đa một giờ video, 9,5 giờ âm thanh và hơn 30.000 dòng mã.

Bài viết này giúp bạn hiểu Gemini có thể làm gì và cách thiết lập các lệnh gọi API để bắt đầu giao tiếp với nó. Với cửa sổ ngữ cảnh khổng lồ, bạn có thể gửi các prompt cực dài với các hướng dẫn phức tạp, ví dụ và dữ liệu cần chuyển đổi - thực hiện tất cả mà không cần chứng chỉ về Machine Learning.

Gemini API là gì?

Gemini API cung cấp quyền truy cập vào bộ mô hình AI của Google:

Gemini 1.0 Pro, một mô hình xử lý ngôn ngữ tự nhiên (NLP) với các tính năng trò chuyện và tạo mã
Gemini 1.5 Pro, một mô hình đa phương thức với cửa sổ ngữ cảnh lên đến 1 triệu token
Gemini 1.5 Flash, một mô hình đa phương thức nhanh hơn với giới hạn đầu vào và đầu ra chặt chẽ hơn

Khi kết nối các mô hình này với những công cụ, ứng dụng hoặc sản phẩm nội bộ của bạn, bạn có thể tận dụng các tính năng của chúng ở bất cứ nơi nào bạn đang làm việc mà không cần liên tục chuyển sang giao diện trò chuyện.

Có hai cách để kết nối với Gemini API. Cách đầu tiên là sử dụng gói miễn phí thông qua Google AI Studio — đây là cách dễ nhất để thiết lập. Nếu muốn kiểm soát sâu hơn và tích hợp với các mô hình khác, bạn có thể thiết lập quyền truy cập thông qua Google Vertex AI Model Garden.

Cách lấy Gemini API key và thiết lập kết nối Gemini API

Bước 1: Tạo tài khoản Google AI Studio

Truy cập trang web Gemini API và nhấp vào Sign In to Google AI Studio. Làm theo các bước để tạo tài khoản mới hoặc đăng nhập bằng thông tin đăng nhập Google hiện có của bạn.

Bước 2: Mở tài liệu và tài liệu tham khảo API

Mỗi API hoạt động khác nhau, vì vậy bạn cần dựa vào tài liệu API để hiểu các tính năng và trường hợp sử dụng. Mặt khác, tài liệu tham khảo API là một tập hợp kỹ thuật chuyên sâu về các lệnh, tham số và hướng dẫn thiết lập để giúp bạn triển khai nó trong dự án của mình.

Dưới đây là các liên kết đến tài liệu Gemini API và tài liệu tham khảo API tạo nội dung.

Bước 3: Cách lấy Gemini API key

Sau khi đăng nhập vào Google AI Studio, hãy đọc, chấp nhận và đóng các cửa sổ thông tin pop-up xuất hiện trên màn hình của bạn. Bạn có thể kiểm tra các mô hình Gemini tại đây, điều chỉnh một số cài đặt cơ bản ở phía bên phải.

Ở phía trên bên trái màn hình, nhấp vào nút Get API key.

Nút Get API key trong Google AI Studio

Sau đó, nhấp vào nút Create API key.

Nút Create API key trong Google AI Studio

Chấp nhận và đóng lời nhắc cài đặt bảo mật. Sau đó, nhấp vào nút Create API key in new project.

Nút Create API key in new project trong Google AI Studio

Google sẽ tạo một API key mới. Sao chép key đó, rồi đóng cửa sổ pop-up.

Lưu ý quan trọng: Bạn cần giữ API key này an toàn mọi lúc. Nếu ai đó tìm thấy key của bạn, họ có thể sử dụng nó và tùy thuộc vào cách sử dụng, điều đó có thể vô hiệu hóa endpoint của bạn. Đừng chia sẻ key này với bất kỳ ai không cần nó, và nếu bạn đang xuất bản ứng dụng lên web công cộng, hãy đảm bảo tìm hiểu về các thực tiễn tốt nhất về bảo mật API.

Quay lại dashboard API key, bạn sẽ thấy một key mới được thêm vào danh sách và một phần mới với lệnh cURL xuất hiện bên dưới. Nếu bạn không thấy, hãy thử làm mới trang trình duyệt của mình.

Danh sách các API key trong Google AI Studio

Hãy cùng phân tích ý nghĩa của từng dòng này.

curl \

Đối với người dùng trên terminal, lệnh này khởi tạo một kết nối mới. Dấu gạch chéo ngược là dấu xuống dòng để dễ đọc hơn; nó không ảnh hưởng đến chính lệnh. Chúng ta sẽ không cần đến nó.

-H 'Content-Type: application/json' \

Đây là tiêu đề yêu cầu, được đánh dấu bằng flag -H. Nó chứa key Content-Type được đặt thành giá trị application/json. Điều này cho API endpoint biết loại dữ liệu nào cần mong đợi. Postman, nền tảng đang được sử dụng để gọi API trong hướng dẫn này, đã thiết lập điều này theo mặc định, vì vậy chúng ta cũng sẽ không cần đến nó.

 -d '{"contents":[{"parts":[{"text":"Explain how AI works"}]}]}' \

Flag -d đánh dấu dữ liệu bạn đang truyền cùng với yêu cầu. Được viết bằng JSON, "contents" đánh dấu nội dung của yêu cầu, được chia thành các "parts". Nó chứa một phần "text" với giá trị "Explain how AI works" - đây là prompt bạn đang gửi đến mô hình AI.

 -X POST 'https://generativelanguage.googleapis.com/v1beta/models/gemini-1.5-flash-latest:generateContent?key=YOUR_API_KEY'

Tham số -X thiết lập loại yêu cầu HTTP - trong trường hợp này, đó là phương thức POST. URL đề cập đến URL API endpoint, nơi bạn gửi yêu cầu đến.

Bước 4: Thiết lập việc gọi API

Chúng ta đã có đầy đủ thông tin cần thiết để bắt đầu gọi Gemini API. Nếu muốn làm theo, bạn có thể tạo tài khoản miễn phí trên Postman, một nền tảng thiết kế và kiểm thử API. Bạn cũng có thể thực hiện việc này bằng trình tạo ứng dụng không cần mã hoặc công cụ xây dựng nội bộ.

Nếu bạn đang làm theo trên Postman, hãy đăng nhập vào dashboard và nhấp vào New Request ở đầu màn hình.

Nút New Request trong Postman

Chúng ta sẽ bắt đầu bằng cách thêm thông tin chi tiết vào flag -X. Trên trường nhập yêu cầu, nhấp vào menu drop-down hiển thị GET và thay đổi thành POST. Sau đó, sao chép URL có flag -X (không có dấu ngoặc đơn ở đầu và cuối) và dán vào.

Thay đổi GET thành POST và thêm URL có flag -X vào Postman

Ngay bên dưới, bạn sẽ thấy giao diện cập nhật để hiển thị một tham số mới. Postman đã phát hiện ra nó trong URL: Đó là "key=YOUR_API_KEY". Đây là nơi bạn sẽ truyền API key duy nhất của mình. Xóa YOUR_API_KEY (trong trường nhập URL hoặc bảng tham số truy vấn bên dưới) và thay thế bằng API key của bạn.

Thiết lập một API mới giống như một cuộc chạy đua khắc phục sự cố hơn là một chuyến đi suôn sẻ, vì vậy hãy cùng nhau tìm hiểu cách thức hoạt động của nó. Nhấp vào nút Send và xem điều gì xảy ra.

Nhấp vào nút Send trong Postman

Đó là lỗi HTTP 400 Bad Request. Thông báo cho chúng ta biết nội dung không được chỉ định. Điều này không có gì đáng ngạc nhiên: Chúng ta chưa cấu hình phần body yêu cầu trong Postman, vì vậy nó đang gửi một yêu cầu trống đến API.

Thông báo lỗi trong Postman

Bất cứ khi nào bạn gặp lỗi khi thực hiện gọi API, hãy chú ý đến các lỗi cú pháp và tham khảo lại tài liệu và tài liệu tham khảo API. Nếu bạn gặp khó khăn trong việc xử lý, hãy nhớ rằng ChatGPT có thể giúp bạn với các yêu cầu và định dạng JSON.

Bước 5: Thiết lập nội dung gọi

Hãy thiết lập nội dung gọi để khắc phục lỗi. Quay lại tab yêu cầu ở trên cùng trong Postman, bên dưới trường nhập endpoint, nhấp vào tab Body và sau đó chọn raw.

Chọn Body và raw trong Postman

Chúng ta sẽ dán toàn bộ nội dung trong flag -d của yêu cầu từ bước trước. Bài viết đã định dạng nó để dễ đọc. Bạn có thể sao chép và dán nó vào dòng 1 của giao diện:

{

 "contents": [

 {

 "parts": [

 {

 "text": "Explain how AI works"

 }

 ]

 }

 ]

}

JSON được dán vào Postman

Điều đó sẽ hoạt động. Chỉ có một cách để chắc chắn: Nhấp vào nút Send.

Nhấp vào Send một lần nữa trong Postman

Nếu đã làm theo đúng hướng dẫn này cho đến nay, bạn sẽ thấy một điều mới trong tab phản hồi: Mã trạng thái HTTP 200 OK và phản hồi đầy đủ từ Gemini.

Thông báo thành công và phản hồi từ Gemini API

Có một khía cạnh thú vị trong phản hồi dài này. Hãy cuộn xuống cuối trang và xem phần này.

Thông tin citationMetadata từ Gemini API

Các key "citationMetadata" và "citationSources" cho thấy Gemini đã tìm kiếm trên web để tạo ra phản hồi. Nó dựa trên trang được hiển thị trên key "uri". Điều này cũng có thể giải thích tại sao API mất nhiều thời gian hơn bình thường để phản hồi: Trong trường hợp ví dụ, phải đợi 10 giây để nhận được phản hồi.

Bước 6: Truyền các prompt của bạn

Chúng ta đang giao tiếp với Gemini API, nhưng điều này sẽ không hữu ích nếu bạn không thể truyền các prompt của mình. Trên tab yêu cầu của Postman, hãy thay thế giá trị bên trong key "text" bằng văn bản của bạn. Hãy đảm bảo dấu ngoặc kép vẫn còn ở cả đầu và cuối, nếu không lệnh gọi sẽ trả về lỗi.

Thay đổi prompt cho Gemini API trong Postman

Khi nhấp vào nút Send, bạn sẽ thấy phản hồi mới ở phần dưới cùng của màn hình.

Bước 7: Thay đổi cài đặt

Bạn có thể thêm nhiều tham số vào phần body của lệnh gọi để kiểm soát cài đặt tạo trong Gemini: Hãy truy cập trang tham chiếu mô hình của tài liệu API để xem tất cả.

Trang này có thể gây khó hiểu khi đọc lần đầu. Phần đầu tiên bạn cần xem là hướng dẫn về phần body yêu cầu.

Tài liệu về phần body yêu cầu từ Google cho Gemini API

Khi sao chép và dán toàn bộ JSON này vào phần body yêu cầu của Postman, bạn sẽ có thể kiểm soát quá trình tạo. Lưu ý rằng các tham số được đánh dấu bằng những kiểu dữ liệu chấp nhận được - chuỗi, số nguyên, số thực, số - vì vậy hãy nhớ thay thế chúng bằng các giá trị thực tế trước khi chạy lệnh.

Nếu có bất kỳ tham số nào không cần thiết, bạn chỉ cần xóa nó khỏi phần body yêu cầu. Hãy chắc chắn rằng bạn cũng xóa tất cả các dấu ngoặc liên quan đến nó, để mọi phần của lệnh được mở và đóng đúng cách. Postman sẽ cảnh báo bạn nếu nó tìm thấy những vấn đề này, và nếu bạn không thể tìm ra cách khắc phục, hãy dán nó vào ChatGPT và yêu cầu nó sửa cú pháp của bạn.

Phần hữu ích thứ hai của trang là phần giải thích về chức năng của từng tham số, ngay bên dưới phần Request body.

Giải thích về các tham số từ Google cho Gemini API

Bạn sẽ tìm thấy những giải thích tiện dụng về ý nghĩa của từng tham số, chức năng của nó, các mô hình mà nó hoạt động và những giá trị được chấp nhận.

Thêm tham số trong Postman

Dưới đây là hướng dẫn nhanh về ý nghĩa của từng tham số cấu hình này:

temperature kiểm soát sự sáng tạo và tính ngẫu nhiên.
top_p kiểm soát sự đa dạng của từ vựng.
top_k kiểm soát số lượng từ có khả năng xuất hiện khi tạo phản hồi. Ví dụ, top\_k là 64 sẽ cho mô hình biết chỉ chọn trong số 64 từ có khả năng xuất hiện cao nhất.
max_output_tokens kiểm soát tổng độ dài phản hồi. Trường hợp ví dụ đã giới hạn ở 100 token.

Và đây là kết quả nhận được sau khi nhấp vào nút Send.

Kết quả đầu ra từ Gemini API trong Postman

Như bạn thấy, tham số max output tokens đã cắt ngắn phản hồi, điều đó có nghĩa là các cài đặt đang hoạt động như mong muốn.

Bước 8: Thay đổi mô hình AI

Cho đến nay, chúng ta đã trò chuyện với phiên bản Gemini 1.5 Flash mới nhất, nhưng có những mô hình khác mà chúng ta có thể gọi bằng API này. Bạn có thể làm như vậy bằng cách thay đổi tên mô hình trong URL endpoint.

Trong trường nhập yêu cầu Postman, hãy tìm tên của mô hình Gemini bạn đang sử dụng.

Thay đổi mô hình AI trong Postman

Thay thế tên đó bằng tên của một mô hình khác. Bạn có thể tìm thấy danh sách đầy đủ trên trang này hoặc sao chép và dán một trong số chúng từ đây:

gemini-1.5-pro-latest
gemini-1.0-pro

Hãy đảm bảo dấu gạch chéo ở đầu và dấu hai chấm ở cuối vẫn còn trong URL endpoint. Sau khi bạn nhấp vào nút Send, hướng dẫn của bạn sẽ được gửi đến mô hình mới và bạn có thể nhận được phản hồi với chất lượng khác nhau.

Bước 9: Tích hợp Gemini vào ứng dụng của bạn

Bạn có thể tích hợp các chức năng cơ bản của Gemini vào ứng dụng của mình bằng cách sử dụng Google AI Studio và API miễn phí. Tham khảo tài liệu của công cụ xây dựng ứng dụng không cần lập trình hoặc công cụ nội bộ của bạn về cách kết nối API với nó, và bạn sẽ có thể bắt đầu thiết lập các lệnh gọi ngay lập tức. Ví dụ, đây là hướng dẫn về cách thiết lập kết nối API bằng FlutterFlow.

Nhưng nếu bạn muốn tích hợp sâu các mô hình Gemini vào ứng dụng của mình và bảo vệ dữ liệu, sử dụng Vertex AI thông qua Google Cloud Platform là lựa chọn tốt nhất. Trong trường hợp này, bạn cần phải biết hoặc hiểu về lập trình. Hoặc, tìm một chuyên gia để giúp thiết lập các endpoint và lệnh gọi API, và từ đó, bạn có thể thêm các cài đặt đó vào sản phẩm hoặc ứng dụng của mình.