Sử dụng GPT-4 để hỗ trợ dịch thuật

Có một số người đã đánh giá chất lượng dịch thuật của GPT-4 (https://medium.com/akvelon/is-gpt-4-better-at-translation-than-google-translate-2fd39730af0e) và cho thấy nó có chất lượng vượt trội, đặc biệt khi so sánh với Google Translate. Thậm chí, kể cả khi so sánh với các công cụ dịch thuật thương mại chuyên sâu khác, GPT-4 cũng có khả năng cho chất lượng tốt hơn ở mức độ nào đó, tùy vào cặp ngôn ngữ sử dụng. Không có so sánh với dịch sang tiếng Việt, nhưng khi kiểm tra với một số tài liệu, tôi thấy GPT-4 thực sự cho chất lượng rất tốt, tương đương với người dịch ở mức độ khá hoặc ít nhất là trung bình khá, dù chắc chắn vẫn phải đọc lại để so sánh, nhằm phát hiện các lỗi (ví dụ làm ý của câu bị giản lược, thiếu nghĩa).

Bạn nào muốn áp dụng GPT-4 để mò mẫm các tài liệu chuyên sâu mà do gà tiếng Anh không thể đọc trực tiếp được có thể làm như sau.

A. Chuẩn bị tài liệu

  1. Lên Google Scholar (https://scholar.google.com/) tìm một bài báo nghiên cứu (research paper) mà bạn quan tâm. Tìm bằng tiếng Anh thì tốt hơn.
  2. Chuyển file PDF tìm được thành dạng Docx bằng các công cụ miễn phí trên mạng (ví dụ: https://www.ilovepdf.com/pdf_to_word).
  3. Các công cụ chuyển PDF -> Docx miễn phí thường không chuyển được file PDF dạng scan (mà để dễ hiểu bạn thử di chuyển con trỏ chuột quét văn bản, nếu không quét được văn bản thì nó là dạng scan, đây là dạng giống như ảnh, và không thể chuyển thành Docx với các công cụ miễn phí được hoặc nếu có chuyển được thì chất lượng rất tệ). Khi ấy giải pháp tốt nhất là sử dụng dạng có phí của Adobe (https://acrobat.adobe.com/link/acrobat/pdf-to-word/), khoảng 500 ngàn cho một năm sử dụng, không giới hạn dung lượng, số lượng file.
  4. Các tài liệu upload lên Google Scholar trước năm 2000 có rất nhiều tài liệu dạng scan, các tài liệu mới hơn sau này thì thường có định dạng chuẩn hơn (tức là không cần dùng bản có phí của Adobe để chuyển định dạng về Docx).
  5. Việc chuyển từ PDF sang Docx sau đó nên được sửa lại vì việc chuyển dù bằng công cụ hàng đầu thế giới của Adobe cũng không hoàn hảo. Bạn khắc phục điều này tương đối tốt bằng công cụ kiểm tra chính tả sẵn có và miễn phí của Google Docs, nó thường sửa đúng hơn 95%. Thường thì lỗi chính ta cũng dễ phát hiện do trong các tài liệu nghiên cứu hay được chia làm 2 cột, và dàn đều trái phải nên hiện tượng các từ nối với nhau như kiểu “docu-ment” hay gặp, và đến lúc chuyển sang dạng docx thì nó thành ra 2 từ tách biệt “docu ment hoặc docu-ment”, cần phải xử lý cái này tốt để đầu vào chuẩn thì kết quả dịch sẽ tốt hơn. Cách làm là trên Google Docs bạn vào Công cụ > Chính tả và Ngữ pháp > Kiểm tra chính tả và ngữ pháp.

B. Đăng ký dùng bản cao cấp GPT-4

GPT-4 của OpenAI hiện không giới hạn người dùng ở Việt Nam như trước kia nữa, nghĩa là chúng ta danh chính ngôn thuận đăng ký dùng được rồi, miễn thanh toán đầy đủ.

Điều kiện là cần có thẻ Visa, khi tôi test với thẻ Visa của ngân hàng ACB thì mượt, không có vấn đề gì, khoảng 10 phút là dùng được ngay.

Dịch vụ của OpenAI có 2 loại cơ bản đó là khung chat và API. 2 cái này thanh toán độc lập với nhau. Khung chat thì phí cố định 20$/tháng, API là dạng dùng đến đâu trả tiền đến đấy. Cả 2 cái đều có thể dùng làm công cụ dịch thuật được.

Dùng API để dịch thì dịch tiện hơn (chỉ hơi khó lúc thiết lập ban đầu) vì khung chat số lượng từ dịch tối đa trong một lần bị giới hạn. Tuy nhiên nếu dịch nhiều khung chat có thể rẻ hơn.

Ở đây tôi mô tả cách dùng API, vì cách dùng qua khung chat rất đơn giản, bạn chỉ cần yêu cầu nó dịch sang tiếng Việt là được.

Đầu tiên truy cập: https://platform.openai.com/api-keys

Sau khi xác minh số điện thoại xong bạn cần add thẻ Visa vào để thanh toán. Có thể chỉ nhập 5$ để test thôi, thường chỉ khi nạp tiền vào thì bạn mới nâng cấp lên được GPT-4, còn không chỉ dùng thử được bản 3.5, bản này thì không khá hơn Google Translate.

Bạn click vào Create new secret key để tạo API key mới. Copy key này rồi đưa nó vào chỗ nào đấy để sau còn copy lại được (ví dụ paste nó vào notepad rồi lưu lại trên máy, cái chuỗi này nó giống mã kích hoạt phần mềm).

C. Sử dụng GPT for Sheets™ and Docs™ để kết nối API GPT-4 của OpenAI với Google Docs

Việc dịch ở đây được tiến hành trên Google Docs rất tiện lợi trong việc lưu trữ và chỉnh sửa.

Đầu tiên chúng ta cài tiện ích có tên GPT for Sheets™ and Docs™ vào Google Docs, bằng cách vào mục Tiện ích mở rộng > Tiện ích bổ sung, sau đó paste vào thanh tìm kiếm tên trên rồi cài, nó là cái ghi nhà phát triển là Talarian. Cần chú ý cái này vì có nhiều sản phẩm tương tự nhau từ các nhà phát triển khác nhau.

Cài xong thì bạn vào Tiện ích mở rộng > GPT for Sheets™ and Docs™ > Set API key > OpenAI API key

Rồi nhập key mà bạn vừa tạo bên OpenAI vào. Nhớ nhấn Save key để nó lưu lại.

D. Sử dụng

Trên Google Docs với tài liệu muốn dịch bạn khởi động tiện ích mở rộng GPT for Sheets™ and Docs™ (bằng cách vào Tiện ích mở rộng > GPT for Sheets™ and Docs™ > Launch).

Ở phần Selection action bạn chọn Translate to, nhập Vietnamese vào.

Ở phần Model settings ngay bên dưới, chỗ Custom behavior bạn nhập “You are a translation expert who specializes in translating scientific documents” nếu dịch tài liệu khoa học, hoặc nếu dịch tài liệu tiếng Anh chung chung có thể nhập: “As a translation expert, make the translation sound as natural as possible.

Model bạn chuyển thành GPT-4. Cái này cũng cần lưu ý vì các model dưới 4 dịch không tốt.

Max response tokens: nhập 4000 vào để nó dịch được dài hơn (nhiều ký tự hơn).

Mỗi lần muốn dịch đoạn nào đó thì bạn quét con trỏ chuột đoạn văn bản đấy, thường nên khống chế dịch khoảng 900 – 1100 từ tiếng Anh là ổn (trên Google Docs nhấn tổ hợp phím Ctrl + Shift + C để nó đếm số lượng từ). Rồi sau đó nhấn vào Submit ngay bên phải của tiện ích GPT for Sheets™ and Docs™, thường mất khoảng 200s cho việc dịch 1000 từ tiếng Anh. Bản tiếng Việt theo mặc định sẽ được chèn ngay bên dưới bản tiếng Anh tương ứng.

E. Công cụ khác

Ngoài cách trên là bạn tự thao tác thì có thể sử dụng công cụ như https://doctranslate.io/ để dịch văn bản sang tiếng Việt sử dụng công nghệ GPT-4 để dịch (ứng dụng có phí, dùng đến đâu trả tiền đến đó). Nó dịch tốc độ hơn, vì bạn có thể up file gồm 20 ngàn từ cho nó dịch cũng được, và khi nó dịch xong hoàn chỉnh, bạn tải về rồi kiểm tra chứ không phải dịch dần dần thủ công như kiểu API bên trên. Tuy nhiên giá của công cụ này có thể đắt hơn 30 – 50% cách trên, tùy theo gói sử dụng, dùng gói lớn có thể không đắt hơn đáng kể. Ưu điểm của cách này là nhanh và tiện, hình thức thanh toán đa dạng hơn. Với cách này bạn thanh toán trực tiếp với nhà cung cấp tiện ích chứ không cần đăng ký với OpenAI.

Cá nhân tôi thì dùng cả hai, nhưng thích cách dùng API hơn, vì nó rẻ hơn đáng kể, và cũng vì dịch tài liệu không quá dài, trường hợp dịch sách có thể dùng doctranslate.io sẽ tiện hơn.