Máy Tính

Browser Use: Giải Pháp AI Agent Duyệt Web Mã Nguồn Mở Đáng Giá

Trang web Browser Use hiển thị các tùy chọn chi phí và cài đặt

Trong kỷ nguyên số hóa, các tác vụ tự động hóa trên trình duyệt web ngày càng trở nên thiết yếu. Khái niệm về các AI Agent có khả năng điều khiển trình duyệt và thực hiện công việc như con người đã không còn là viễn tưởng. Các công cụ như ChatGPT Operator nổi bật với sức mạnh đáng kinh ngạc, cho phép người dùng ra lệnh bằng ngôn ngữ tự nhiên để đặt vé, viết văn bản trong Google Docs hoặc nhiều tác vụ phức tạp khác. Tuy nhiên, quyền truy cập vào những công nghệ tiên tiến này thường đi kèm với mức phí không hề nhỏ, đơn cử như ChatGPT Operator yêu cầu khoản phí 200 USD mỗi tháng cho gói Pro. Với mong muốn tìm kiếm một lựa chọn thay thế miễn phí hoặc chi phí thấp hơn, đội ngũ khoahoccongnghe.net đã khám phá và tìm thấy Browser Use – một giải pháp mã nguồn mở đầy tiềm năng, hoạt động hiệu quả đến bất ngờ.

Browser Use: Giải Pháp AI Agent Duyệt Web Mã Nguồn Mở Tối Ưu

ChatGPT Operator có khả năng kiểm soát trình duyệt web, thực hiện các hành động như nhấp chuột và cuộn trang một cách tự động. Bạn chỉ cần ra lệnh cho ChatGPT những gì cần làm, chẳng hạn như đặt vé hoặc viết nội dung, và nó sẽ thực hiện. Tuy nhiên, để tiếp cận công cụ mạnh mẽ này, người dùng phải chi trả mức phí cao, lên tới 200 USD mỗi tháng cho gói ChatGPT Pro. Với những hạn chế về chi phí, việc tìm kiếm một giải pháp thay thế là điều tất yếu, và đó là lúc Browser Use xuất hiện.

Browser Use là một AI Agent mã nguồn mở tương tự như ChatGPT Operator. Nó có khả năng tương tác với trình duyệt web, điều hướng qua các trang web và thực hiện nhiều hành động khác nhau. Điều đáng nói là chi phí sử dụng Browser Use chỉ bằng một phần nhỏ so với đề nghị của ChatGPT. Hơn nữa, người dùng có hai tùy chọn linh hoạt để lựa chọn.

Tùy chọn đầu tiên là trả khoản phí đăng ký 30 USD để chạy AI Agent trên dịch vụ đám mây của họ. Tùy chọn thứ hai, và cũng là giải pháp tiết kiệm chi phí nhất, là tự cài đặt cục bộ trên máy tính của bạn, khi đó bạn sẽ chỉ phải trả phí cho việc sử dụng API của mô hình ngôn ngữ lớn (LLM). Để tối ưu chi phí và kiểm soát, tùy chọn tự cài đặt cục bộ đã được chúng tôi ưu tiên trải nghiệm.

Trang web Browser Use hiển thị các tùy chọn chi phí và cài đặtTrang web Browser Use hiển thị các tùy chọn chi phí và cài đặt

Việc thiết lập Browser Use không đơn giản như ChatGPT Operator, đòi hỏi một vài dòng lệnh và kiến thức kỹ thuật cơ bản. Tuy nhiên, với hướng dẫn chi tiết, bất kỳ người dùng nào cũng có thể đưa nó vào hoạt động.

Hướng Dẫn Cài Đặt Browser Use Trên Máy Tính Cá Nhân: Bước Đi Cho Người Dùng Việt

Để bắt đầu với Browser Use, bạn sẽ cần chuẩn bị hai yếu tố quan trọng: Python 3.11 đã được cài đặt trên máy tính và quyền truy cập API từ OpenAI (hoặc một mô hình ngôn ngữ lớn cục bộ – LLM nếu bạn muốn).

Vì Browser Use là một AI Agent, nó yêu cầu một mô hình ngôn ngữ lớn (LLM) để vận hành. Bạn có thể lấy quyền truy cập API từ trang web của OpenAI hoặc bất kỳ API nào khác tương thích với Browser Use. Lợi ích của việc sử dụng API là bạn có sự linh hoạt để lựa chọn giữa các mô hình khác nhau (chẳng hạn như GPT-3.5 và GPT-4o), và bạn chỉ phải trả tiền cho những gì bạn sử dụng, thay vì một khoản phí đăng ký trả trước.

Trong quá trình thử nghiệm của chúng tôi, mô hình ChatGPT 4o đã được sử dụng. Tổng chi phí cho bảy tác vụ Browser Use thực hiện chỉ dưới 1 USD. Đáng chú ý, nếu kết hợp với API của DeepSeek, chi phí có thể giảm đi đáng kể.

Mặc dù bạn có thể sử dụng một LLM cục bộ trên máy tính, nhưng việc chạy một LLM có hiệu suất tương đương ChatGPT 4o đòi hỏi sức mạnh tính toán đáng kể mà hầu hết người dùng thông thường khó có thể đáp ứng. Các thử nghiệm với mô hình DeepSeek 7B LLM trên máy tính cá nhân cho thấy hiệu suất chưa đáp ứng được kỳ vọng. Do đó, việc sử dụng API bên ngoài vẫn là lựa chọn tối ưu và được khuyến nghị ở thời điểm hiện tại.

Khi đã có quyền truy cập API, bạn có thể tạo một môi trường ảo trong VS Code bằng cách vào View > Command Palette và gõ “create environment”. Sau đó, mở một terminal mới và cài đặt Browser-use bằng pip:

pip install browser-use

Tiếp theo, tạo một tệp .env trong cùng thư mục và thêm khóa API của bạn vào đó:

OPENAI_API_KEY="Your API Here"

Cuối cùng, tạo một tệp Python mới có tên app.py và dán đoạn mã sau:

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv

load_dotenv()

async def main():
    agent = Agent(
        task="Go to Reddit, search for 'browser-use', click on the first post and return the first comment.",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

Bạn có thể thay thế lệnh trong biến task bằng yêu cầu của riêng mình, ví dụ: “Search for Albert Einstein and open his Wikipedia page.” Sau đó, chạy tệp app.py bằng terminal:

python app.py

Đánh Giá Thực Tế: Browser Use Hoạt Động Hiệu Quả Đến Đâu Trong Các Tác Vụ Web?

Để kiểm chứng năng lực của Browser Use, chúng tôi đã bắt đầu với các tác vụ đơn giản. Khi chạy script với yêu cầu “Tìm kiếm Albert Einstein trên Google và mở trang Wikipedia của ông”, AI Agent đã mở một cửa sổ trình duyệt mới và thực hiện tác vụ một cách hoàn hảo. Tương tự, khi yêu cầu tìm kiếm “laptop gaming trên Amazon” và mở kết quả đầu tiên, AI Agent cũng hoàn thành thành công.

Tại thời điểm này, chúng tôi đã tin rằng Browser Use có thể điều hướng web một cách thông minh. Để kiểm tra giới hạn của nó, chúng tôi hướng dẫn nó truy cập Yahoo News và tóm tắt năm bài báo hàng đầu. Điều bất ngờ là Browser Use có thể hoàn thành tác vụ này chỉ trong vài phút, với các bản tóm tắt ngắn gọn và đúng trọng tâm.

Tuy nhiên, mọi thứ trở nên phức tạp hơn khi chúng tôi yêu cầu Browser Use tìm kiếm chuyến bay từ London đến Paris trên skyscanner.com. Ban đầu, trang web đã chặn quyền truy cập do phát hiện bot, buộc chúng tôi phải can thiệp để bỏ qua rào cản này. Dù vậy, Browser Use vẫn gặp khó khăn khi nhấp vào nút tìm kiếm mà không điền đúng “London” và “Paris” vào các trường tương ứng.

Mặc dù có khả năng kết nối Browser Use với trình duyệt chính của bạn (nơi tất cả các tài khoản đã đăng nhập) để thực hiện các tác vụ như nhập dữ liệu vào Google Sheet hoặc dán tóm tắt Yahoo News vào Google Doc, nhưng chúng tôi đã gặp một số vấn đề trong quá trình thiết lập tính năng này và tạm gác lại.

Nhìn chung, đây là một thử nghiệm thú vị. Việc quan sát một AI Agent điều hướng web và thực hiện các tác vụ là một trải nghiệm hấp dẫn. Dù Browser Use chưa hoàn hảo và vẫn còn một chặng đường dài để trở thành một AI Agent duyệt web thực sự vững chắc, công nghệ này vẫn đang ở giai đoạn sơ khai và chúng ta có thể mong đợi nhiều cải tiến trong tương lai.

Kết Luận

Browser Use nổi lên như một giải pháp thay thế mạnh mẽ và tiết kiệm chi phí cho các AI Agent duyệt web trả phí như ChatGPT Operator. Mặc dù yêu cầu một chút kiến thức kỹ thuật để cài đặt và có thể gặp phải một số hạn chế với các tác vụ phức tạp, tiềm năng tự động hóa và tối ưu chi phí của nó là không thể phủ nhận. Với mô hình mã nguồn mở, cộng đồng sẽ đóng vai trò quan trọng trong việc thúc đẩy sự phát triển của công cụ này trong tương lai.

Nếu bạn là người yêu công nghệ và sẵn lòng thử nghiệm, Browser Use chắc chắn là một công cụ đáng để khám phá. Hãy thử nghiệm và chia sẻ trải nghiệm của bạn dưới phần bình luận, hoặc tham gia cộng đồng khoahoccongnghe.net để trao đổi thêm về các công cụ AI đột phá!

Related posts

Nút Meta AI Trên WhatsApp: 5 Lý Do Tại Sao Nhiều Người Dùng Lại Không Muốn Tính Năng Này

Administrator

Điều Gì Thay Đổi Khi Tôi Hủy Dịch Vụ Streaming: Những Lợi Ích Bất Ngờ

Administrator

8 Lý Do Khiến Apple Mail Chưa Thể Thuyết Phục Người Dùng Việt

Administrator

Leave a Comment