Các tệp Định dạng Tài liệu Di động (PDF) có mặt khắp nơi trong thế giới kỹ thuật số của chúng ta. Chúng tôi sử dụng chúng cho mọi mục đích, từ chia sẻ tài liệu đến điền biểu mẫu trực tuyến. Nhưng làm việc với các tệp PDF không phải lúc nào cũng dễ dàng. Đó là nơi trí tuệ nhân tạo xuất hiện.
Chúng ta sẽ xem trợ lý AI Claude 2 xử lý các tác vụ liên quan đến PDF tốt như thế nào. Claude 2, do Anthropic tạo ra, được thiết kế nhằm mục đích hữu ích, vô hại và trung thực. Chúng tôi sẽ thực hiện một số thao tác PDF phổ biến để xem liệu nó có đáp ứng được những lý tưởng này khi làm việc với định dạng tệp quan trọng này hay không.
Điều cần thiết là phải thử nghiệm trợ lý AI trong các tình huống thực tế. Với việc AI đang trở thành một phần quan trọng trong cuộc sống của chúng ta, điều quan trọng là phải biết chúng nổi trội ở điểm nào và chúng có thể thiếu sót ở điểm nào. Claude dường như đang nổi lên như một đối thủ nặng ký, có thể sánh ngang với những mẫu xe như GPT-4. Chúng tôi tin tưởng rằng những người dùng hiểu rõ những công nghệ này sẽ đóng vai trò quan trọng trong việc áp dụng thành công.
Vì vậy, hãy tham gia cùng chúng tôi khi chúng tôi khám phá liệu Claude 2 có thể giúp làm việc với các tệp PDF dễ dàng hơn hay không nếu các kỹ năng của nó vẫn cần được cải thiện. Các kết quả có thể làm bạn ngạc nhiên.
Claude 2 nổi bật so với các trợ lý AI khác nhờ khả năng tích hợp sẵn để phân tích và làm việc với các tệp PDF. Các nhà nghiên cứu tại Anthropic đã thiết kế Claude 2 để phân tích và hiểu cấu trúc của tài liệu PDF bằng kỹ thuật học máy. Điều này mang lại cho Claude 2 một lợi thế vốn có trong việc xử lý các tệp PDF so với các chatbot khác sẽ gặp khó khăn trong việc hiểu chúng. Là một trong những mô hình AI đầu tiên có thành phần phân tích PDF chuyên dụng, Claude 2 được định vị độc đáo để thực hiện xuất sắc các tác vụ liên quan đến PDF. Trong bài đăng trên blog này, chúng tôi sẽ xem xét kỹ thuật chuyên biệt của nó chuyển thành thành thạo trong thế giới thực như thế nào khi làm việc với định dạng tài liệu phổ biến này. Các thử nghiệm của chúng tôi sẽ tiết lộ liệu Claude 2 có thể thực hiện đúng lời hứa của mình là cung cấp hỗ trợ hữu ích, vô hại và trung thực trong việc thao tác các tệp PDF hay không. Ngoài ra, hãy lưu ý rằng 10 MB là kích thước tệp tối đa.
Vì mục đích hướng dẫn của chúng tôi, chúng tôi sẽ sử dụng bản PDF hướng dẫn Python và xem những gì chúng tôi có thể nhận được từ nó.
Hãy bắt đầu bằng cách đặt những câu hỏi mà chúng ta biết có trong tài liệu. Chúng tôi sẽ đưa ra lời nhắc “Chuỗi ký tự được định dạng là gì?”. Câu trả lời cũng nằm khá sâu trong PDF, vì vậy sẽ rất thú vị nếu nó có thể trả lời văn bản ở đầu tài liệu nhưng không phải ở cuối.
Đây là kết quả. Các câu trả lời khá ngắn gọn trong PDF.
Bây giờ, hãy thử lấy báo giá trực tiếp từ tệp. Lời nhắc của chúng tôi bây giờ sẽ là “Chú thích chức năng là gì? Hãy cho tôi một trích dẫn từ tài liệu”.
Đây là kết quả.
Mà xác nhận là một trích dẫn trực tiếp! Nó thậm chí còn có thể hiển thị đoạn mã.
Bây giờ, chúng ta sẽ thử các tài liệu tài chính. Chúng tôi sẽ bổ sung thêm báo cáo hàng quý gần đây nhất của Microsoft. Chúng tôi sẽ nhắc nó bằng “Theo tài liệu. Tổng doanh thu của Microsoft trong quý là bao nhiêu?” Đây là ảnh chụp màn hình kết quả của chúng tôi.
Chúng tôi có thể thấy rằng Claude đã cung cấp thông tin doanh thu mà chúng tôi yêu cầu và sau khi xác minh tính xác thực, chúng tôi có thể tự tin xác thực tính chính xác của thông tin đó. Claude thậm chí còn chỉ ra chính xác trang nơi có thể tìm thấy thông tin này và nó cũng chính xác.
Sau đó, chúng tôi nhắc nó bằng câu hỏi "Phần trăm thay đổi về doanh thu so với năm ngoái là bao nhiêu?". Tôi muốn xem liệu nó có thể thực hiện một số phân tích hay không.
Thật ngạc nhiên, nó đã có thể tìm ra nó. Nó cũng đưa ra số trang của kết quả. Tôi thậm chí còn không biết dữ liệu này có trong tài liệu. Tôi nghĩ sẽ lấy doanh thu quý 3 năm ngoái và năm nay rồi làm phép tính để tính chênh lệch phần trăm.
Claude hiện áp đặt các giới hạn về số lượng yêu cầu bạn có thể thực hiện và thậm chí có thể có danh sách chờ truy cập. Với những hạn chế này, bạn nên khám phá một số lựa chọn thay thế.
Perplexity AI là một công cụ AI tuyệt vời dành cho NLP có tài liệu. Người dùng có thể tải lên tệp PDF ở định dạng văn bản thuần túy, mã hoặc PDF và Perplexity sẽ sử dụng nội dung tệp để đưa ra câu trả lời. Đối với các tệp ngắn, toàn bộ tài liệu sẽ được phân tích theo mô hình ngôn ngữ. Sự bối rối cũng có thể chia các tệp PDF dài theo cách thủ công thành các lĩnh vực chủ đề và đưa chúng vào GPT-4 để viết sáng tạo. Perplexity có thể phân tích các tệp PDF để trả lời câu hỏi trực tiếp từ tài liệu, cung cấp trích dẫn nguồn cho câu trả lời mà nó đưa ra, so sánh và đối chiếu các tài liệu nghiên cứu, tìm tài liệu hoặc bài viết liên quan dựa trên truy vấn, phân tích dữ liệu và tạo thông tin chuyên sâu từ nhiều nguồn khác nhau, trực quan hóa dữ liệu và tạo đồ họa từ nhiều nguồn khác nhau và dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác. Nếu bạn đang sử dụng tài khoản miễn phí, bạn chỉ có thể thực hiện một số yêu cầu nhất định. Nếu bạn muốn Tải lên tệp không giới hạn, bạn sẽ cần đăng ký với giá $20/tháng.
ChatGPT đã công bố phân tích PDF như một tính năng mới trong bản cập nhật mới nhất dành cho những người đăng ký ChatGPT Plus. Tính năng này cho phép người dùng tải lên các tệp PDF và các tài liệu khác, sau đó ChatGPT có thể phân tích các tệp này. Chatbot có thể trích xuất các bản tóm tắt và các điểm dữ liệu khác nhau hoặc thậm chí viết biểu đồ và biểu đồ dựa trên dữ liệu đó. Chức năng này hiện đang ở giai đoạn thử nghiệm và có sẵn cho các thành viên ChatGPT Plus. Bản cập nhật cũng bao gồm tính năng tự động chuyển đổi công cụ, cho phép ChatGPT đoán xem người dùng muốn gì dựa trên ngữ cảnh. Các tính năng mới đã có sẵn cho khách hàng ChatGPT Plus kể từ tháng 10 năm 2023
Cuối cùng nhưng không kém phần quan trọng, các giải pháp nguồn mở cung cấp một giải pháp thay thế hấp dẫn. Rất nhiều công cụ nguồn mở có sẵn để phân tích PDF, tận dụng các công nghệ khác nhau như khoa học dữ liệu Langchain hoặc Python, thường được tích hợp với cơ sở dữ liệu vectơ. Điều đáng chú ý là các giải pháp cơ sở dữ liệu vectơ như PGvector có thể cung cấp tùy chọn tiết kiệm chi phí hơn đáng kể so với các dịch vụ thương mại như Pinecone. Tuy nhiên, cộng đồng nguồn mở trên các nền tảng như GitHub cung cấp vô số mô hình có thể truy cập và tùy chỉnh để đáp ứng nhu cầu phân tích PDF của bạn.
Tôi thực sự rất phấn khích khi lần đầu tiên chúng tôi thử nghiệm máy phân tích PDF của Claude. Kết quả ban đầu có vẻ tuyệt vời. Nhưng bạn biết điều đó diễn ra như thế nào với các mô hình AI – chúng không hoàn hảo. Chắc chắn có một số sai sót ở chỗ này chỗ kia. Khi tôi bắt đầu trò chuyện lần đầu với Claude về các tệp PDF, nó thường xuyên bị nhầm lẫn. Nhưng tôi liên tục bị ấn tượng bởi sự tiến bộ của nó. Các lỗi đã giảm đi nhiều, nếu có, so với trước đây.
Thật sự rất hứa hẹn khi thấy được sự cải thiện này theo thời gian. Tôi không nói rằng nó đã sẵn sàng để thay thế chuyên môn của con người; rõ ràng là bạn muốn kiểm tra lại mọi thứ. Chúng ta vẫn cần để ý tới mọi vấn đề tiềm ẩn. Nhưng tôi lạc quan về việc khả năng PDF của Claude sẽ đi đến đâu. Điều này cuối cùng có thể trở thành một công cụ cực kỳ hữu ích. Tất nhiên, có rất nhiều lựa chọn, nhưng đây là một trong số đó.