Trích xuất văn bản từ tệp PDF

Trong khi xử lý các tệp PDF hoặc Định dạng Tài liệu Di động, đôi khi, bạn có thể muốn trích xuất tất cả văn bản từ tệp PDF . Trong hướng dẫn này, chúng tôi sẽ chỉ ra cách bạn có thể dễ dàng trích xuất văn bản từ tệp PDF hoặc chuyển đổi tệp PDF thành tệp văn bản trong Windows mà không cần sự trợ giúp của các công cụ trực tuyến.

Cách dễ nhất và nhanh nhất để trích xuất văn bản từ các tệp PDF là sử dụng các dịch vụ trực tuyến miễn phí. Các dịch vụ trực tuyến này không yêu cầu bất kỳ phần mềm bổ sung nào, có nghĩa là bạn có thể hoàn thành công việc của mình mà không phải cài đặt bất kỳ phần mềm bổ sung nào trên PC.

Nếu các dịch vụ trực tuyến được đề cập bên dưới không mang lại kết quả mong muốn hoặc bạn muốn trích xuất văn bản từ phần nhạy cảm mà bạn không muốn tải lên máy chủ từ xa, bạn có thể kiểm tra phần mềm Windows miễn phí được đề cập trong Phương pháp 3 đến 5. Cũng đọc 6 cách của chúng tôi để nén hướng dẫn tập tin PDF.

Phương pháp 1 trên 6

ExtractPDF

ExtractPDF là một dịch vụ trực tuyến miễn phí để điền toàn bộ văn bản và hình ảnh từ các tệp PDF. Dịch vụ này cung cấp một bố cục dễ hiểu. Sau khi mở trang ExtractPDF trong trình duyệt web của bạn, nhấp vào nút Duyệt để chọn tệp PDF của bạn, nhấp vào nút Tải lên để tải tệp đã chọn lên máy chủ của ExtractPDF và bắt đầu trích xuất.

Sau khi hoàn thành công việc, bạn sẽ thấy các tùy chọn để tải xuống ngữ cảnh văn bản, phông chữ và hình ảnh từ tệp PDF đã tải lên. Để tải xuống văn bản được trích xuất dưới dạng tệp .txt (để mở trong Notepad hoặc Word), hãy chuyển sang tab Văn bản, sau đó bấm Tải xuống kết quả dưới dạng nút tệp.

Như bạn có thể thấy trong hình trên, dịch vụ không hỗ trợ các tệp lớn hơn 12 MB. Giới hạn này không phải là một chương trình vì hầu hết các tệp PDF sẽ dưới 12 MB.

Trong quá trình thử nghiệm, chúng tôi nhận thấy rằng đối với một số tệp PDF, dịch vụ không cung cấp đầu ra mong muốn. Nếu bạn gặp bất kỳ vấn đề nào với dịch vụ này, hãy xem phần tiếp theo.

Phương pháp 2 trên 6

OCR trực tuyến

OCR trực tuyến là một công cụ trực tuyến để giúp bạn trích xuất văn bản từ các tệp PDF có dung lượng dưới 5 MB. Dịch vụ chuyển đổi các tệp PDF thành các tệp Microsoft Word (.docx) hoặc Văn bản (.txt) có thể chỉnh sửa.

Phương pháp 3 trên 6

Trình xem STDU

Về cơ bản, STDU Viewer là một phần mềm miễn phí được thiết kế để mở và xem nhiều định dạng tệp. Ngoài ra, phiên bản STDU Viewer miễn phí hỗ trợ xuất nội dung văn bản từ tệp PDF.

Để xuất nội dung văn bản của tệp PDF, hãy mở tệp PDF bằng STDU Viewer, nhấp vào menu Tệp, nhấp vào Xuất, nhấp vào Văn bản, chọn một vị trí để lưu tệp văn bản mới và sau đó nhấp vào nút OK.

Tùy chọn xuất cho phép bạn trích xuất văn bản từ một, nhiều hoặc tất cả các trang. Kích thước tải xuống của STDU Viewer dưới 3 MB. Phiên bản miễn phí của STDU Viewer chỉ dành cho sử dụng cá nhân và phi thương mại.

Phương pháp 4 trên 6

Thí điểm PDF2Text

PDF2Text Pilot là một phần mềm miễn phí dành cho Windows để chuyển đổi tệp PDF thành tệp Văn bản chỉ bằng một cú nhấp chuột. Sau khi cài đặt và chạy phần mềm, bạn chỉ cần chọn (các) tệp PDF mà bạn muốn xem dưới dạng tệp văn bản, sau đó nhấp vào nút Chuyển đổi. Các tệp đã chuyển đổi của bạn sẽ sẵn sàng trong vài giây.

Điểm mạnh của PDF2Text Pilot là giao diện đơn giản và khả năng chuyển đổi nhiều tệp PDF cùng một lúc.

Phương pháp 5 trên 6

Trình trích xuất văn bản A-PDF

A-PDF Text Extractor là một phần mềm Windows khác được thiết kế để trích xuất văn bản từ các tệp PDF. Phần mềm này hoàn toàn miễn phí cho cả sử dụng cá nhân và thương mại.

Sau khi cài đặt Trình trích xuất văn bản A-PDF (kích thước trình cài đặt dưới 1 MB), hãy khởi chạy Trình trích xuất văn bản A-PDF. Bấm vào nút Mở để mở tệp PDF, rồi bấm Trích xuất nút văn bản để bắt đầu trích xuất văn bản ra khỏi tệp.

Phương pháp 6 trên 6

Trình đọc PDF Gaaiho

Gaaiho PDF Reader là một phần mềm tuyệt vời được thiết kế để xử lý các tệp PDF. Phần mềm miễn phí này cung cấp rất nhiều tính năng mà bạn không thể tìm thấy phần mềm đọc PDF miễn phí khác. Một trong những tính năng là khả năng trích xuất văn bản từ các tệp PDF một cách dễ dàng.

Để lưu tệp PDF dưới dạng tệp văn bản, sau khi mở tệp PDF trong Gaaiho Reader, bấm vào menu Tệp, bấm Lưu dưới dạng, sau đó chọn tùy chọn PDF thành Văn bản từ menu thả xuống bên cạnh Lưu dưới dạng.

Bạn nghĩ gì về những công cụ này? Bạn có biết về một công cụ miễn phí tốt hơn cho cùng một công việc không? Hãy cho chúng tôi biết trong ý kiến.