Trong bối cảnh chuyển đổi số đang phát triển mạnh mẽ, nhu cầu số hóa tài liệu giấy, đặc biệt là văn bản phức tạp, bảng biểu và chữ viết tay tiếng Việt ngày càng trở nên cấp thiết. Nhóm tác giả đến từ Trung tâm Dịch vụ dữ liệu và Trí tuệ nhân tạo Viettel đã nghiên cứu thành công công trình ‘Phát triển công nghệ trích xuất thông tin từ ảnh văn bản có đa dạng bố cục, bảng biểu và chữ viết tay tiếng Việt’. Công trình này vừa được trao giải Khuyến khích tại Giải thưởng Sáng tạo Khoa học Công nghệ Việt Nam năm 2024, đánh dấu một bước tiến quan trọng của ngành công nghệ Việt Nam trong việc làm chủ nền tảng số phù hợp với đặc thù trong nước.
Công trình này xuất phát từ thực tiễn cấp thiết trong quá trình chuyển đổi số, đặc biệt là trong lĩnh vực hành chính công và tài chính, ngân hàng. Tại Việt Nam, số lượng văn bản giấy cần số hóa là rất lớn, nhưng chúng lại có cấu trúc, định dạng và ngôn ngữ rất đa dạng. Nhiều tài liệu chứa bảng biểu, biểu mẫu viết tay hoặc bố cục không thống nhất, gây khó khăn cho các hệ thống công nghệ sẵn có, vốn phần lớn được thiết kế phục vụ ngôn ngữ và quy chuẩn nước ngoài.
Nhóm nghiên cứu đã xây dựng một nền tảng có thể xử lý cả ba loại biểu mẫu: biểu mẫu cố định, biểu mẫu tự do và biểu mẫu bán cố định. Đây là một bước tiến mang tính đột phá, vì nền tảng không chỉ ‘đọc hiểu’ được văn bản đánh máy mà còn xử lý được cả chữ viết tay tiếng Việt, điều mà rất ít nền tảng hiện có trên thị trường đáp ứng được. Với cấu trúc mở, sản phẩm có thể tùy biến để ứng dụng trong nhiều lĩnh vực khác nhau, từ đăng ký dịch vụ công trực tuyến, định danh người dùng, đến tự động hóa quy trình xử lý hồ sơ trong doanh nghiệp.
Hệ thống công nghệ xử lý văn bản do nhóm nghiên cứu phát triển, có thể được triển khai linh hoạt dưới nhiều hình thức, phù hợp với nhu cầu của từng đơn vị, từ lưu trữ đám mây đến tích hợp vào hạ tầng của khách hàng. Nhờ đó, sản phẩm phù hợp với nhiều đối tượng sử dụng, từ cơ quan quản lý nhà nước, doanh nghiệp lớn, đến tổ chức nhỏ và vừa. Đặc biệt, với việc làm chủ toàn bộ công nghệ, sản phẩm không phụ thuộc vào nền tảng nào của nước ngoài, đảm bảo bảo mật dữ liệu và tối ưu cho ngôn ngữ, văn bản tiếng Việt.
Hiệu quả của công trình không chỉ thể hiện qua việc được triển khai tại nhiều đơn vị trong nước mà còn ở khả năng thương mại hóa rõ ràng. Chỉ riêng trong ba năm gần đây, các sản phẩm ứng dụng công nghệ nền tảng này đã mang về doanh thu lên tới hàng chục tỷ đồng mỗi năm, bao gồm cả dịch vụ định danh điện tử, quản lý văn bản thông minh và các giải pháp hỗ trợ chuyển đổi số tại địa phương.
Nghị quyết số 57-NQ/TW của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia đã tạo ra một hành lang chính sách rõ ràng và tích cực. Nghị quyết này đã góp phần tạo cầu nối hiệu quả giữa nhóm nghiên cứu và các đơn vị ứng dụng, từ đó hình thành hàng loạt hợp đồng chuyển giao công nghệ.
Trong tương lai, nhóm mong muốn chính sách này tiếp tục được cụ thể hóa bằng các hướng dẫn chi tiết và ưu đãi thực chất hơn cho doanh nghiệp ứng dụng công nghệ nội địa, nhằm đưa nhiều sáng chế Việt Nam đến gần hơn với người dân, phục vụ hiệu quả quá trình chuyển đổi số quốc gia. Để biết thêm thông tin về công trình này, vui lòng truy cập vào https://www.viettel.vn hoặc liên hệ với Trung tâm Dịch vụ dữ liệu và Trí tuệ nhân tạo Viettel để được tư vấn chi tiết về các giải pháp chuyển đổi số.