Tóm tắt văn bản tự động – Lincoln, Giới thiệu về Tóm tắt Tự động – Blog dữ liệu

Một blog về dữ liệu, trí tuệ nhân tạo và các dự án của tôi

Tóm tắt tự động là lấy một văn bản dài, hoặc thậm chí là một tập hợp các văn bản và tự động tạo một văn bản ngắn hơn nhiều chứa phần lớn thông tin. Đơn giản ? Không nhiều. Đầu tiên, bạn phải đồng ý thông tin nào thực sự quan trọng. Sau đó, chúng ta phải có khả năng trích xuất chúng đúng cách, tổ chức lại chúng, tất cả trong một văn bản ngữ pháp và không có sự can thiệp của con người. Và đó là không tính đến số lượng lớn các biến thể của các bản tóm tắt có thể !

Tóm tắt văn bản tự động

Với sự bùng nổ của việc thu thập và lưu trữ kết cấu, sự cần thiết phải phân tích và trích xuất thông tin liên quan từ khối này ngày càng có nhiều.

Ngoài ra, sự bùng nổ trong các mô hình học tập sâu để xử lý ngôn ngữ tự nhiên (TALN) đã tạo điều kiện cho việc sử dụng dữ liệu văn bản trong các vấn đề hoạt động. Tóm tắt văn bản tự động, giống như câu hỏi trả lời, phân tích sự tương đồng, phân loại tài liệu và các nhiệm vụ khác được liên kết với Taln là một phần của những vấn đề này.

Chính trong bối cảnh này, Đổi mới phòng thí nghiệm De Lincoln đã quyết định thực hiện công việc tóm tắt văn bản tự động. Những tác phẩm này đã giúp thiết lập một chuẩn mực của các mô hình tóm tắt tự động có sẵn cho ngôn ngữ người Pháp, để gây ra mô hình của chúng ta và cuối cùng đưa nó vào sản xuất.

Đào tạo mô hình

Tóm tắt tự động thế giới

Dữ liệu

Trước khi chúng tôi có thể bắt đầu công việc của mình, trước tiên chúng tôi phải xây dựng một cơ sở dữ liệu để học các mô hình tóm tắt tự động. Chúng tôi đã phục hồi các mặt hàng báo chí từ một số trang tin tức của Pháp. Cơ sở này chứa ~ 60K bài viết và được cập nhật liên tục.

Hiện đại nhất

Thuật toán tóm tắt tự động có thể được tách thành hai loại: tóm tắt khai thác và tóm tắt trừu tượng. Trong khung khai thác, Các bản tóm tắt được xây dựng từ các câu được trích xuất từ ​​văn bản trong khi các bản tóm tắt trừu tượng được tạo từ các câu mới.

Các mô hình tóm tắt tự động khá phổ biến bằng tiếng Anh, nhưng chúng ít hơn bằng tiếng Pháp.

Số liệu

Để đánh giá các mô hình, chúng tôi đã sử dụng các số liệu sau:

MÀU ĐỎ : Không còn nghi ngờ gì nữa, phép đo thường được báo cáo nhiều nhất trong các nhiệm vụ tóm tắt, việc đánh giá theo định hướng thu hồi để đánh giá (Lin, 2004) tính toán số lượng N-gram tương tự giữa bản tóm tắt được đánh giá và tóm tắt tham chiếu của con người.

Sao băng: Số liệu để đánh giá dịch thuật với thứ tự rõ ràng (Banerjee và Lavie, 2005) được thiết kế để đánh giá kết quả dịch tự động. Nó dựa trên mức trung bình hài hòa của độ chính xác và thu hồi trên unigram, việc thu hồi có trọng số lớn hơn độ chính xác. Thiên thạch thường được sử dụng trong các ấn phẩm tóm tắt tự động (xem et al., 2017; Dong et al., 2019), ngoài màu đỏ.

Mới lạ: Nó đã được nhận thấy rằng một số mô hình trừu tượng nghỉ ngơi quá nhiều vào việc khai thác (xem et al., 2017; Krysci nski et al.‘, 2018). Do đó, nó đã trở nên phổ biến để đo lường tỷ lệ phần trăm của các gram mới được tạo ra trong các bản tóm tắt được tạo ra.

Nguồn: Dịch từ giấy MLSUM [2].

Việc triển khai các mô hình

Để đào tạo mô hình, chúng tôi đã sử dụng dịch vụ ML Cloud Azure, cung cấp một môi trường hoàn chỉnh để đào tạo, giám sát và triển khai các mô hình.

Mô hình tóm tắt tự động

Chúng tôi đã sử dụng chính xác hơn SDK Python cho phép bạn quản lý toàn bộ môi trường Azureml theo cách lập trình, từ việc ra mắt “Công việc” cho đến việc triển khai các mô hình.

Tuy nhiên, chúng tôi đã gói gọn mô hình cuối cùng của chúng tôi trong một ứng dụng bình chứa thùng chứa sau đó được triển khai thông qua các đường ống CI/CD trên cụm Kubernetes

Kết quả

Trước hết, chúng tôi đã thực hiện một số nỗ lực, dẫn đầu các mô hình trên các bài viết 10k, thay đổi số lượng mã thông báo được đưa ra khi bắt đầu mô hình (512 hoặc 1024) và các kiến ​​trúc khác nhau.

Quan sát đầu tiên: Số liệu màu đỏ và thiên thạch dường như không phù hợp với đánh giá hiệu suất của các mô hình của chúng tôi. Do đó, chúng tôi đã chọn dựa trên các so sánh của chúng tôi về điểm số mới lạ và được chọn ngành kiến ​​​​trúc ủng hộ các bản tóm tắt trừu tượng hơn.

Sau khi thúc đẩy việc đào tạo mô hình của chúng tôi trên các mục 700K, chúng tôi đã cải thiện đáng kể kết quả và xác thực một phiên bản đầu tiên mà bạn sẽ tìm thấy bên dưới.

Điểm chú ý

Ngoài hiệu suất, thử nghiệm này cho phép chúng tôi làm nổi bật một số ranh giới Tóm tắt tự động:

Hiện tại, kích thước của văn bản trong đầu vào của các mô hình loại Biến đổi được giới hạn bởi khả năng trong bộ nhớ của GPUS. Chi phí trong bộ nhớ là bậc hai với kích thước của văn bản là đầu vào, điều này đặt ra một vấn đề thực sự cho các tác vụ tóm tắt tự động trong đó văn bản được tóm tắt thường là đủ dài.

Rất khó để tìm các số liệu có liên quan để đánh giá các nhiệm vụ tạo văn bản.

Hãy cẩn thận Trọng lượng của máy chiết : Chúng tôi cũng đã gặp một số vấn đề liên quan đến dữ liệu. Vấn đề chính là bài viết của bài viết thường là một cách diễn đạt hoặc thậm chí là một bản sao của các câu đầu tiên của bài viết. Điều này có hậu quả là khuyến khích các mô hình của chúng tôi được khai thác hơn là trừu tượng bằng cách trả lại những câu đầu tiên của bài viết. Do đó, cần phải thực hiện một công việc giám tuyển bằng cách xóa các bài báo đặt ra vấn đề để tránh loại sai lệch này.

Một blog về dữ liệu, trí tuệ nhân tạo và các dự án của tôi.

Tóm tắt tự động là lấy một văn bản dài, hoặc thậm chí là một tập hợp các văn bản và tự động tạo một văn bản ngắn hơn nhiều chứa phần lớn thông tin. Đơn giản ? Không nhiều. Đầu tiên, bạn phải đồng ý thông tin nào thực sự quan trọng. Sau đó, chúng ta phải có khả năng trích xuất chúng đúng cách, tổ chức lại chúng, tất cả trong một văn bản ngữ pháp và không có sự can thiệp của con người. Và đó là không tính đến số lượng lớn các biến thể của các bản tóm tắt có thể !

Tôi đã có thể làm việc trong khoảng một năm về chủ đề thú vị này ngay trước Tiến sĩ, bài đăng này là cơ hội để tôi đắm mình trong chủ đề này và nắm bắt những đổi mới mới nhất trong lĩnh vực này.

Vì vậy, chúng ta hãy xem xét tổng quan về chủ đề này, bằng cách tạo bằng cách mô tả các loại tóm tắt khác nhau tồn tại, trước khi tập trung vào hai loại hệ thống một chút chi tiết: những loại từ AI và mạng lưới thần kinh, và các loại khá tập trung vào việc trích xuất tối ưu của thông tin.

Các loại tóm tắt khác nhau

Khi chúng ta nói về tóm tắt, chúng ta thường nghĩ về bìa sau của một cuốn sách hoặc mô tả về kịch bản cho một bộ phim. Nói chung, họ tránh làm hỏng kết thúc, khi đây chính xác là những gì người ta sẽ yêu cầu một công cụ tóm tắt tự động cổ điển: để nói với mưu đồ, để tóm tắt có thể đủ để biết các yếu tố cần thiết. Đây là về Tóm tắt mono-tài liệu, Đó là để nói rằng chúng tôi chỉ tóm tắt một tài liệu duy nhất (một bộ phim, một cuốn sách, một bài báo, …).

Ngược lại, chúng ta có thể muốn một Tóm tắt đa tài liệu, rằng chúng tôi gặp nhau thường xuyên hơn trong bối cảnh đánh giá báo chí: chúng tôi muốn có một bản tóm tắt các thông tin quan trọng nhất theo báo cáo của các tổ chức báo chí khác nhau.

Khi chúng tôi đã quyết định về loại dữ liệu mà chúng tôi tìm cách tóm tắt, đơn sắc hoặc đa tài liệu, chúng tôi có sự lựa chọn giữa hai cách tiếp cận:khai thác, bao gồm trích xuất dưới dạng thông tin trước khi đặt lại để tạo tóm tắt và cách tiếp cận tổng quát, bao gồm việc tạo ra các câu mới, ban đầu không xuất hiện trong các tài liệu, để có bản tóm tắt chất lỏng và tự do hơn.

Ngoài các tiêu chí này, còn có nhiều kiểu tóm tắt khác nhau, chúng tôi sẽ không tiếp cận ở đây: Cập nhật tóm tắt bao gồm tóm tắt thông tin xuất hiện trong một tài liệu mới và cho đến nay không được liệt kê Được đưa ra bởi người dùng, ..

AI và mạng lưới thần kinh cách mạng hóa bản tóm tắt tự động

Cho đến giữa những năm -2010, hầu hết các bản tóm tắt đều được khai thác. Tuy nhiên, sự đa dạng lớn đã tồn tại trong các thuật toán này có thể bao gồm từ việc lựa chọn và trích xuất toàn bộ câu cho đến việc trích xuất thông tin chính xác được giải quyết sau đó trong các văn bản với các lỗ được chuẩn bị trước được gọi là các mẫu. Sự xuất hiện của các phương pháp mới dựa trên mạng lưới thần kinh đã thay đổi đáng kể tình hình. Các thuật toán này hiệu quả hơn nhiều so với các thuật toán trước để tạo ra văn bản ngữ pháp và chất lỏng, giống như những gì có thể được thực hiện với bản demo GPT này.

Mạng lưới thần kinh, tuy nhiên, yêu cầu một lượng lớn dữ liệu phải được đào tạo và tương đối không thể hiểu được. Chúng hoạt động hoàn hảo để tạo ra các nhận xét về tính xác thực ít quan trọng, nhưng mạnh mẽ có thể tạo ra thông tin mâu thuẫn hoặc đơn giản là có vấn đề trong bối cảnh các bài báo báo chí Tóm tắt chẳng hạn. Nhiều bài báo nghiên cứu quan tâm đến những “ảo giác” của các mạng lưới thần kinh.

Một ví dụ về một công cụ lai: Potara

Tóm tắt tự động là chủ đề nghiên cứu đầu tiên mà tôi quan tâm, và tôi đã có cơ hội phát triển trong suốt một hệ thống tóm tắt của bản tóm tắt bằng cách trích xuất/tạo ra một cách tiếp cận đa tài liệu, nghĩa là tóm tắt một tập hợp các tài liệu nói của cùng một chủ đề.

Ý tưởng là bắt đầu từ một trích xuất cổ điển, cụ thể là để xác định các câu quan trọng nhất và lắp ráp chúng để tạo ra một bản tóm tắt. Vấn đề với phương pháp này là các câu quan trọng nhất thường có thể được cải thiện hơn nữa. Ví dụ, trong một bài báo nói về sự dịch chuyển của tổng thống, cụm từ “Emmanuel Macron đã gặp đối tác Mỹ của mình và thảo luận về kinh tế” có thể được cải thiện trong “Emmanuel Macron Met Joe Biden và thảo luận về nền kinh tế”. Các nhà báo cẩn thận tránh các buổi tập, chúng tôi thấy mình thường xuyên đối mặt với loại hiện tượng này.

Để khắc phục khiếm khuyết này, chúng ta có thể xác định các câu tương tự có trong các tài liệu khác nhau và cố gắng hợp nhất chúng để có được một câu tốt hơn. Ansi, từ hai câu sau:

  • Emmanuel Macron đã gặp đối tác Mỹ của mình ở Washington và nói về kinh tế theo chiều dài.
  • Tổng thống Pháp đã gặp Joe Biden và thảo luận về kinh tế học.

Chúng ta có thể tạo một câu ngắn và thông tin:

  • Emmanuel Macron đã gặp Joe Biden ở Washington và thảo luận về kinh tế học.

Một số bước là cần thiết để đạt được kết quả này: tìm các câu tương tự, tìm ra phản ứng tổng hợp tốt nhất, kiểm tra xem Fusion tốt hơn nhiều so với câu gốc. Họ tham gia nhiều công nghệ: Word2 với các mạng thần kinh để tìm các câu tương tự, biểu đồ đồng CCCurence để hợp nhất chúng, tối ưu hóa ILP để chọn các vụ sáp nhập tốt nhất.

Nếu bạn muốn xem thêm, Potara là nguồn mở, nhưng chưa được duy trì trong một thời gian. Dự án này đáng chú ý là một chương trình giới thiệu khi tôi được phát hành và do đó có tài liệu, thử nghiệm, tích hợp liên tục, triển khai trên PYPI, ..

Tóm tắt tự động tốt là gì ?

Nếu một số tiêu chí nhất định có vẻ rõ ràng và tương đối đơn giản để đánh giá (ví dụ tính ngữ pháp của các câu), những tiêu chí khác thì phức tạp hơn nhiều. Quyết định thông tin quan trọng nhất của văn bản đã là một nhiệm vụ rất chủ quan. Đánh giá tính lưu động, lựa chọn đúng của các từ được sử dụng, trở lại với công việc xuất bản và đừng nói về định hướng chính trị mà một bản tóm tắt có thể lấy !

Các mô hình tổng thể mới dựa trên các mạng thần kinh có khả năng đưa ra các phán đoán hoặc vòng loại (hoặc người dùng), một hiệu ứng tìm kiếm khi tạo ra một nhà phê bình phim, nhưng ít hơn khi nói về chương trình của một ứng cử viên tổng thống !

Do đó, bản tóm tắt tự động vẫn là một chủ đề rất tích cực trong nghiên cứu, và có thể trong một khoảnh khắc, đặc biệt là liên quan đến khả năng hướng dẫn kết quả của thuật toán, chính xác là hướng tới một cảm giác cụ thể, một phong cách cụ thể, một màu sắc chính trị được đưa ra. Trong ngành, ông chỉ bắt đầu tham gia các giám đốc điều hành rất cụ thể (ví dụ Tóm tắt các cuộc họp).

Tổng thống 2022: Dữ liệu của bạn !

3 ví dụ về các dự án dữ liệu sẽ được thực hiện cho cuộc bầu cử tổng thống năm 2022.