Trường Đại học Công nghệ Thông tin, xin được chúc mừng nhóm sinh viên với bài báo: "Sentence Extraction-Based Machine Reading Comperhension for Vietnamese" đăng chấp nhận đăng tại Hội nghị Quốc tế lần thứ 14 Knowledge Science, Engineering and Management (KSEM 2021)
Hội nghị Quốc tế lần thứ 14 Knowledge Science, Engineering and Management (KSEM 2021) sẽ tổ chức tại thành phố Tokyo, Nhật Bản. Sự kiện này là sự tiếp nối của chuỗi thành công của 13 lần hội nghị được tổ chức trước đó với lần đầu tiên hội nghị được tổ chức vào năm 2006. KSEM là một hội nghị quốc tế về nghiên cứu khoa học, kỹ thuật và quản lý tri thức, thu hút các bài báo nghiên cứu hiện đại, chất lượng cao từ khắp các nơi trên thế giới. Hội nghị tập trung vào việc trở thành một diễn đàn hàng đầu cho các triển khai công nghệ tri thức và các hệ thống dựa trên tri thức mang tính tiên phong. Hội nghị mang đến cơ hội đặc biệt để trình bày các công trình gốc, những tiến bộ khoa học và công nghệ mới nhất về các hệ thống liên quan đến tri thức, đồng thời thảo luận và tranh luận về các vấn đề thực tế và mối quan tâm của cộng đồng nghiên cứu. Hội nghị này cũng là cơ hội cho chúng ta xác định được vị trí của mình trong cộng đồng khoa học để tìm ra mục tiêu và định hướng được tương lai.
Bài báo được thực hiện bởi nhóm sinh viên:
- Đỗ Nguyễn Thuận Phong + 18520126 - KHMT2018
- Nguyễn Duy Nhật - 18520118- KHMT2018
Bài báo do giảng viên Th.S Nguyễn Văn Kiệt, TS Nguyễn Gia Tuấn Anh, TS Nguyễn Lưu Thùy Ngân, CN Huỳnh Văn Tin hướng dẫn.
Trong sự phát triển nhanh chóng của trí tuệ nhân tạo trong thời đại hiện nay thì việc tương tác giữa con người và máy tính thông qua ngôn ngữ là rất lớn. Mở ra hàng loạt nhiệm vụ cho lĩnh vực Xử lý ngôn ngữ tự nhiên như phân tích cảm xúc, dịch máy, hỏi đáp hay đọc hiểu tự động. Trong đó, đọc hiểu tự động trong những năm gần đây thu hút được rất nhiều các nhà nghiên cứu trên Thế giới quan tâm và cho ra đời hàng loạt công trình nghiên cứu và các thành tựu mới. Đọc hiểu tự động cũng đã cho thấy được sự đóng góp to lớn của nó trong cuộc sống hiện tại của con người thông qua việc nó đã được áp dụng vào các hệ thống trợ lý ảo như Siri, Alexa và Amazon Echo hay các công cụ tìm kiếm như Google, Bing và Baidu. Với sự phát triển và ứng dụng to lớn như thế thì các ngôn ngữ Anh, Trung Quốc, Pháp đã cho ra đời nhiều bộ dữ liệu đa dạng về loại cũng như kích thước to lớn từ đó cho ra đời các thành tựu mới trong lĩnh vực. Tuy nhiên tiếng Việt lại chưa có nhiều các bộ dữ liệu đọc hiểu tự động kích thước lớn và đa dạng về chủng loại để thúc đẩy nghiên cứu trong lĩnh vực đọc hiểu tự động nói riêng và xử lý ngôn ngữ tự nhiên nói chung.
Trong bài báo này, nhóm sinh viên đã tạo ra bộ dữ liệu UIT-ViWikiQA từ việc chuyển đổi bộ dữ liệu UIT-ViQuAD bằng thuật toán do nhóm sinh viên phát triển. So với tiền thân của nó, bộ dữ liệu của nhóm sinh viên là bộ dữ liệu trích xuất câu dựa trên đọc hiểu tự động thay vì truy xuất ra cụm. Việc truy xuất câu cũng sẽ giúp cho người đọc nhận được một thông tin nhiều hơn và thuận tiện sử dụng làm đầu vào cho các bài toán sau đó. Bộ dữ liệu của nhóm sinh viên là bộ dữ liệu với đa dạng chủ đề với hơn 23.074 cặp câu hỏi và câu trả lời được lấy từ 174 bài báo tiếng Việt từ Wikipedia. Đồng thời, nhóm sinh viên cũng định nghĩa bài toán trích xuất câu dựa trên đọc hiểu tự động trên tiếng Việt. Nhóm còn đề xuất ba hướng tiếp cận cho bài toán và tiến hành thử nghiệm các mô hình dựa trên các hướng tiếp cận đó: tiếp cận dựa trên xếp hạng (WordCount, BM25), tiếp cận dựa trên phân loại (maLSTM, BiGRU) và tiếp cận dựa trên đọc hiểu tự động (QANet, BERT, XLM-Roberta và PhoBERT). Với mô hình tốt nhất đã đạt EM là 85.87% và F1 là 88.77%. Tương lai, chúng tôi sẽ áp dụng bài toán này để nâng cao hiệu suất của bái toán trích xuất cụm trong đọc hiểu tự động.
Mọi thông tin chi tiết xem tại: https://www.facebook.com/UIT.Fanpage/
Hạ băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin