Bài báo: Data Augmentation with GPT-3.5 for Vietnamese Natural Language Inference
Sinh viên thực hiện: Mai Hiếu Hiền – 20521305 – KHCL2020.2 – Tác giả chính
Giảng viên hướng dẫn: TS. Lương Ngọc Hoàng
Tóm tắt bài báo:
In this paper, we propose a new method for data augmentation by using the GPT3.5 model to enrich Vietnamese dataset in natural language inference task. There were several methods for Vietnamese natural language processing that just modified one or a few words (tokens). However, those methods limit the diversity of new sentences. In contrast, our method utilizes the GPT3.5 model to generate new sentences and make augmented data more diverse. Besides, we implement the pointwise V-information to remove mislabeled data in the generated corpus, which increases the quality of our generated corpus. The experiment results show that our proposed approach achieves better results on both multilingual models (e.g. Multilingual BERT, XLM-Roberta) and monolingual models (e.g. PhoBERT) compared to the baseline, demonstrating the effectiveness and potential of using large language models in Vietnamese natural language processing.
"Em xin gửi lời cảm ơn đến Thầy Lương Ngọc Hoàng – đã tận tình hướng dẫn và chỉ ra những mặt hạn chế của em trong quá trình nghiên cứu và công bố bài báo khoa học quốc tế này"
Hội nghị RIVF là một hội nghị quốc tế Công nghệ Truyền thông và Điện toán, là sự kiện khoa học quốc tế lớn quy tụ các nhà khoa học, nghiên cứu trong lĩnh vực điện toán và truyền thông ở Việt Nam và thế giới đồng hành “Nghiên cứu – Đổi mới và Tầm nhìn cho tương lai” (Reseach, Innovation and Vision for the future, viết tắt là RIVF). Hội nghị RIVF được liệt kê vào danh sách các hội nghị uy tín theo đề xuất của SCOPUS and ISI Web of Science. RIVF đã trải qua 16 lần tổ chức và năm 2023 là lần tổ chức thứ 16.
Hội nghị RIVF 2023 xoay quanh các chủ đề chính gồm: Xử lý hình ảnh, ngôn ngữ, giọng nói; Truyền thông & Mạng máy tính, An ninh mạng; Hệ thống phân tán, Internet vạn vật, Điện toán đám mây; Trí tuệ nhân tạo, Khoa học dữ liệu, Phân tích dữ liệu lớn, Máy tính thông minh; Kỹ thuật phần mềm, Hệ thống thông tin, Mô hình tính toán.
Các hội nghị RIVF được khởi đầu năm 2003 từ nỗ lực của các giáo sư Patrick Bellot, Marc Bùi, Dương Nguyên Vũ, ... tại Pháp và đồng nghiệp ở nhiều nước, giáo sư Nguyễn Đình Trí và các giáo sư của Học viện Tin học Pháp ngữ IFI (Institut de la Francophonie pour l’Informatique) ở Hà Nội. Đến năm 2007, RIVF từ một hội nghị về tin học của cộng đồng Pháp ngữ tổ chức tại Việt Nam, đã được chuyển thành một hội nghị quốc tế của IEEE (tổ chức kỹ sư điện và điện tử quốc tế) với nội dung về cả CNTT&TT và chất lượng được nâng cao.
Thông tin chi tiết: https://www.facebook.com/UIT.Fanpage/posts/pfbid0TMeB6Q44hC4v1ii9iQXih6NTyXwDpwDfZgXFtviHmWBnLrF19B9pNympvTUe727zl
Hải Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin