Bài báo “Generating ERD and DDL Scripts from Vietnamese Natural Language Text by using a Multi-Phase” của sinh viên Nguyễn Thị Mỹ Trân và Tôn Nữ Tú Quyên đã được đăng tại Hội nghị quốc tế ISDS 2024. Bài báo được thực hiện dưới sự hướng dẫn của PGS.TS Nguyễn Đình Thuân.
Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, việc tự động hóa thiết kế và triển khai cơ sở dữ liệu trở nên thiết yếu để tiết kiệm thời gian, nâng cao tính linh hoạt và hiệu quả. Những nghiên cứu gần đây đã áp dụng các công nghệ NLP và học máy để tự động tạo lược đồ và truy vấn từ mô tả bằng ngôn ngữ tự nhiên, với kết quả ấn tượng trong tiếng Anh. Tuy nhiên, việc áp dụng công nghệ này vào tiếng Việt vẫn còn nhiều hạn chế, điều này đặt ra một thách thức lớn trong việc phát triển hệ thống hỗ trợ chuyển đổi văn bản tiếng Việt thành các sơ đồ ERD và DDL. Trong nghiên cứu này, quy trình bắt đầu bằng việc thu thập các tài liệu hoặc đoạn văn mô tả hệ thống cơ sở dữ liệu. Các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) được áp dụng, bao gồm các phương pháp dựa trên luật (rule-based), các quy tắc heuristic, và các mô hình học máy tiên tiến như transformer với kiến trúc mT5, mô hình pre-trained "VietAI/vit5-base" dành riêng cho tiếng Việt, cùng với BERT cho đa ngôn ngữ. Độ chính xác và tính toàn vẹn của mô hình được đánh giá qua các chỉ số từ các chuyên gia (Expert) và độ đo ROUGE. Để vẽ sơ đồ ERD (Entity-relationship diagrams), công cụ PlantUML được sử dụng, mang lại cú pháp đơn giản, dễ hiểu và hiệu quả trong việc minh họa cấu trúc cơ sở dữ liệu. Đồng thời, DDL (Data Definition Language) cũng được tự động sinh ra từ mô tả hệ thống, giúp tạo ra các câu lệnh cần thiết để triển khai cơ sở dữ liệu một cách chính xác và nhanh chóng. Bên cạnh đó, ngôn ngữ lập trình như Python, C#, .NET cùng với kiến thức xây dựng website được tận dụng để phát triển một hệ thống tự động chuyển đổi văn bản tiếng Việt thành ERD và DDL, nhằm hỗ trợ tối ưu hóa quy trình thiết kế và quản lý cơ sở dữ liệu.
"Chúng em xin chân thành cảm ơn thầy PGS.TS Nguyễn Đình Thuân đã tận tâm hướng dẫn chúng em trong quá trình học tập và nghiên cứu, truyền cảm hứng để chúng em vượt qua thử thách. Chúng em cũng biết ơn các thầy cô trong trường và khoa Hệ Thống Thông Tin vì những kiến thức quý báu và cơ hội phát triển. Cuối cùng, xin cảm ơn các anh chị, bạn bè, đặc biệt là nhóm nghiên cứu FTISU, đã luôn hỗ trợ, giúp đỡ chúng em trong suốt quá trình nghiên cứu."
The 2nd International Conference on Intelligent Systems and Data Science (ISDS 2024) là một hội nghị quốc tế, diễn ra từ ngày 9-10/11/2024 tại Đại học Nha Trang. Hội nghị ISDS 2024 là cơ hội để các nhà nghiên cứu chia sẻ các nghiên cứu mới nhất về các hệ thống thông minh và khoa học dữ liệu. Các bài báo được chọn lọc sẽ được công bố trong bộ sách CCIS của Springer, được lập chỉ mục Scopus, hoặc trong tạp chí của Đại học Cần Thơ. Hội nghị thu hút các chuyên gia từ nhiều quốc gia và tạo cơ hội kết nối, trao đổi kiến thức trong các lĩnh vực công nghệ và khoa học dữ liệu.
Thông tin chi tiết: https://www.facebook.com/UIT.Fanpage/posts/pfbid02175Y8PoMAzNPyLmaBdi5C37RBvDRjHANtNJQQXbYdYe9XYnRx77vaTR995t45tR7l