Skip to content
  • Tiếng Việt
  • English

Sinh viên ngành Công nghệ Thông tin có bài báo Khoa học tại Tạp chí Khoa học ISI Q1

Bài báo: “XLMR4MD: New Vietnamese Dataset and Framework for Dêtcting the Consistency of Description and Permission in Android Applications Using Largae Language Models”

Sinh viên thực hiện:

Nguyễn Ngọc Quí - CNTT2018

Giáo viên hướng dẫn: 

TS Nguyễn Tấn Cầm 

Th.S Nguyễn Văn Kiệt 

Tóm tắt bài báo:

Google Play và các nền tảng ứng dụng khác có đa dạng ứng dụng Android và các siêu dữ liệu của chúng. Trong số các siêu dữ liệu này, thông tin mô tả và chính sách bảo mật giúp giải thích chức năng của ứng dụng. Chúng cũng mô tả quyền của ứng dụng, đặc biệt là những quyền liên quan đến thông tin nhạy cảm. Phát hiện sự không nhất quán giữa mô tả của ứng dụng, thông tin bảo mật và quyền được trích xuất từ mã nguồn ứng dụng giúp người dùng quyết định liệu họ có cài đặt và sử dụng ứng dụng hay không. Trong nghiên cứu này, chúng tôi đề xuất một phương pháp mới dựa trên một mô hình ngôn ngữ được huấn luyện trước để phát hiện sự không nhất quán giữa quyền được trích xuất từ mô tả ứng dụng, chính sách bảo mật và quyền được trích xuất từ mã nguồn ứng dụng (tập tin APK). Công trình liên quan tập trung vào các mô hình của các bộ dữ liệu quy mô lớn, đặc biệt là cho các ngôn ngữ có tài nguyên phong phú như tiếng Anh. Tuy nhiên, một ngôn ngữ có tài nguyên thấp, cụ thể là tiếng Việt, cần có nhiều bộ dữ liệu hơn cho nhiệm vụ này. Để giải quyết vấn đề này, chúng tôi đề xuất bộ dữ liệu ViDPApp (Mô tả và Chính sách Bảo mật của Ứng dụng trên các miền tiếng Việt) - một bộ dữ liệu được gán nhãn thủ công với hơn 12.000 câu có độ đồng thuận giữa các người gán nhãn (IAA) trên 85%. Ngoài ra, chúng tôi đề xuất XLMR4MD, một framework sử dụng các mô hình ngôn ngữ lớn, vượt trội hơn các mô hình học máy khác (LSTM, Bi-GRU-LSTM-CNN, WikiBERT, DistilBERT, mBERT và PhoBERT). Framework đạt được độ đo F1 tốt nhất với 84,04% trong việc phát hiện sự không nhất quán giữa quyền của ứng dụng Android và mô tả. Khung này có thể được tinh chỉnh cho 100 ngôn ngữ khác nhau, từ đó phát triển cho các ngôn ngữ có tài nguyên thấp giống như tiếng Việt. Bộ dữ liệu này có sẵn cho mục đích nghiên cứu.

Em xin gửi lời cảm ơn chân thành nhất đến Thầy Nguyễn Tấn Cầm và Thầy Nguyễn Văn Kiệt. Bằng lòng thành và sự tận tâm mà hai Thầy đã dành cho chúng em trong quá trình hướng dẫn, chỉ ra những hạn chế quan trọng trong quá trình nghiên cứu. Sự hỗ trợ của hai Thầy là nguồn động viên lớn lao, giúp em vượt qua những thách thức và hoàn thành công việc nghiên cứu một cách tốt nhất. Em xin chân thành tri ân sự hướng dẫn và những kiến thức quý báu mà hai Thầy đã truyền đạt cho em. Một lần nữa em xin gửi lời cảm ơn đến hai Thầy rất nhiều!"

Mọi thông tin chi tiết xem tại: https://www.facebook.com/UIT.Fanpage/posts/pfbid033awLFtwtmYu8h7nzLMoiWU...

Hạ Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin