Skip to content
  • Tiếng Việt
  • English

Chúc mừng nhóm sinh viên Khoa học Máy tính có bài báo khoa học được chấp nhận đăng tại Hội nghị khoa học MAPR 2024

7th International Conference on Multimedia Analysis and Pattern Recognition (MAPR), được tài trợ bởi VAPR (Vietnamese Association on Pattern Recognition), sẽ diễn ra tại Đà Nẵng, Việt Nam, vào ngày 15-16 tháng 8 năm 2024. Mục tiêu của hội nghị này là tạo cơ hội cho các nhà nghiên cứu và chuyên gia từ cả học viện và ngành công nghiệp để chia sẻ những kết quả nghiên cứu mới nhất và củng cố cơ hội hợp tác trong lĩnh vực nhận dạng mẫu, phân tích đa phương tiện và các lĩnh vực liên quan. Một số chủ đề mà hội nghị quan tâm đến là: Pattern Recognition and Machine Learning, Multimedia Analysis, Biomedical Image Analysis and Biometrics, Computer Vision and Robot Vision, Document Analysis and Recognition, Applications.

Bài báo: “VISA: Video Interactive Search with Advanced Visual Programming”

Sinh viên thực hiện:

- Lưu Đức Tuấn - Nghiên cứu viên PTN TTĐPT (MMLAB) - Tác giả chính

- Nguyễn Duy Ngọc - KHCL 2021 - Đồng tác giả

- Bùi Lê Khánh Linh - KHCL 2021 - Đồng tác giả  

Giáo viên hướng dẫn:

- TS. Nguyễn Vinh Tiệp

- PGS.TS. Trần Minh Triết

Tóm tắt bài báo:

Video retrieval has become an important task in computer vision, with video contents uploaded to the Internet every hour. Along with retrieving the relevant visual content, users may also want to perform several post-processing steps such as visual editing, understanding or video summarizing. However, to our knowledge, there is no such integrated system that enables users to perform downstream visual understanding and editing tasks via text prompts. In this work, we propose VISA framework, which combines a visual programming module with a video search system. Specifically, our interactive framework offers fundamental video retrieval with semantic search, text search and audio search with descriptive inputs summarized by a large language model (LLM). After obtaining the video frame results, users can provide natural language instructions as guidance for image understanding and editing tasks. Having the in-context learning capability of LLMs, our visual programming module generates high-level and interpretable pseudocodes from the given instructions. The corresponding Python programs are then executed to achieve the desired results. We evaluate our VISA framework on the 2023 Ho Chi Minh City AI Challenge dataset and the image editing component on the MagicBrush benchmark.

“Chúng tôi xin chân thành cảm ơn Phòng thí nghiệm Truyền thông Đa phương tiện (MMLab), Khoa Khoa học máy tính đã hỗ trợ, tạo điều kiện cho chúng tôi trong quá trình nghiên cứu này”.

Mọi thông tin chi tiết xem tại: https://www.facebook.com/share/p/G9D2iduWRxAb7sDy/

Đông Xanh - Cộng tác viên truyền thông Trường Đại học Công nghệ Thông tin