Nhóm sinh viên ngành Trí tuệ nhân tạo, Khoa học máy tính và An toàn thông tin tham dự hội nghị và báo cáo công trình nghiên cứu về Truy vấn thông tin sự kiện trong video tại Hội nghị khoa học quốc tế The 13th International Symposium on Information and Communication Technology (SoICT 2024).
Hội nghị SoICT 2024 diễn ra tại Thành phố Đà Nẵng do Trường Công nghệ thông tin và Truyền Thông - ĐH Bách Khoa Hà Nội, Trường ĐH Khoa học Tự nhiên - ĐHQG TP. HCM, Trường ĐH Bách khoa - ĐH Đà Nẵng phối hợp tổ chức vào ngày 13-15/12/2024.
Thông tin về bài báo khoa học:
Tên bài báo: “MAVERICS: Multimodal Advanced Visual Event Retrieval with Integrated CPU-Optimized Search”
Sinh viên thực hiện:
- Nguyễn Vũ Khai Tâm - Trí tuệ nhân tạo Hệ Chính quy (KHNT2022)
- Lê Trần Gia Bảo - Khoa học máy tính Hệ Chính quy (KHMT2022)
- Trần Kim Ngọc Ngân - Khoa học máy tính Hệ Tài năng (KHTN2022)
- Hoàng Ngọc Khánh - An toàn thông tin Hệ Tài năng (ATTN2023)
- Phạm Hoàng Lê Nguyên - Khoa học máy tính Hệ Chính quy (KHMT2022)
Bài báo khoa học của nhóm là kết quả của quá trình nghiên cứu và xây dựng giải pháp truy vấn hiệu quả thông tin sự kiện cuộc sống thường nhật từ dữ liệu video trong Hội thi Thử thách trí tuệ nhân tạo Tp. HCM năm 2024 (AI Challenge 2024). Bài báo này được trình bày trong Phiên chương trình poster “Lifelog and Multimedia Event Retrieval” tại Hội nghị SoICT 2024.
Tóm tắt bài báo: “The increasing volume of visual data in news archives and media sources poses significant challenges for efficient event retrieval. This paper presents a multimodal approach to tackle the problem of Event Retrieval from Visual Data. Our system integrates several techniques to process diverse query types, including text, image, and video. For image-text retrieval, the BLIP2 model is used to embed both images and text descriptions. In cases where queries are in Vietnamese, we employ the pre-trained VietAI/envit5-translation model to translate prompts into English before processing them with BLIP2. Object detection is handled by YOLOWorldv2, and text extraction from images utilizes PP-OCRv3 and VGG Transformer. Additionally, WhisperX is employed for audio-to-text conversion. Embeddings from textual data, whether derived from OCR or audio, are generated using sentence-transformers/all-MiniLM-L6-v2. These embeddings are indexed using Usearch, enabling fast and efficient retrieval. Furthermore, we developed a high-speed temporal search mechanism that calculates scores and combinations for consecutive related frames to improve performance in temporal queries. The system is capable of running efficiently on CPUs, with a maximum query processing time of 2 seconds for advanced queries, such as Temporal search, which require multiple models to run consecutively, making it a scalable solution for large-scale video data retrieval. Additionally, we have built a user-friendly interface using Streamlit, enabling users to easily interact with and utilize the system”.
Mọi thông tin chi tiết xem tại: https://www.facebook.com/share/p/15MzwhmYFa/
Đông Xanh - Cộng tác viên truyền thông Trường Đại học Công nghệ Thông tin