近期,我校計算機學院視覺感知與機器學習團隊在計算機視覺與多模態感知方向取得系列重要進展。
團隊與南方科技大學、英國華威大學合作,在人工智能國際頂級會議IEEE/CVF International Conference on Computer Vision 2023 (ICCV2023)發表跨模態視頻目標分割的最新研究成果。ICCV是由國際電子工程師協會計算機學會(IEEE Computer Society)和計算機視覺基金會(CVF)聯合主辦,每兩年舉辦一次,是人工智能領域公認的計算機視覺三大頂會之一,是CCF- A類會議。我校為論文第一完成單位,計算機學院碩士研究生李光輝為論文第一作者,劉恒教授為第一通訊作者。
當前深度學習參考視頻目標分割(RVOS,Referring Video Object Segmentation)已有工作都要求特定場景具有足夠豐富的文本及視頻多模態聯合標注數據。但在缺乏標注數據的新應用場景,以較低成本實現多樣化視頻有效目標分割是一個迫切需要解決的問題。團隊基于Transformer架構,提出了一種跨模態少樣本親和力學習的新方法,根據少量樣本建立多模態親和關系,為多樣化的數據學習新的語義信息;首次構建了的FS-RVOS(Few-shot RVOS)基準,在只有少量標注樣本的情況下,采用交叉注意力方式分層融合視覺和文本特征以獲得特定類別的魯棒特征表示,為最終實現真實陌生場景參考視頻目標分割指明了方向。

(跨模態少樣本親合力學習參考視頻分割)

(FS-RVOS與RVOS的問題不同)

(跨模態親和力(CMA)模塊的架構)

(FS-RVOS基準數據示例)
對于超聲臨床診斷而言,超聲影像超分辨(ultrasound image super-resolution)可以提高超聲成像質量,從而提高疾病診斷的準確性。但由于傳感設備和傳輸介質的差異,實際場景中超聲成像其退化模糊過程是未知且不可控的。為了解決未知退化場景超聲醫學影像準確超分辨的難題,團隊提出了一種有效的基于退化模糊自估計且結合漸進殘差學習和記憶提升機制的超聲影像盲超分方法,初步實現了真實場景超聲影像準確超分辨。相關研究成果發表在人工智能、計算機醫學信息交叉領域一區TOP期刊《IEEE Journal of Biomedical and Health Informatics》(IF: 7.7)。我校為論文第一完成單位,計算機學院劉恒教授、碩士生劉建勇分別為論文第一、第二作者。

(漸進殘差學習與記憶升級超聲影像盲超分)

(漸近殘差學習模塊層級數量分析圖)

(真實場景超聲影像盲超分效果對比圖)
行人重識別任務旨在解決跨視角條件下行人圖像檢索問題,是計算機視覺和生物特征識別領域的一個重要研究方向。由于不同域之間差異的存在,已有行人重識別研究在實際應用中存在跨域性能良的問題。團隊在分析現有無監督行人重識別方法的基礎上,提出一種利用色彩空間特性來豐富數據多樣性的方法,進而借助增廣數據之間的語義關聯性和多重聚類算法來提升偽標簽的置信度。相關研究成果發表在人工智能、計算機視覺領域一區TOP期刊《Pattern Recognition》(IF: 8.0)。我校為論文第一完成單位,計算機學院陳峰博士為第一作者。

(多域聯合學習無監督行人重識別)
以上研究工作得到國家自然科學基金、安徽省自然科學基金及安徽省高校協同創新等項目的資助支持。
論文鏈接:
https://iccv2023.thecvf.com
https://ieeexplore.ieee.org/document/9684683
https://www.sciencedirect.com/science/article/pii/S0031320323000705?via%3Dihub
(撰稿:劉恒 審核:陶陶 吳宣夠 張苒 王菁)