1月11日上午,悉尼大學張敬博士后研究員做客我校“未央導師論壇”,在線作了題為“視覺Transformer模型結構設計及其應用”的學術報告。報告會由研究生院主辦,電氣與控制工程學院承辦,電控學院研究生導師及研究生參加了此次報告會,會議由電控學院劉偉峰教授主持。
報告會上,張敬研究員圍繞Transformer模型結構的改進,首先介紹了將卷積神經網絡與Transforme模型相結合,從參數(shù)數(shù)量、數(shù)據(jù)集大小、計算量、精度等方面對大模型的性能進行評估;其次,講解了如何通過改變Transformer模型的圖像輸入方式,提高Transformer在視覺領域中模型的魯棒性。最后,對上述模型在圖像識別、物體檢測、語義分割等領域的應用及取得的顯著進展進行展示和匯報。
報告會結束后,與會師生與張敬研究員就報告內容進行了深入的交流與探討。報告聚焦視覺Transformer前沿技術,拓寬了師生學術視野和科研思路。
新聞小貼士:
張敬,博士,2015年畢業(yè)于中國科學技術大學自動化系,目前在悉尼大學計算機系從事博士后研究,主要從事計算機視覺與深度學習等人工智能領域的相關科學研究工作,在 CCF A類國際會議/期刊以及IEEE 匯刊等國際著名期刊已發(fā)表學術論文90余篇,谷歌學術引用6200余次。長期擔任著名國際學術期刊和會議審稿人、程序委員會委員、高級程序委員會委員及領域主席。2023年晉升為美國電氣和電子工程師協(xié)會(IEEE)高級會員。提出的ViTAE Transformer可廣泛應用于圖像分類、目標檢測、語義分割、視頻實例分割、圖像摳圖、目標跟蹤、文字檢測和識別、遙感圖像分析等多個領域,并取得了非常有競爭力的結果,相關GitHub倉庫關注量超過5000。該模型在相關比賽或者公開數(shù)據(jù)集多次名列第一,受到廣泛關注。
(核稿:楊南 編輯:劉倩)