揭秘聽見世界APP:人工智能公益助盲,復旦眸思大模型打破視覺界限
隨著科技的不斷發(fā)展,人工智能不僅在商業(yè)領域取得了巨大成功,也在公益事業(yè)中展現了強大的潛力。一部名為《聽見世界》的公益短片在社交媒體上引起了關注,它不僅讓觀眾感受到深刻的情感共鳴,還展示了復旦眸思大模型如何借助AI科技為視障者打破視覺界限的努力。
目前,聽見世界APP已經上線,盲人朋友可以在安卓商店進行應用下載。為揭開聽見世界項目的神秘面紗,我們對復旦眸思公益助盲項目團隊進行了專訪。
源起:復旦眸思大模型,助力產品打破視覺界限
“在多模態(tài)大模型開發(fā)過程中,我們一直在探討利用多模態(tài)大模型能具體做些什么。我們在眸思多模態(tài)大模型構建過程中使用了數億張圖片進行訓練,其中有大量的自然場景,在測試過程中,我們發(fā)現它可以非常好地對自然環(huán)境,甚至是可以對非常罕見的自然場景進行準確描述,”中工互聯(lián)首席科學家、復旦大學計算機學院教授張奇講道:“我們覺得這就像是機器長了眼睛。由此,我們很快想到將圖像轉換為語音,可以為盲人朋友在行走、尋找物品等場景下提供巨大的幫助。”
圖:聽見世界項目研發(fā)團隊部分成員
顯而易見,復旦眸思大模型成為了聽見世界APP運行的基石。
張奇教授表示:眸思大模型提出了全新的多視覺專家混合架構。它將擅長圖文匹配、光學字符識別(OCR)和圖像分割等多種經典視覺任務的專家巧妙地融為一體。在各類場景中,眸思大模型展現出良好的性能和邏輯推理能力。
中工互聯(lián)(北京)科技集團有限公司創(chuàng)始人、董事長智振講道:“眸思大模型是復旦大學NLP實驗室的最新力作,代表國內科研機構最先進的技術水平。聽見世界APP的表現非常驚艷。長遠來看,隨著人工智能技術的進步和未來腦機接口技術的突破,可能盲人朋友真就能‘看到’世界了。要實現這一長遠的目標,需要全世界科技工作者共同的努力。”
圖:中工互聯(lián)董事長智振
推進:項目研發(fā)團隊,產學研用強強聯(lián)合
復旦大學自然語言處理實驗室與復旦大學視覺與學習實驗室在開發(fā)復旦眸思多模態(tài)大模型時就同步進行了聽見世界項目的開發(fā)工作。該項目由復旦大學桂韜、紀燾、張奇、黃萱菁、邱錫鵬、吳祖煊、姜育剛等主導,樊曉然、江常皓、李爍、金森杰等近20名博士和碩士研究生共同參與了產品研發(fā)。
圖:張奇教授
“中工互聯(lián)在整個項目的研發(fā)過程中給予了全方位的支持,”張奇教授講道:“我們之間建立了良好的戰(zhàn)略合作關系,在中工互聯(lián)擅長的工業(yè)領域,我們一起利用多模態(tài)大模型,在圖紙理解、產品質檢和異常檢測等領域開展了廣泛的產品落地。”
智振董事長表示:中工互聯(lián)復旦大學聯(lián)合實驗室,以及智工·工業(yè)大模型研發(fā)團隊全程參與了項目研發(fā)。項目團隊由頂級大學科研隊伍和務實的產品落地成員組成。既有創(chuàng)新精神又可以高效快速落地。這種能力在智工工業(yè)大模型的研發(fā)中得以展現。
應用:我是你的眼,世界就在你耳邊
聽見世界APP采用安卓系統(tǒng)進行開發(fā),可以支持最低端的智能手機。在后端模型架構層面,研發(fā)團隊采用了非常靈活的部署策略,可以使用智算中心的閑置算力,甚至是居民個人家庭中3090顯卡的閑置時間。
聽見世界APP的全部識別功能都全部來源于眸思大模型,在不同的模式下預設了不同的Prompt,從而方便盲人朋友使用。
據悉,聽見世界APP產品目前設計了街道行走、物品尋找、自由問答和電視介紹等四種模式。它可以成為視障人士的生活助手與智能管家。
圖:聽見世界APP電視介紹模式
舉個例子。當盲人朋友開啟街道行走模式,聽見世界APP會通過攝像頭實時捕捉交通畫面,并將畫面?zhèn)鬟f給復旦眸思大模型,由模型識別當前場景中的情況,并對紅綠燈、路口、臺階、坡道等信息進行重點識別,進而生成文字并合成語音,播放給盲人朋友。
圖:聽見世界APP街道行走模式
“其他模式與這個類似,都是通過攝像頭捕捉圖像,盲人朋友通過語音與模型進行交互,從而得到整體結果,”張奇教授講道:“未來,我們會圍繞盲人的衣食住用行等方方面面的需求,全面完善產品功能。讓聽見世界APP真正變成盲人的朋友的‘眼睛’。”
圖:聽見世界APP物品尋找模式
智振董事長表示:聽見世界APP,我們?yōu)樗业搅艘粋€產品推廣語——我是你的眼,世界就在你耳邊。這款產品既可以成為盲人朋友生活的必備工具,讓他們和正常人一樣感受到世界的美好。
圖:聽見世界APP可以實現實時交互
未來:定位公益項目,讓每一份生活都更美好
關于聽見世界APP產品應用成本,研發(fā)團隊曾經算過一筆賬。
張奇教授分析道:在大模型層面,我們目前有80億、140億和350億等三個參數版本。即便采用80億參數的版本,一個終端每小時所消耗的GPU計算費用在1元左右,估算下來,服務每個盲人朋友每個月大約需要150元左右。但是,我們希望盡最大努力,協(xié)調各方資源,將這個產品免費提供給盲人朋友。
張奇教授表示:“在政府的支持下,我們計劃與NGO組織、智算中心和硬件廠商等開展合作,致力于讓盲人朋友免費使用產品和相關的服務。”
圖:復旦大學NLP實驗室青年副研究員桂韜
“在人工智能引領的時代潮流中,我們不應該忽視任何一個人,眸思項目能夠幫助1800萬盲人重新找回生活的色彩,這不僅是技術的一次飛躍,也是人工智能在服務人類,改善我們生活方面道出的重要一步,”復且大學自然語言處理實驗室青年副研究員桂韜表示:“這代表著我們實驗室對于打造一個更加包容、更加美好世界的堅定承諾。”
“人工智能等一切科技文明都是人類集體智慧的結晶,我們需要在科技的發(fā)展中尋求更多的公正和平等。聽見世界,我們對它的定位是公益項目,”智振董事長講道:“與此同時,我們會加快眸思大模型的商業(yè)化落地進程,盡快惠及更多行業(yè)更多用戶。我們計劃在復旦大學中工互聯(lián)聯(lián)合實驗室的框架內,加大科研經費的投入,首期計劃投入1500萬研發(fā)經費來加大基礎大模型的研究。”