全國政協委員、中國科學院自動化研究所研究員王亮:以高質量數據驅動人工智能發展
“大模型技術的進步使得通用人工智能成為可能,但要實現通用人工智能還有很長的路要走。”全國政協委員、中國科學院自動化研究所研究員王亮近日接受中國證券報記者采訪時說。王亮從2000年開始研究計算機視覺,他研究并推動了步態識別算法進入產業應用,是國內人工智能產業的早期開拓者,目前在多模態人工智能系統全國重點實驗室從事研究工作。
王亮表示,DeepSeek在大模型技術上取得的顯著進展,極大地提振了人們對邁向通用人工智能的信心。他認為,人工智能的未來應用需要多模態數據的融合。此外,若要推動“人工智能+”廣泛落地,應加強學術研究與產業應用的深度融合,同時要加快實現高質量數據的共享。
大模型技術讓人工智能更通用
在過去的幾年間,大模型成為了人工智能飛速發展的強勁引擎。尤其是今年,DeepSeek的突破性進展備受矚目。王亮分析稱,DeepSeek在大模型的軟件與硬件層面均進行了優化創新,大幅提升了大模型的運行效率與通用性。
“大模型如今已具備學習、推理、規劃、認知以及決策等關鍵能力,并且能夠接納多模態數據輸入。這賦予了大模型在復雜環境與不同應用領域完成任務的通用能力,使通用人工智能從設想逐步走向可能。”王亮說道。此外,眾多大模型紛紛采取開源策略,這一舉措極大地降低了學術界與產業界開發、應用大模型技術的門檻,有力地推動了人工智能技術的快速迭代更新,進一步加速了技術的廣泛推廣。
不過,王亮同時表示,真正實現通用人工智能依舊任重道遠。要讓人工智能具備如同人類般感知外部世界、理解并處理信息的能力,諸多技術難題有待攻克。以自動駕駛技術為例,當前采用該技術的公司僅依靠計算機視覺,難以應對復雜多變的環境,通常需要結合雷達系統或其他多模態解決方案,彌補視覺技術的短板。
王亮認為,為推動人工智能在產業端實現更廣泛的應用,多模態感知解決方案不可或缺。比如人形機器人的發展,需要具備感知視覺、聽覺、觸覺等多模態數據的能力;在網絡安全領域,相關應用也需能夠理解分析文字、圖片、視頻、語音等多模態數據,并據此做出精準判斷。
提高數據質量
王亮表示,要進一步提升大模型性能,需要更大規模的高質量數據,這也是人工智能下一步發展需要突破的難點之一。
“真正能夠用于大模型訓練的數據,需要經過人工細致的過濾、清洗與標注,這一過程耗時、耗力且耗費大量資金。”王亮解釋道,數據標注通常需要經過專業訓練的團隊來完成,高質量的數據標注能夠使數據更加規范化。他形象地將大模型的發展比作火箭,而數據則是推動火箭升空的燃料。
近日,為推進國家數據基礎設施體系化、集約化、一體化建設,國家數據局指導全國數據標準化技術委員會研究形成了《數據基礎設施 參考架構(試行)》《數據基礎設施 互聯互通基本要求(試行)》《數據基礎設施 標識管理規范(試行)》等6項技術文件,引導地方、行業、領域、企業按照“統一目錄標識、統一身份登記、統一接口要求”推進國家數據基礎設施建設。
作為全國數據標準化技術委員會的成員,王亮表示:“針對人工智能的發展,我們期望推動不同領域的數據實現共享。而共享的前提是對數據的采集、標注、交易、使用等各個環節進行規范化。若能在數據層面切實做好規范工作,將加速大模型技術在不同垂直領域的應用,推動技術的快速迭代。”
促進科技創新與產業創新融合
王亮強調,推動人工智能加速應用,必須促進學術研究與產業應用的深度融合。
“過去幾年,產學研融合取得了一定成果,但仍存在一些不足之處,這與學術界和產業界的不同定位、目標密切相關。”王亮分析稱,“學術界關注前沿技術探索,注重長期技術積累;而產業界更側重于短期應用與商業回報,這導致學術界的研究成果與產業界的實際應用容易脫節。”
這種脫節使得實驗室的技術成果在向產業推廣時,難以完全契合產業應用需求,往往需要經歷一個適配過程。王亮指出,為縮短這一適配周期,應將學術界與產業界的合作前置。
“在研發階段,就應該加強學術界與產業界的協同合作,而不是等到學術研究完成后才考慮產業化。”王亮建議,要讓學術界深入了解產業界的真實應用場景與需求,同時產業界為學術界提供應用場景數據,用于算法開發。“如此一來,開發出的算法能夠直接應用于實際生產,形成完整的產業閉環。”