??
怎樣判定生成式語言大模型會否“一本正經地胡說八道”?如何知道自動駕駛系統能夠抵抗得住外界惡意攻擊?功能強大的AI(人工智能)大模型也需要
“健康檢測”,以確保其準確性、抗攻擊性及安全性。
??近日,上海首家生成式人工智能(AIGC)質量檢驗檢測中心掛牌批籌,為AI大模型等智能軟件提供專業化“體檢”。掛牌兩個月來,這家AI質檢中心
已出具75份“體檢報告”。
??在AI質檢火爆的背后,折射出整個產業對于行業質量規范的渴求。盡管目前AI檢測尚屬于企業自主行為,但未來對于大模型安全性、可解釋性、倫理風
險的檢測檢驗,將會形成國家強制標準。上海這一探索將在檢測與標準同步發展的新模式下,對生成式AI產業的規范與引領產生積極影響。
??給ChatGPT做測評,為AI系統“質量保障”探路
??走進上海市北高新區區塊鏈谷,籌建中的上海生成式人工智能質檢中心里,一臺臺電腦中正奔跑著AI“體檢”軟件。
??今年,ChatGPT帶動了生成式人工智能應用的火爆。我國迄今已推出上百個大模型,如何客觀地評價、比較大語言模型及其他AIGC模型的性能,成為大
模型應用的關鍵一環。
??上海計算機軟件技術開發中心主任蔡立志介紹,軟件中心是上海科學院的直屬單位,作為一家長期以為網絡安全保駕護航為使命的研究機構,從2016年
起就關注人工智能的安全問題,迄今已開展了2000多項AI檢測業務。
??在多年技術與行業經驗積累的基礎上,經過近兩年的準備,上海市生成式人工智能質檢中心于兩個月前在軟件中心正式掛牌批籌。“掛牌后不久,我們就
給ChatGPT做了一次測評。”上海計算機軟件技術開發中心軟件工程研究所副所長陳敏剛博士透露,測評的確可以對生成式語言大模型的推理、抗幻覺、理解
用戶意圖等能力,進行客觀評價。
??蔡立志介紹,質檢中心主要面向生成式人工智能所涉及的計算機視覺、自然語言處理、內容生成等領域,聚焦人工智能生成內容語義表達能力、邏輯推理
能力、合成內容鑒別,以及功能、性能、安全性評估等,“通過提供全方位的測評服務,以保障人工智能系統或應用的質量”。
??AI“體檢”火爆,“守底線”更要引領產業
??隨著大模型技術的快速進步,在人工智能應用不斷深入的同時,利用AI換臉、合成語音進行傳播虛假信息、行騙等危害社會的現象也不斷發生。
??7月10日,國家網信辦等七部委聯合發文《生成式人工智能服務管理暫行辦法》,明確了AIGC服務提供者的責任,包括信息源可信責任、生成內容合法合規
責任、申報安全評估及算法備案責任。
??“管理辦法的落地,需要專業的第三方機構提供AI質量檢驗檢測服務。”蔡立志透露,質檢中心去年籌建期間已完成300多個AI質檢項目,“正式掛牌僅兩
個月,就已出具75份相關檢測報告”。
??由此可見,為AI做“體檢”的需求有多火爆。事實上,這項工作本身就是一項含金量極高的技術活兒。上海計算機軟件技術開發中心副主任宋俊典告訴記者,
對于一些大型復雜AI系統的檢測,甚至需要根據應用場景專門搭建檢測檢驗系統,耗時可能長達半年,同時還需要研發大量相關技術與標準。近三年來,上海軟件
中心為上海乃至長三角地區人工智能企業與應用方提供專業的第三方測評服務數年均超過500項,累計發布AI檢測相關標準30余項。
??“對于AI的質量檢測,只有好與差之分,沒有對與錯的判斷。”宋俊典解釋,通過質檢,廠商能更清晰地了解AI軟件的性能,對產品的迭代與優化更有針對性。
??檢測檢驗是行業話語權的重要標志,檢測標準往往是一個行業的發展風向標。然而,對于人工智能這個飛速發展的領域,蔡立志認為,不能簡單套用傳統產業“
先立標準后檢測”的“守底線”模式,而應采用檢測與標準同步發展的新型模式,以起到規范、引領產業的作用。
??據悉,目前AI檢測尚屬于企業自主行為,未來對于大模型的安全性、可解釋性、倫理風險的檢測檢驗,可能會形成國家強制標準。(記者 許琦敏)