人工智能安全合規治理要求與實踐
文 | 北京天融信科技有限公司 吳瀟 王鵬 晉鋼
網絡安全合規意識是驅動網絡安全防護措施有效落實的關鍵因素。當前,人工智能應用日益火爆,在給社會生產及人民生活帶來便捷的同時也引發了多種安全問題,如利用生成合成技術生成虛假內容實施網絡詐騙等。為有效防范人工智能創新帶來的安全問題,迫切需要增強組織機構在人工智能應用研發及運營中的安全合規意識,以促進保護訓練數據與算法模型等安全合規義務的執行。國家堅持發展與安全并重,對生成式人工智能實行包容審慎監管機制。既避免“過度監管”抑制人工智能創新發展,也防范“野蠻生長”引發重大安全問題。人工智能安全合規的本質是根據不同層面的監管要求,綜合運用安全管理機制與安全技術防護措施,實現人工智能應用快速發展與恰當風險管控的動態平衡。因此,人工智能應用安全合規不僅是技術問題,更是維護國家信息安全與社會穩定的戰略需求。通過梳理與人工智能應用安全相關的監管要求及標準規范,提煉組織機構應履行的重要安全合規義務,并從科技倫理安全管理、算法安全管理、數據標注安全管理、數據集保護、算法模型保護、應用保護等多個方面對具體安全合規內容進行解析說明,供組織機構在開展人工智能應用安全合規實踐時進行參考。
一、人工智能安全合規治理要求
隨著全球人工智能規模化建設和應用加速,人工智能應用在推動各領域產業升級的同時不斷引發多種安全風險。為促進組織機構有效防范人工智能可能出現的內生及衍生安全問題,確保人工智能安全與發展并進,保障人工智能相關技術創新及應用發展符合法律法規、倫理道德和社會價值觀等,基于網絡安全、數據安全、個人信息保護等法律法規框架,國家互聯網信息辦公室、公安部等主管部門先后制定與互聯網信息服務、網絡信息內容治理、算法推薦管理、深度合成管理、科技倫理審查、生成式人工智能服務等相關的監管要求。同時,國家標準化管理委員會、中國人民銀行等國家及行業標準管理部門也陸續發布與算法安全評估、生成合成內容標識、算法應用信息披露等方面相關支撐落地實施的標準指南,整體形成了法律法規、監管要求及標準規范相呼應的人工智能應用安全合規體系。
人工智能系統生命周期,可能面臨來自訓練數據、算法模型、應用開發及運行等不同層面的多種安全風險。在監管要求方面,依據《網絡信息內容生態治理規定》進行網絡信息內容治理,可以防范訓練數據和人工智能應用輸出內容中包含違法不良信息安全風險。遵循《互聯網信息服務算法推薦管理規定》要求,能夠緩解算法模型中存在偏見歧視、“信息繭房”效應、未成年人沉迷網絡等安全風險。落實《互聯網信息服務深度合成管理規定》和《人工智能生成合成內容標識辦法》,能夠有效應對因為人工智能系統誤用濫用帶來網絡身份盜用、內容傳播無法快速溯源等安全風險。踐行《生成式人工智能服務管理暫行辦法》要求,能夠防范訓練數據違規獲取、數據標注結果質量差、用戶個人信息權益保護不當等安全風險。參照《科技倫理審查辦法(試行)》開展科技倫理審查程序,可有效預防失控性風險、社會性風險、侵權性風險和歧視性風險等人工智能倫理安全風險。
此外,在標準指南方面,參照《生成式人工智能服務安全基本要求》(TC260-003)和《網絡安全技術 生成式人工智能預訓練和優化訓練數據安全規范》(GB/T 45652-2025),通過執行語料安全要求、模型安全要求、預訓練數據及優化訓練數據處理活動的安全要求等,進一步防范訓練數據質量參差不齊、訓練數據及應用輸出內容中包含違法不良信息、個人信息泄露等安全風險。參照《人工智能算法金融應用信息披露指南》(JR/T 0287- 2023)對算法模型、訓練數據等相關信息進行合法披露,可以有效緩解算法模型可解釋性差的安全風險。嚴格執行《網絡安全技術 人工智能生成合成內容標識方法》(GB 45438-2025)強制標準,采用顯式標識與隱式水印相結合的技術手段,構建生成內容溯源體系,切實阻斷虛假信息傳播擴散路徑。
二、人工智能安全合規治理實踐
組織機構在開展人工智能應用研發及運營過程中,應嚴格遵循法律法規、監管要求與標準規范,建立并不斷完善科技倫理安全管理、算法安全管理、數據標注安全管理、人工智能系統生命周期安全管理等安全管理機制,并根據實際應用安全防護需求,及時建立且持續提升數據集保護、算法模型保護、應用保護等安全技術防護措施,有效落實人工智能應用安全合規相關職責。
科技倫理安全管理。科技倫理風險管理缺失可能引發重大安全隱患,以美國Character.AI公司2024年10月遭遇的訴訟案件為例。該人工智能系統在對話中向未成年人提供“通過殺害父母解除電子產品使用限制”的極端解決方案,暴露出科技倫理管控機制的嚴重缺位。符合科技倫理(審查)委員會設立條件的組織機構,需要從科技倫理(審查)委員會組織架構以及工作職責等方面開展科技倫理(審查)委員會建設。同時,應制定科技倫理(審查)管理相關章程,并根據人工智能相關研究及應用開發情況,在具體項目實施過程中按照上述管理要求執行科技倫理審查相關工作,其中,包括開展倫理安全風險防范管理。
算法安全管理。組織機構應及時完成與算法備案相關的三類手續,包括備案手續、備案變更手續及注銷備案手續。在算法備案過程中,組織機構需要開展算法自評估并提交報告,算法自評估主要包括算法主體責任評估、信息服務評估、權益保護評估以及針對五類算法技術開展的特性評估等。同時,涉及機器學習算法相關的,還需考慮依據《信息安全技術 機器學習算法安全評估規范》(GB/T 42888-2023)適時完成機器學習算法技術或者服務安全評估。此外,為提升算法應用透明度及安全性,組織機構可參考《人工智能算法金融應用信息披露指南》(JR/T 0287-2023)對人工智能應用中所使用到的具體算法信息進行真實準確地披露。具體披露行為可在人工智能系統首次上線時、因算法機制導致重大風險事件時,或者算法模型發生重大變更時按需開展。披露內容可包含算法組合類信息、算法邏輯類信息、算法應用類信息、算法數據類信息、算法主體類信息、算法變更類信息等。
數據標注安全管理。首先,要進行數據標注團隊建設,應明確數據標注任務中所需要的不同崗位角色與工作職責,針對具體數據標注任務,分析相關標注崗位角色人員所需具備的知識背景、專業技能、工作經驗等條件要求,從數據標注人員能力檔案中初步挑選符合相關要求的人員參加標注安全培訓及考核,最終在通過培訓考核的人員名單中選定承擔本次標注任務的具體人員等。其次,應制定數據標注規則,應在遵循法規及標準規范要求的基礎上,結合數據標注具體要求,制定包含功能性數據標注和安全性數據標注的具體標注規則,規則應細化明確、可操作性強,包括標注目標、標注方法、數據格式等具體內容。最后,應進行數據標注結果檢驗管理,組織機構應按照一定規模比例對標注結果進行核驗,確保標注結果交付質量滿足標注任務說明中相關要求。根據標注任務所應用的具體場景、任務規模等特點,可采用全人工核驗或自動化核驗與人工核驗相結合的方式進行。
人工智能系統生命周期安全管理。組織機構應在已有開發安全管理、應用系統上線安全管理等安全管理要求的基礎上,針對人工智能系統開發及應用技術特性,參照相關法規監管及標準規范要求,形成覆蓋人工智能系統從設計開發到下線退役全生命周期的安全管理要求,并在人工智能系統開發和應用過程中貫徹執行。根據人工智能系統應用場景的不同,組織機構在具體對其開展生命周期管理時,也可能存在差異,此處以大模型類人工智能系統應用為例,對其生命周期安全管理進行簡要說明。參考《大模型系統安全測評要求》(T/ISEAA 006-2024),大模型系統生命周期劃分為設計開發、測試、部署與運行、退役4個主要階段,不同階段的安全要求各有側重點。在設計開發階段安全管理中,應結合項目實際情況和具體需求,從數據收集、數據清洗和數據標注不同層面明確數據處理安全要求,以及與算法模型保護和輸入輸出內容相關的安全要求。在測試階段安全管理中,可從對抗性測試等方面規定模型評估安全要求,從模型更新安全校驗機制等方面規定模型更新安全要求。在部署與運行階段安全管理中,可從模型部署、攻擊檢測、運行監測、系統管理、變更管理等方面規定相關安全要求。在退役階段安全管理中,可從退役技術驗證、退役過程安全審計等方面形成模型退役安全要求,從數據清除、個人信息處理等方面形成數據刪除安全要求。
人工智能安全應急處置管理。組織機構一是可在整體上遵照已有的網絡安全事件管理制度規范,執行人工智能安全事件分類分級管理及應急處置流程,如可對算法模型安全相關事件參照安全事件的起因、威脅、攻擊方式、損害后果等因素,將其歸類為網絡攻擊事件或數據安全事件或信息內容安全事件等。二是應制定與算法模型等人工智能安全相關事件的應急預案,明確在如訓練數據泄露、算法模型被篡改、算法模型輸出非法內容等場景下的詳細應急處理流程。三是定期對人工智能安全相關人員進行應急預案培訓以及開展應急演練,并根據實際演練結果對應急預案進行調整與完善。
數據集保護。數據集合規獲取是指當組織機構采用不同方式,從不同渠道進行訓練數據、測試數據等數據集獲取時,應采取相關措施確保獲取過程合法合規。2023年,美國《紐約時報》將開放人工智能研究中心(OpenAI)和微軟告上法庭,指控這兩家公司未經授權使用該媒體數以百萬計的文章作為ChatGPT等人工智能聊天機器人的訓練數據。數據集安全檢測包括違法不良信息內容檢測與過濾,通過采取關鍵詞匹配、分類模型、人工抽檢等方式,以檢測數據集中是否包含屬于11類違法信息內容及9類不良信息內容,如檢測結果發現僅少量條目中包含違法不良信息內容的,可在充分過濾后使用該訓練數據,但若檢測結果顯示包含大量違法不良信息的,則應考慮棄用該訓練數據。另外,組織機構在使用所獲取的數據集前,還應考慮開展數據集異常檢測,以有效衡量數據集的準確性與一致性等。當組織機構所獲取的數據集存在數據重復、格式不規范、數據條目內容有缺失值等情況時,可考慮采取數據清洗技術來提升數據集質量和可用性。當組織機構所獲取的數據集規模不足或具體數據內容不能滿足訓練使用需求時,可考慮對數據集進行數據增強處理。數據增強通過對數據集中樣本數量較少的數據樣本類別,進行各種變換操作,形成新的數據樣本,從而實現數據集的規模提升或樣本類型增加等目的。同時,組織機構也可采用數據集平衡技術來處理無法規避的數據偏見問題。通過對數據集進行平衡處理,可以降低不同類別的數據樣本之間的不平衡性,確保沒有某一類型的樣本總量顯著高于其他類型的數據樣本總量。最后,組織機構還可以綜合利用匿名化、差分隱私、隱私計算等多種技術對數據集進行安全保護。
算法模型保護。一是進行魯棒性測評與增強,組織機構可以根據不同的模型類型,利用專業測評數據集或者自研測評數據集等方式,進行分布外魯棒性測評或對抗性魯棒性測評,并可綜合運用多種技術來增強模型魯棒性,包括數據增強、對抗訓練、對抗攻擊檢測等。二是評估與緩解大語言類模型“幻覺”,鑒于數據集、模型自身及具體應用情景都可能導致大語言模型輸出產生“幻覺”,在具體“幻覺”評估時,應選擇使用針對數據集、模型或應用情景的不同幻覺來源層面的相關評估方法。同樣,組織機構可采取多種方法緩解大語言模型“幻覺”。如針對數據集方面,可以采取數據清洗、數據增強等操作。針對模型方面,可以采取調整模型結構、進行模型訓練和微調、使用專家模型等緩解措施。針對具體應用情景方面,可以采取通過提示工程進行引導、基于事實進行指導等緩解措施。三是進行偏見性測評與緩解。在偏見性測評方面,已有針對職業、年齡、性別、宗教、種族、語言等不同偏見類別的測評數據集,組織機構可基于自身需求,選擇使用相關的偏見評估數據集完成具體評估工作。如可使用StereoSet英文數據集對大語言模型進行職業、種族與性別等偏見測評。也有多種技術可以緩解模型偏見,如在預訓練階段,可以通過調整模型參數權重,應用正則化技術等,確保模型預測結果符合句子編碼器關聯測試指標(Sentence Encoder Association Test,SEAT)等通用偏見評估基準。此外,還有圍繞詞向量表示、提示詞工程等相關模型偏見緩解技術。四是對開發過程安全進行有效防護,防護對象包括人工智能系統研發過程中所使用到的全部開發工具(如機器學習框架、開發工具鏈等)和開發與測試環境,如在2025年3月,開源跨平臺大模型工具Ollama被爆由于其默認配置存在嚴重缺陷,極易導致未授權訪問與模型竊取等高危安全隱患。具體來說,應定期或按需對全部開發技術工具集進行安全漏洞檢測與加固及版本控制,并在測試階段對開發技術工具進行代碼審計和滲透測試。同時,還應基于最小化授權原則對開發環境和測試環境進行嚴格的訪問控制,以防止算法模型等遭受非授權的訪問或惡意破壞等。
應用保護。組織機構應在提供人工智能系統應用過程中采用認證授權與審計相關安全技術措施,以保障僅有合法授權用戶才可以正常使用人工智能系統,預防人工智能系統遭受非法訪問。此外,還應考慮通過應用安全防護網關技術對人工智能系統的輸入輸出內容進行有效保護。當安全防護網關檢測到用戶輸入內容中包含攻擊指令或違規信息時,可實時進行攔截及告警,并提醒用戶修改輸入問題。2016年3月25日,微軟推出聊天機器人Tary,但因缺少對用戶輸入內容的安全過濾檢測機制致使Tary在短時間內接收到海量惡意及歧視性信息,并快速學會了發表諸如支持納粹、反對女性主義等不當言論,引發大量用戶不滿,導致微軟當天就關閉了Tary聊天服務。另外,當組織機構的業務應用涉及通過人工智能相關技術面向公眾用戶群體提供諸如生成合成文字、音視頻、圖像、虛擬現實場景等服務時,組織機構還應對生成合成內容進行顯式或隱式標識,以支撐實現內容制作與傳播各環節的追蹤溯源,有效防范對人工智能生成合成技術的濫用。顯式標識是能夠被用戶明顯看到或聽到的明顯標識,企業通過添加文本、音頻等人工智能生成合成內容顯式標識或交互場景界面顯式標識,提醒用戶所訪問或瀏覽的內容屬于人工智能生成合成內容。隱式標識是用于記錄生成合成內容方面相關信息,是通過技術手段在文件數據中附加的、不會輕易被用戶明顯感知到的標識信息。同時,組織機構還應定期開展安全合規要求解讀、安全技能提升等不同主題培訓,不斷增強整體員工的安全意識和具體安全技能,以確保相關人員能夠有效執行與其工作職責相關聯的安全合規工作。
三、結 語
為促進人工智能應用研發,有效防范人工智能應用安全風險,組織機構應遵循以人為本、智能向善的安全方針,聚焦公平性、可解釋性、透明性、可靠性、可問責等安全目標,針對信息檢索類、個人化推送類、調度決策類、內容過濾類、排序精選類等不同應用場景,在人工智能系統生命周期的不同階段,實施算法安全管理、數據標注安全管理、人工智能系統生命周期安全管理等安全管理機制,以及運用數據集安全檢測、魯棒性測評與增強、應用安全網關防護、安全意識教育與技能培訓等安全技術措施,以有效落實人工智能應用安全合規治理實踐。
隨著人工智能技術迭代加速,新型安全風險持續演變,安全監管要求與標準指南的內容將會持續細化與完善。作為國家安全防線的重要組成部分,人工智能安全合規治理具有長期性、系統性特征,組織機構需建立動態調適機制,緊密跟蹤外部監管政策演進、技術發展前沿及自身應用迭代,及時優化治理策略與實踐路徑,確保人工智能系統始終在合法合規軌道上運行,切實維護國家安全和社會穩定。
(本文刊登于《中國信息安全》雜志2025年第4期)