助力大模型發展語料數據全流程場內交易第一單深圳落地

來源：深圳商報
2023-11-27

近日，深圳數據交易所（以下簡稱“深數所”）聯合中國信息通信研究院（以下簡稱“信通院”）、華為云計算科技有限公司（以下簡稱“華為云”）、深圳數鑫科技有限公司（以下簡稱“數鑫科技”）等發布可信數據空間助力大模型語料合規高效流通案例，為可信數據空間技術在人工智能領域的實際應用提供了新方案。

自2023年5月，我國人工智能產業進入高速發展階段以來，垂直領域語料訓練數據、大模型行業應用、模型質量測評等市場需求激增，為推動人工智能產業高質量發展，賦能大模型市場化流通應用，深數所積極推動實現了全國首個場內人工智能產品專區、全國首批大模型產品場內掛牌上市。今年9月，深數所聯合信通院、華為云、數鑫科技等升級可信數據空間創新實驗室（以下簡稱“實驗室”），在人工智能領域，創新打造可信數據空間技術應用于大模型語料安全合規流通新路徑。通過商機精準匹配，成功鏈接哈爾濱工業大學（深圳）和北京瑞萊智慧科技有限公司供需雙方，實現全國首單語言語料數據場內實質閉環案例落地。

據介紹，大模型訓練場景中通常需要大量的語料數據。以往，語料提供方和大模型訓練方在數據交易所完成語料交易后，語料提供方通過FTP/FSTP傳輸或物理拷貝等方式進行數據流通給到大模型訓練方。而大模型訓練方通過這些方式獲得數據后，普通技術手段很難確保語料提供方的數據不會出現被轉存轉售和濫用的情況，即缺乏必要的技術合規保障手段來保障語料提供方的數據權益。

基于語料數據交付過程中面臨的現狀，深數所積極探索，深入研究提供方樣例數據，以及需方的使用場景、用數方式，聯合可信數據空間實驗室，共同制定針對語料數據流通的技術方案。基于可信數據連接平臺FlexiTDL-DPE&DCE，將語料提供方的語料數據和模型訓練方的模型、算法數據之間進行可信連接，實現語料提供方和模型訓練方之間的數據安全可控的流通使用。同時，深數所為進一步保障流通交付方案的可落地，基于方案進行該案例場景下的數據流通測試，測試結果表明使用該方案既滿足了數據流通交付，同時也保障了語料提供方的數據權益，充分展示了通過可信數據空間，大模型語料可以在保證數據安全的前提下，實現企業間的可信流通，同時滿足數據提供方和消費方的需求。

數鑫科技創始人兼CEO吳會才介紹說，通過可信數據空間的技術手段，大模型語料可以更加高效地進行流通，同時可以降低數據獲取成本和風險。這種模式可以為人工智能產業的發展提供更加可靠的數據流通支持，提高數據的質量和安全性，推動人工智能技術的進步和應用范圍的擴大。