3月29日,以“數據驅動,智繪未來”為主題的2024北京AI原生產業創新大會暨北京數據基礎制度先行區成果發布會舉辦。會上,北京國際大數據交易所(以下簡稱“北數所”)牽頭正式發布首批100個人工智能大模型高質量訓練數據集,經聯盟牽頭推薦,中關村數字媒體產業聯盟成員單位新華網、山東工藝美術學院、中國搜索、中文在線、北京服裝學院、硅星人等院校、企業的高質量數據集入選。
通過北數所進行人工智能數據集進場交易,將更好的為模型訓練提供更加合規可靠、便捷化、規模化的數據服務,進一步提高數據來源合規性,降低數據交易成本。
未來,中關村數字媒體產業聯盟還將持續在數字媒體領域的高質量數據集提供、數據安全保障等方面,不斷提升服務能力,匯聚和儲備大模型訓練所需的高質量語料集,通過在可信數據空間打造集數據托管-數據標注-數據訓練-數據交易于一體的數據可信流通體系,為人工智能大模型訓練提供合規高效、安全有序的數據支撐,與合作伙伴共同推動北京數據基礎制度先行區人工智能數據訓練基地建設工作。
本次大會發布了第一批人工智能大模型高質量訓練數據集。該數據集是北數所聯合北京人工智能產業聯盟共同征集的,包括中科院大氣物理所、北京科學技術研究院、山東工藝美術學院、中國知網、中汽智聯、北方健康、中文在線、中國搜索、牡丹集團、新華網、北京服裝學院、硅星人等36家機構及企業提供的大模型語料訓練數據,共同為先行區人工智能訓練場示范基地建立模型訓練語料資源庫。
首批發布的數據集覆蓋科技創新、金融服務、醫療健康、醫藥研發、自動駕駛、氣象服務、商業航天、影視創作等20多個應用場景,共計100余個語料數據,數據總量逾150PB,涵蓋了專業知識問答、古今文化書籍、互聯網輿情資訊、多語種音視頻、教學資源題庫、科研數據、高清圖片等多領域、多模態的數據語料


