栏目
技术院
技术研发
以技术手段破解数据合规难题
发布时间:2024-08-05点击数:

  数据是新型生产要素,对助推传统产业转型升级、打造新产业新业态新模式、壮大经济发展引擎,都起到重要的作用。根据“十四五”规划纲要,“统筹数据开发利用”“推进数据跨部门、跨层级、跨地区汇聚融合”成为我国数字化转型的顶层设计。在激发要素潜能和隐私保护的双重驱动下,大批在提供隐私保护前提下实现数据价值挖掘的数据处理模式相继涌现,包括多方安全计算、可信执行环境为代表的隐私计算技术,以低代码、零代码为核心的“软件即服务”(SaaS)平台等。

  数据合规从技术层面来说具有多方面优势,体现在以技术手段促进组织形式与价值创造的分离。例如,多方安全计算可在非信任主体间数据相互保密的前提下,进行高效融合计算,实现“数据占有权和使用权的分离”;可信执行环境可通过硬件隔断形成封闭运行环境,兑现更高标准的隐私保护承诺,实现“数据供给和数据保护的分离”;低代码和零代码可为开发者提供可视化应用开发环境,降低或去除应用开发对原生代码编写的需求,实现“算法手段和算法目的分离”。

  前端风险在于诱发人机对抗。技术手段下数据合规具有“白盒特性”,各参与方都可以直接获取完整的技术参数,恶意攻击者同样可以利用该特性伪装成诚实参与方窃取运算结果、扭曲模型训练、破解可信环境或生成恶意低代码。参与方自愿提供数据、消耗算力参与数据合规实践,其具有强烈的自利动机,轻则通过参与获得技术使用权,重则掠夺中间数据和源头数据。依据危害性由低到高的顺序,将数据合规的参与方划分成三种类型。此种划分方式表明,随着利益需求的不断变化,各参与方的角色定位也可能发生改变。

  中端风险在于加剧算法歧视。算法歧视主要源于数据集偏差或数据缺陷,在数据合规场景中,不同来源数据间的强搭和错配可能对联合数据造成冲击与扰乱,使算法歧视规模性放大。除了数据投毒等极端手段,诚实但好奇参与方的数据输入因数据梯度同其他参与方相差过大,也可能间接导致模型被“污染”,输出歧视性结果。单次歧视的即时危害虽不易被察觉,却足以在更长时间维度和更长数据链条上产生积累式影响。例如,当不同学校的毕业生数据被用于训练招聘筛选系统,或者当男性占绝对多数的IT行业数据和其他行业数据被共同用于训练升职评价系统时,同身份紧密捆绑的群体歧视将借由算法“共训”之名,从数据向模型蔓延。

  后端风险在于催生逆向淘汰。在各类促进数据合规的技术大规模部署前,面对受众,智能应用被限制在各自为政的领域,彼此之间没有交流与协作,更多的是算法间的良性循环,即效率高、服务好、安全稳定的智能应用将获得更高市场份额,榨取用户剩余的智能应用将面临被淘汰或整改的命运,因严重违法违规收集使用个人信息而被强制下架的各类APP即为典型事例。由于披上了“合规”的外衣,数据合规科技可能逐渐导致“算法趋同”,在技术黑箱的掩护之下,过去算法间的“朝上竞争”极有可能向“逐底竞争”转变。对数据规整性要求不高、通信成本更低、算法可解释性匮乏的智能应用,或将随着技术手段下数据合规的不断发展,逆向淘汰相对保守的传统智能应用。

  为应对前端风险,应引入声誉概念作为衡量参与方信任度的核心指标。多权重主观逻辑模型使基于声誉的可信赖客户端之间的“朝上竞争”成为可能,配合区块链技术的不可篡改特性,分布式信誉管理将成为现实。例如,主导方可围绕深度强化学习设计激励策略,在开源分布式特殊场景中推行资源“按劳分配”,以达到边缘节点的最佳训练水平;利用区块链技术跟踪全局模型更新,对积极贡献用户给予丰厚奖励,实现局部模型的更高稳定性。此外,契约理论可被用于各参与方算力投入和模型质量的衡量。不过,技术互嵌的解决方案有时也存在相互掣肘,技术方需“量力而行”。例如,区块链技术的公共账本特性存在通信延迟、数据吞吐量大等问题,必然对通信设备、服务器带宽以及主机算力等提出更高要求。为此,可通过对通信成本和模型准确性之间进行表征的多节次方程式对二者的权衡取舍予以指导。

  为应对中端风险,应构建数据清洗过程适用的缺省性数据筛选机制。避免算法歧视“群体化”需要深入数据处理的社会性聚合机制,尤其需拷问作为多方安全计算、联邦学习和低代码参与方的自身禀赋、行业特点和地域限制在何种程度上影响了数据样本的生成。无论如何清洗,来源于同一主体的数据通常会被打上难以察觉的烙印,具有隐性的身份化表征,在无形之中限定了数据合规的应用格局。不同数据间集体身份在数据合规实践中相互排斥和博弈越明显,得出的运算结果、训练出的公共模型和成型的低代码模块就越有可能产生歧视。简言之,原本稀松平常的数据,可能由于同其他非适配数据的联合,导致数据池难以自洽。在数据处理的过程链条上,被污染的数据池无法充分发挥技术潜力,甚至可能造成数据共享机制和自动化决策机制一同组成的整体解决方案的走样。歧视源于数据,因此,主导方应在数据清洗过程中主动去除冗余、不相关、不合格数据,在降低通信成本的同时提升运算精度,避免各参与方因“数据饥渴”而“来者不拒”,以期从源头“掐断”算法歧视群体化的苗头。

  为应对后端风险,应确立智能应用开发和投入市场的基础伦理标准。引导科技向善、避免智能应用出现“劣币驱逐良币”的有效手段,是通过法律将标准和原则植入技术的底层行动逻辑。在投入市场前,任何技术应用都应满足伦理先行原则,不得游走于现有法律体系的灰色地带进行监管套利。因汇聚了海量大数据,技术方极有可能经不住诱惑,利用算法压榨个体,摄取不成比例的回报。伦理先行原则表明,技术目标的选择不应是简单的效益至上或是性能择优。在数据合规场景中,各参与方的效益增长势必会同步拉动社会公共利益的福祉提升。此外,对于数据主体而言理应共享技术红利,技术方必须兑现用户授权时所抱有的信赖利益,否则数据主体有权主张数据处理合同自始无效。(唐林垚)

  在面对错综复杂的国际环境和百年未有之大变局时,我们更需要的是中国特色大国外交的理念,而非吸引眼球的所谓“理论”。

  面对复杂多变的国际形势,必须用好总体国家安全观这一强大思想武器,自觉运用其方法论原则武装头脑、指导实践,从整体上把握国家安全,不断开创新时代国家安全工作新局面。

  数字基础设施是数字经济发展的底座,是网络强国、数字中国建设的基石。要立足不同产业特点和差异化需求,推动经济产业全方位、全链条网络化、数字化、智能化转型。

  高质量构建“大思政课”工作体系要聚焦目标、效果和特色,着力破解思政课建设中的重点、难点和关键问题,带动思政课叙事表达体系和场景体验模式的深层变革。

  中华文化的主体性植根于5000多年的文化沃土,是在创造性转化、创新性发展中华优秀传统文化、传承革命文化、发展社会主义先进文化的基础上,借鉴吸收人类一切优秀文明成果的基础上建立起来的。

  数字化网络化智能化加速发展,各国既面临着新的发展机遇,也需要应对新的全球性问题,国际社会迫切需要携手合作,共同打造和平、安全、开放、合作的网络空间,携手构建网络空间命运共同体。

  中华民族传统节日春节即将到来。值此之际回望2023年,中国经济主要预期目标圆满实现。展望新的一年,我国经济发展依然将面临一些困难和挑战,但同时也具有体量大韧性强创新后劲足的竞争优势、宏观经济政策回旋空间大的支撑效应、新一轮全面深化改革开放的增长红利等三重有利支撑。

  要聚焦新时代新征程党的中心任务,以加快政府职能转变和优化政府职责体系为重点,在“加减乘除千亿体育登录入口官网”上做文章,推进机构改革再深化,为在新征程上全面推进中国式现代化提供新动力。

  面对不断升级的数字社交产品,反而需要青年人意识到沉浸式社交环境背后的营销策略与运作逻辑,从而与社交媒体生成的感官刺激与虚拟自我保持距离。

  “人民美好生活需要”的提出,内含着马克思主义的价值宗旨,体现社会主义的本质要求,根植于中国经济社会发展实际,符合中国的初心使命,体现合规律性与合目的性的高度统一。

  冬至阳生,岁回律转。在新的一年,我们站在这一年的不易成果上,对未来充满信心,更加需要接续奋斗、砥砺前行,取得更多发展成果。

  针对目前思政课教师供给能力不能有效满足思政课强起来的发展需要这一突出矛盾,要切实提升教师供给能力,改进教学方式,推动新时代思政课朝着高质量发展。

  我国始终主动实行扩大进口的战略和政策,连续举办进口博览会,倡导开放合作,与既往的贸易保护理论和政策主张存在根本差异,为维护开放的世界经济注入了强大动力。

  面向未来,要进一步扩大“朋友圈”,绘制好“工笔画”,对接好“硬联通”与“软联通”,秉持包容、合作、共赢的原则,为实现民族复兴和推进全人类的福祉而努力奋斗。

  文化交流很重要,我们在讲“一带一路”的时候,也需要讲“共建国家”给我们带来的好处。其实我们面临着如何正确对待自己的问题,“一带一路”不是单方面的施与,而是双向的或多向的互利。

  我们必须要全面把握东北向北开放的历史使命,通过推动东北亚次区域、国别合作,破解东北亚各国战略意图和利益不同、战略互信缺失的困境。

  2022年我国数字经济规模达50.2万亿元,总量稳居世界第二,同比名义增长10.3%,占国内生产总值比重提升至41.5%,数字经济成为我国稳增长促转型的重要引擎。

  坚持以习法治思想和总体国家安全观为指导,准确把握完善国家安全法治体系的时代内涵和实现路径,是新时代新征程把中国特色国家安全法治建设推向前进的必由之路。

  习进一步推进马克思主义基本原理同中国具体实际、同中华优秀传统文化相结合,创造性回答了关系党和国家事业发展的重大问题,形成一系列原创性理论成果。