2020年元旦起可在大陆参加社保台胞这是极大的保障

中新社北京12月6日电 (刘大炜 张舵)多位在大陆工作学习的台湾同胞6日接受采访表示,近日台湾居民可在大陆参加社会保险得到明确,这一措施回应了在大陆台胞的需求,是极大的保障。

11月29日,人力资源和社会保障部同国家医疗保障局印发《香港澳门台湾居民在内地(大陆)参加社会保险暂行办法》,在内地(大陆)就业的港澳台居民应当参加五项基本社会保险。在内地(大陆)居住未就业港澳台居民,可以在居住地按规定参加城乡居民基本养老保险和医疗保险。《暂行办法》将于2020年1月1日正式实施。

LAMB 优化器则是为专为深度神经元网络的大批量同步分布训练而设计。尽管大小批量 DNN 训练是加快 DNN 训练速度的有效方法,但是如果不仔细调整学习速率的调度,当批量处理的大小超过某个阈值时,模型的性能可能会受到很大影响。

三头六臂 NEZHA(哪吒)

创立于2017年的「AI最佳掘金案例年度榜单」,是业内首个人工智能商业案例评选活动。雷锋网从商用维度出发,寻找人工智能在各个行业的最佳落地实践。

预训练语言模型本质上,就是神经网络语言模型。它主要有两个特点,即:可以使用大规模无标注纯文本语料进行训练,以及可以用于各类下游 NLP 任务,各项性能指标均获得大幅度提高,并可以将各类下游任务的解决方案统一简化为集中固定的 fine-tune 框架。

令人可喜的是,网购中的“最美夕阳红队”60后和“新生力量队”00后不相上下,分别有113万人和124万人使用极速退款。这届“最潮银发族”剁手党们,不仅走在了消费升级前列,关注科技、时尚、健康类的商品,更掌握了极速退款等网购的多种玩法,畅享买买买带给老年生活的乐趣。

 BERT 中的随机覆盖

而 NEZHA 预训练模型,则采用了全词覆盖(WWM)策略,当一个汉字被覆盖时,属于同一个汉字的其他汉字都被一起覆盖。该策略被证明比 BERT 中的随机覆盖训练(即每个符号或汉字都被随机屏蔽)更有效。

而根据研究结果显示,近年来的模型大多将重心落到了数据与算力部分。与早期的 ResNet(视觉模型)模型参数相比,数据显示 GPT1 为 100M,BERT large 为 340M,GPT2 为 1.5BN,GPT-2 8B 为 8.3BN。

北京创业公社港澳台事业部总经理郑博宇则对于《暂行办法》第七条“退出机制”的灵活性十分欣赏。如果台湾人中途从大陆离开,先前的社保账户仍然保留,待重回大陆可以继续缴费;而且申请终止社保后也可以一次性提取其中的保险金。在他看来,“这对台干和台商来说是一种保障”。

使用极速退款服务的地区分布情况

位置编码有函数式和参数式两种,函数式通过定义函数直接计算就可以了。参数式中位置编码涉及两个概念,一个是距离;二是维度。其中,Word Embedding 一般有几百维,每一维各有一个值,一个位置编码的值正是通过位置和维度两个参数来确定。

银发族和00后同步解锁网购特权

要说到十二星座中,谁最爱“极速退款”,那肯定非纠结的天秤座莫属了。“小孩子才做选择,大人当然都要啊”,这句话说的大概就是天秤座。网购达人陈女士经常在下单时犹豫,到底是买A还是B呢?好在有极速退货退款,偶尔选错了还能有“后悔药”。有同样选择困难症的,当然还有天蝎座和处女座,被公认为是对细节追求极致的人群,在购物上自然也是追求极致的体验。

推广:猎云银企贷,专注企业债权融资服务。比银行更懂你,比你更懂银行,详情咨询微信:zhangbiner870616,目前仅开通京津冀地区服务。

具体而言,Transformer 最早只考虑了绝对位置编码,而且是函数式的;后来 BERT 的提出就使用了参数式,而参数式训练则会受收到句子长度的影响,BERT 起初训练的句子最长为 512,如果只训练到 128 长度的句子,在 128~520 之间的位置参数就无法获得,所以必须要训练更长的语料来确定这一部分的参数。

雷锋网(公众号:雷锋网)年度评选——寻找19大行业的最佳AI落地实践

在 NEZHA 模型的预训练中,研究者采用了混合精度训练技术。该技术可以使训练速度提高 2-3 倍,同时也减少了模型的空间消耗,从而可以利用较大的批量。

尽管这一预训练模型 NEZHA 的名称听起来有些匪夷所思,但它的开发者们将其视为「无所不能,可以解决不同任务」的寓意。在这个模型中,除了之前提到的重现、多卡多机并行训练之外,主要有两项改进,即:函数式相对位置编码与全词覆盖的实现。

据了解,阿里CCO于2012年率先在业内推出了“极速退款”服务保障,对于平台内诚信记录优秀和良好的用户,提供“即点即退、0秒到账”的特殊权益。

三、混合精度训练及 LAMB 优化器

可以看到,NEZHA 在大部分情况下,都取得了相较更好的性能;尤其在 PD-NER 任务下,NEZHA 最高达到了 97.87 分。另一个表现较亮眼的模型还有 ERNIE Baidu 2.0,颇有超越 NEZHA 的趋势。关于这个情况,论文中作者也解释到,由于实验设置或微调方法可能存在差异,比较可能不完全公平,之后其它模型新版发布后,他们将在相同的设置下对其进行评估并更新此报告。

实验通过对各种自然语言理解(NLU)任务进行微调来测试预训练模型的性能,并将 NEZHA 模型和最先进的汉语预训练语言模型:谷歌 BERT(汉语版),BERT-WWM 以及 ERNIE 进行了对比(详细参数见论文),最终结果如下:

极速退款服务中的80后和90后人群使用占比

而在 NEZHA 模型中,距离和维度都是由正弦函数导出的,并且在模型训练期间是固定的。也就是说,位置编码的每个维度对应一个正弦,不同维度的正弦函数具有不同的波长,而选择固定正弦函数,则可以使该模型具有更强的扩展性;即当它遇到比训练中序列长度更长的序列时,依然可以发挥作用。函数式相对位置编码公式,如下图所示:

LAMB 优化器则不需要手动调整学习速率,而是采用了一种通用的自适应策略。优化器通过使用非常大的批量处理大小(实验中高达 30k 以上)来加速 BERT 的训练,而不会导致性能损失,甚至在许多任务中获得最先进的性能。值得注意的是,BERT 的训练时间最终从 3 天显著缩短到 76 分钟。

图中列出了 BERT、GPT、XLNet、ERNIE 等模型以及它们之间的关系,并拟出了一份相关的论文列表。列表把预训练模型主要分为了三个部分,包括:模型、知识蒸馏与模型压缩。按照这样的分类,TinyBERT 模型则可以归类为「知识蒸馏与模型压缩」部分;NEZHA 则归为「模型」部分。

雷锋网原创文章,。详情见转载须知。

极速退款服务中的60后和00后人群使用数据

李伟国也表达了相同的看法。他表示,《暂行办法》充分考虑到了台胞的实际需求,例如离开大陆可以一次领回、到不同城市可以换保、停保后可以再续保等内容对台胞都是极大的保障。而且在台湾居民居住证施行后,社保和公积金的办理效率会比持台胞证更高,希望大陆可以推出更多落实同等待遇的政策,支持更多台胞来大陆发展。(完)

一、函数式相对位置编码

使用极速退款服务的Top人群星座排名

大城市白领、小镇青年,都能“躺寄”“躺收”

更直观来看,github 上来自清华大学的两位同学——王晓智和张正彦(在读本科生)整理的一份关于预训练模型的关系图,则可以从功能方面更简单明了的帮我们理解该类模型类别。

在地域分布上,全国的版图全部都被点亮,无论人在东北黑河,还是在新疆或三亚,只要网络到位,都能享受到极速退款“0秒到账”的快感。

“这是进一步落实同等待遇的重要举措”,华灿工场总经理李伟国表示。他认为,之前虽然说过台胞可以申请参加大陆的社会保险,但苦于没有明文规定,在申请时很容易遭到拒绝,会造成公司负担。现在《暂行办法》出台后,台湾民众在大陆参与社保可以“名正言顺”了。

从《2019极速退款服务年度报告》显示,目前拥有这项特殊权益的用户已经覆盖全国近4.2亿网购族,仅2019年使用该项权益的用户就达到1.13亿。

预训练语言模型研究结果

在 NEZHA 的 WWM 实现中,研究者使用了一个标记化工具 Jieba2 进行中文分词(即寻找中文单词的边界)。在 WWM 训练数据中,每个样本包含多个覆盖汉字,覆盖汉字的总数约占其长度的 12%,随机替换的占 1.5%,尽管这样预测整个词运算难度有所增加,但最终取得的效果更好。

报告显示,在使用极速退款服务的人群中,天秤座女生使用频率最高,可谓是“纠结星人”第一名;银发族60后爷爷奶奶们使用极速退款也很溜,和00后小鲜肉不相上下,都有100多万人;中国最北端的黑河网友和南边的三亚网友,在极速退款使用上毫无地域差异,可以说,极速退款在全国的覆盖上可谓毫无死角。

NEZHA 预训练模型则采用了函数式相对位置编码,其输出与注意力得分的计算涉及到他们相对位置的正弦函数,这一灵感正是来源于 Transformer 的绝对位置编码,而相对位置编码则解决了在 Transformer 中,每个词之间因为互不知道相隔的距离引发的一系列资源占用问题。

预训练语言模型通常有两个大类型。一类是 Encoder,用于自然语言理解,输入整个文章,用于自然语言理解;另一类是 Decoder,是解码式的,用于自然语言生成,只能来看到已经生成的内容,看不到没有生成的内容,这两类模型有所区别。

而在模型方面,他们选择在内部重现了 Google Bert-base 和 Bert-large 的实验;利用 BERT 的代码,实现了 OpenAI GPT-2 模型;实现基于 GPU 多卡多机并行训练,并且对训练过程进行了优化,提高训练效率,最终得到了「多中文 NLP 任务」预训练模型 NEZHA。

该服务推出不久,不仅受到一二线城市写字楼上班族的欢迎,更深入到了甘肃定西、湖北天门等五线城市的角落。虽然人生难以“躺赢”,但是包裹可以“躺寄”,退款可以“躺收”。

现在的神经网络模型无论是在语言模型还是机器翻译任务中,都会用到一个词表;而在 Softmax 时,每个词都要尝试比较一下。每次运算时,所有词要都在词表中对比一遍,往往一个词表会包含几万个词,而机器翻译则经常达到六七万个词,因此,词表是语言模型运算中较大的瓶颈。

针对《暂行办法》中台湾学生可与大陆大学生执行同等医疗保障政策,现就读于北京大学的台生林姗表示,以往因为健保等问题的原因,有的台生会选择回台湾就医。《暂行办法》出台后,给了台生就医提供更多的选择,而且对在大陆就业的台胞来说感受也会很深。

为了让消费者购物体验更方便,真正实现“足不出户”,阿里CCO还联合菜鸟裹裹推出了“上门取即退”服务,只要用户通过平台进行预约,就会有裹裹快递员极速上门取件,不仅有“0元退”(运费险垫付首重免费),在包裹当面确认无误寄出的瞬间,就能收到平台的退款,从发起预约到退款,最快90分钟内完成。

今年阿里CCO又和菜鸟裹裹合作推出“上门取即退”服务,升级了极速退款业务,让消费者可以在家“躺收”,手指一点预约,菜鸟裹裹快递员上门取快递,不仅有“放心寄、丢必赔”服务保障,寄走后还能立马收到退款。

在使用人群的年龄段分布中可以看到,伴随着淘宝一路成长起来的成熟剁手党80后是最大的人群,占比39%,紧随其后的是“互联网一代”90后人群以微弱差距排第二,占比38%。

传统的深度神经网络训练使用 FP32(即单精度浮点格式)来表示训练中涉及的所有变量(包括模型参数和梯度);而混合精度训练在训练中采用了多精度。具体而言,它重点保证模型中权重的单精度副本(称为主权重),即在每次训练迭代中,将主权值舍入 FP16(即半精度浮点格式),并使用 FP16 格式存储的权值、激活和梯度执行向前和向后传递;最后将梯度转换为 FP32 格式,并使用 FP32 梯度更新主权重。

广西两岸红现代农业开发有限公司董事长庄久毅认为,社会保险是国家对人民的全方位保障。《暂行办法》回应了在大陆的台商、台胞迫切的要求,而且在大陆参与社保也可以让台胞感到有所依靠。

You May Also Like