大型华为Pangu模型的员工透露,有炮击,锻炼和清
作者:bet356亚洲版本体育日期:2025/07/07 浏览:
最近,@honestagi在Github发表的有关Pangu Pro Moe的论文研究据称“窃”了由阿里巴巴发布的Thyi Qianwen-2.5 14B模型,引发了激烈的行业讨论。随后,诺亚的方舟实验室(属于华为)发表了一份声明,拒绝了“窃”的指控,并强调,实施Pangu Pro Moe开源的某些基本组成部分的代码是指其他开放资源的一些开放资源代码,但严格符合开放资源的规定。但是,据称负责Pangu的大型模式的诺亚方舟实验室内部雇员的公开信也出现在互联网上。在这封公开的信中,内部员工介绍了大型模型小组的开发和马拉明细节的过程,并宣布已经宣布了大型模型,火车和洗水印的存在。因为他认为这些行为将是“不锈钢这位员工选择揭露自己,选择辞职,并说他申请从那些设置了一些技术报告的人的列表中删除自己的污点。以下是公开信的全文:大家好,我是一个tau群体,也是华为诺亚的方舟实验室的员工。夫人实验室,让我们列出一些详细信息:1。小型实验室模型“四个领域”组织。苏州研究所(Suzhou Research Institute
3。聚集在苏州时,我在星期六上班,这非常困难,但是星期六有日本茶,有小龙虾。我搬了我的工作站曾经到苏州研究所,然后从一栋建筑物搬到另一座建筑物。苏州研究所的建筑都是欧洲风格的装饰,门上有大坡,内部场景非常好。通常至少需要一个星期的时间才能聚集在苏州,甚至更长的时间,而且越来越多的人不能回家一两个月。
4。诺亚已成为研究的介于研究,但是到达后,他在第四领域的大型项目模型工作后,项目成员已完全成为专门的交付,并充满了定期的会议,评论和报告。很多时候,您需要申请实验。团队需要与许多业务线联系,例如Xiaoyi,华为云,ICT等。
5。诺亚开发的pangu模型被命名为“ Pangu Zhizi”。最初,只有Web版本需要用于测试。将来,它被迫在压力下访问和打开Welink。
这些天,有很多争议在质疑pangu窃的大型模型时。
作为Pangu团队的一员,我每天晚上都洗了又转弯,很难入睡。 Pangu的品牌受到极大影响。一方面,我是自私自利的,因为发展自己的职业生涯,并感到过去的努力是不值得的。另一方面,我很高兴,因为有人开始透露这些东西。
在过去的几天和晚上,我们刷牙了,没有能力对某些人的行为做任何事情,这些人通过一次又一次地欺诈而获得无数福利的行为。
这种沮丧和羞耻逐渐消除了我对华为的感受,逐渐地,我感到困惑,在这里失去了时光,经常怀疑我的生活和自尊心。
我承认我是一个胆小的人。作为一个小型移民工人,我不仅是不矛盾王云的人的组成部分,而且也不会加剧不反对像华为这样的巨人。
我害怕失去主题工作,之后l,我也有家人和孩子,所以我从心底欣赏爆炸器。但是,当我看到内部仍在试图掩盖事实,而公众是盲目的,我真的无法忍受。
我也希望有时会勇敢地跟随我的真心。即使我失去了八百人,我也希望伤害一千个敌人。
我决定发表我在这里看到和听到的声音(部分是从同事的嘴里描述),内容涉及Pangu的大型模型的“传奇故事”:
华为主要是在Astense卡上练习大型模型(小型实验室模型中的许多NVIDIA卡,他们也将在锻炼前使用,并最终转移到Astens)。我曾经钦佩华为决定“建立世界第二选择”,有时与华为建立了深厚的关系。我们陪同攀登努力工作,并从今天的火车模型的存在中付出了巨大的努力和价格。
起初,我们的计算强度有限,我们在910a下雨。它只会支持FP16,训练的稳定性将低于BF16。 MOE早就开始了,在23年时,它主要训练了38BMOE模型和随后的71B密度模型。 71b密度模型通过加强成为第一代135BDENS模型,并在910b中逐渐训练了主要模型。
71b和135b型号都有一个巨大的缺陷,即标记器。
当时使用的代币器的效率非常低,每个符号,数字,空间甚至中文字符都占有一个令牌。它可以认为它是计算能力的杂志,并使模型变得贫穷。目前,小型实验室模型发生了一个自我训练的单词列表。 Yao老师想知道该模型的令牌是否不好(尽管那时他的怀疑无疑是正确的),因此他决定让71B和135BE The Tokenizer,因为小型实验室模型尝试了它。团队退出了两个令牌,并开始了补充象征器的水泥。 71b模型替换失败了,而135b使用了更精致的启动策略并继续训练至少1T数据,词汇列表最终被成功所取代,但可以假定效果不会改善。
在此期间,其他国内公司(例如阿里巴巴和Zhipu)培训了GPU,并找到了合适的Pamayaan。 pangu和竞争对手之间的差距变得越来越大。内部230B训练的密度模型因各种因素而失败,导致该项目几乎处于绝望的状态。应对来自多个节点的压力以及对Pangu的强烈内部怀疑,该团队的道德极为沮丧。当计算强度受到很高的限制时,团队就做出了许多努力和挣扎。
例如,团队不小心发现当时38B MOE没有预期的MOE效果。因此,将MOE参数删除并恢复为13B密度模型。由于38B萌来了om the early Pangu Alpha 13B and the architecture was somewhat backward, the team conducted a series of operations, such as moving a full -fledged position on the rope, removal of bias, and moving to RMSNorm.At the same time, given some tokenizer failures and experience with word change lists, the word list of this model was also replaced by a word list used in the small model of Wang Yunhe Model Laboratory 7B.最后一个13B模型扩展并继续练习,并成为第二代38B密度模型(该模型是几个月内的主要中档模型),它具有一定程度的竞争力。但是,由于较大的135b型号的落后架构以及对词汇表模型更换的主要损害(随后的评论发现,替换的缝合词汇表具有更严重的错误),因此在培训后,诸如Qianwen之类的领先的国内模型也存在很大的空间。
目前,由于内部扩展Sionngaan和领导力的压力变得更大。
球队的状况几乎处于绝望状态。
在这种情况下,Wang Yunhe和他的小实验室模型采取了行动。他们承认他们是从135b的旧参数继承的。通过培训几百个B数据,每个指标的平均增加约为十点。
实际上,这是他们第一个应用于大型型号的杰作。
华为领导人不知道胡说八道,他们只是认为应该有一些算法变化。
内部审查后,他们实际上使用QWEN 1.5 110B继续培训。通过添加层,增强FFN的大小以及添加杂物纸的某些机制,它们收集了大约135b的足够参数。
实际上,旧的135b具有107层,而该模型只有82层,各种调整也不同。新的135B之后的多个参数的分布(带有未知来源)几乎完全是SAME为QWEN 110B。尽管当时模型代码类的名称为QWE,但它懒得更改名称。随后的模型是So -call的135B V2。当时还向许多上游客户(甚至外部客户)提供了该模型。
这一事件认真而诚实地对我们的同事产生了巨大影响。即使有码头和华为的云层,许多内部的许多人也知道这一点。
我们都在开玩笑说,这是将来的未来模型,称为Qiangu。
当时,团队成员想向BCG报告,毕竟这是一个主要的业务欺诈。
但是最终塞特说,领导者之所以停下来,是因为更高级别的领导人(例如Yao老师,Xiong先生和Cha Lao先生可能知道这一点,但他们不在乎,但是他们不在乎,因为他们对他们通过外壳取得好成绩是有用的。当时,这一事件使当时的一些最强大的队友开始感到沮丧,并慢慢辞职,并屈服于跑步,并在奔跑中扮演了一些事情。G关于它。
目前,Pangu似乎有一种观点。
由于上面提到的Pangu模型通常是更新的培训和转型,因此诺亚当时没有重新启动培训的技能,让我们练习NPU的NPU的NPU。在当时主要团队成员的努力中,Pangu开始以第三代模型进行培训。在制作高劳之后,就数据架构和培训算法而言,逐渐与该行业相符,并且其中的困难与小型实验室模型中的人无关。
最初,团队成员没有信心,只开始从13B型号进行训练,但最终发现效果很美,因此该模型随后加强了参数,并成为38B的第三代38B,即38B V3。我相信,来自产品线的许多兄弟都熟悉该模型。
当时,根据LLA的词汇扩大了该模型的令牌MA(也是一种共同的行业技能)。当时,Wang Yunhe的实验室创建了另一个单词列表(即下一个Pangu系列的单词列表)。当时,两个词汇被迫繁殖马,没有关于好还是坏的结论。因此,领导人立即决定将任期团结起来,并使用王云和其他人。因此,在随后的重新引起的方法中训练的135B V3(即外部超级)使用此令牌。它还解释了许多使用我们模型的兄弟的疑问,为什么当时V3一代中具有不同装备位置的两个模型会使用不同的令牌。
从我们的心中,135B V3是当时我们第四支支柱的骄傲。这是华为本身开发的第一个真实模型,从一开始就经过了认真的培训,其效果与竞争对手相当24年。
此时我流泪,并不容易。
在为了稳定训练,团队进行了许多实验比较,并在模型的梯度中反复滚动和重新划分。该模型实际上实现了上次技术报告中提到的培训过程。我们已经克服了无数的困难,我们已经这样做了,准备利用自己的生活和尊严来确保该模型的真实性。我们多早睡了他的训练。当我们以内在的声音演奏时,我们做了自己的样子以及我们感到多少不满。
我们确实烧毁了我们的年轻人,以增强国内计算能力的基础...生活在外国土地上,我们投降我们的家庭,假期,健康,爱好和牺牲我们的生命。困难和苦难不足以总结。在不同的pmobilizing中,pangu将赢得胜利,华为当时将赢得口号,我们真的很感动。
但是,我们的所有努力经常被小型实验室删除模型。数据,笔直。该代码是直接进行的,我们还要求我们可以一起工作并单击。当时,我们开玩笑说小鼠实验室的小实验室模型称为实验室实验室。
我们努力工作,他们实现了荣耀。确实,您会承担负担并继续前进,因为某人对您有和平。在这种情况下,越来越多的同伴无法再处理并选择离开。看到我周围的其余同伴彼此辞职,我叹了口气。在这种环境中,像战斗一样,我们更像是武器伴侣,而不是阿明同事。他们还具有无数的技术方面,值得向他们学习,并且是好老师。看到他们参加了许多伟大的团队,例如Byteseed,DeepSeek,Moon的阴暗面,Tencent和Kuaishou,我从心底为他们感到高兴和祝福,并取消了这个困难但肮脏的地方。
我仍然记得o的话f辞职的同事。他说:“在我来这里的技术生涯中,这真是可惜,每天住在这里是浪费生命。”尽管这很丑陋,但它让我没有说话。我记得我缺乏技术积累,也无法适应我想多次离开工作的互联网公司的高度删除,从不采取这一步骤。
除了密度模型外,Ipangu还稍后还启动了Moe的探索。最初,对224B MOE模型进行了培训。考虑到,小型实验室模型还始于炮击的第二个主要操作(第二阶段可能还包括其他一些模型,例如数学模型),尤其是广泛传输的Pangu Pro MOE 72B。该模型说,在小型实验室模型中,从7b加强了(尽管这不是技术报告中,但让我们对Shell Qwen 2.5的14B培训)。我仍然记得,经过几天的培训,当时的38B V3中立即捕获了内部审查。AI系统实验室中的许多兄弟都知道,出于各种原因,他们的起义行动无法促进正义。
实际上,令我惊讶的是,Hexthagi能够研究经过很长时间训练的模型中这种伟大的相似性,因为该计算的力量被放置在训练相同水平的模型以继续培训的模型中。
听他的同事洗涤Qianwen Watermark,我们采取了许多步骤,包括故意培训肮脏的数据。它还为学术界提供了一个前所未有的特殊模型来研究血液模型。将来,可能会提出新的血液关系方法。
到2024年底和2025年初,DeepSeek V3和R1发行后,该团队经历了巨大的影响,还要求提供惊人的技术水平。
因此,为了保持趋势,Pangu模仿了Deptseek模型的大小,并开始训练718B MOE。目前,小型实验室模型将再次采取行动。
他们选择了rEtry DeepSeekv3。他们通过冻结DeepSeek下载的参数进行训练。即使是CKPT加载工作的目录也是DeepSeekv3,也无法更改。你有多骄傲?相反,一些具有真正技术信念的同事从一开始就培训了另外718B MOE。但是有各种各样的问题。但是显然,这个模型比直接外壳好多了?如果团队领导人没有坚持,他将很长一段时间停下来。
大型华为流程管理严重拖累了大型模型的研究速度和开发,例如版本管理,血液模型,各种过程和监测。
特别是,小型实验室模型中的模型似乎从未取决于这些过程。如果需要的话,他们可以放炮弹,并根据需要继续训练。计算的力量继续触及它们。这种强大而几乎神秘的比较表明了当前的流程管理情况:只有州官员是被允许放火,人们不允许灯光照亮。多么荒谬-Laugh?多么难过?你有多仇恨?多么尴尬-Giya!
诚实的事件发生后,每个人都继续交谈并研究公共关系和“反应”。
接受,对本文的审查可能不够强大,这给了王云和小型实验室模型的机会来争论和黑白。
因此,在过去的两天里,我一直感到恶心,我一直怀疑自己的生活意义以及天空中缺乏眼睛。
我不再陪伴你,我离开工作,我也适用于从那些设置技术方案报告的人的列表中删除。当这些技术报告的签名是我一生中无法消除的污点时。当时,我没想到他们为他们敢于开放资源而感到自豪。我没想到他们会愚弄世界并大放异彩。
那时,我可能很幸运拒绝签名。我相信,许多只是试图乘海盗船或不知道的同伴。但是这件事是不可逆转的。我希望在我的余生中,我可以继续做真正有意义的事情,并为当时的软弱和不安。
当我在深夜写下它时,我在哭泣和哭泣。我仍然记得是否有一些出色的同事离开了工作,我问他们是否想发布一个长期的常规帖子来揭示当前情况。其他政党说:不,这是在浪费时间,恐怕您会过上更糟糕的生活。那时我很难过,因为我为目标共同努力的同伴完全劝阻华为。当时一切都被移动了,让我们谈论它,当时我们使用了共产党的小米和步枪,但是该组织的风格与Kuomintang相当。
有时,我为我们使用小米和步枪击败外国枪支和大炮而感到自豪。
现在,我累了,我想给予e。
实际上,直到今天,我仍然希望华为能够认真对待课程,在Pangu上做得很好,在世界一流的世界中做一个世界,并在NVIDIA级别提高Aseng水平。
内心的坏珀拉(Bad Pera)正在努力赚很多钱,这导致诺亚(Noah)甚至华为在短时间内失去了剩余的大型模型才能。我相信他们像Deepseek和其他团队一样闪耀,展现了他们的野心和才华,并将他们的力量分配给了中国和美国在AI之间的激烈竞争。我经常觉得华为没有才华,但它不知道如何维持才华。如果这些人得到了正确的环境,正确的资源,更少的束缚和更少的政治斗争,那么潘吉为什么不记得呢?
最后:我发誓我所写的所有内容都是真实的(至少在我有限的理解范围内)。我没有高水平的技能是技术和详细的机会和稳定的分析,我不愿意使用内部记录直接提供证据,因为担心由于信息的安全而被抓住。但是我相信我的许多前同伴会为我作证。
华为内部的兄弟,包括我们提供的产品线,我相信本文的无数细节将与您的印象相提并论并确认我的声明。您可能被欺骗了,但是这些苛刻的事实无法被抓住。我们斗争的痕迹不应该是混乱和掩埋的。
写了太多书后,有些人应该寻找我并擦除它。如果公司可能做得不好,我想让我保持沉默,甚至我负责。如果这是真的,我的家人的个人甚至安全也可能是威胁。为了保护自己,我将在不久的将来每天向您报告安全。
如果我输了,我只会为真理和目标牺牲,华为甚至中国更好地发展计算的力量和人工智能。一旦我遭受痛苦,我想把它埋在那个地方。
再见诺亚
2025年7月6日黎明,用深圳写并回到苏胡(Sohu),以查看更多
相关文章