职位描述 1.负责文生图、图生图、图生视频等相关场景的算法研发工作; 2.跟踪前沿技术发展,提出技术创新方案,推动落地,并推动行业创新。 3.研究并实践基于大数据、人工智能、计算机视觉、机器学习等领域的新技术在图片生产、编辑、审核、分发、推荐等各个环节的应用; 4.深入理解业务和算法原理,结合业务特点进行业务洞察和分析,探索视频生成算法应用价值,与产品共建视频生成的全链路。
职位要求 1.计算机科学、数学、统计学或相关专业硕士及以上学历; 2.有将算法成果应用到实际产品(如图片生成、试穿、修图、广告、UGC/电商场景)的经验优先; 3.熟悉生成模型(如 Diffusion、GAN、VAE 等)的原理和实现,具备实际项目经验; 4.具备良好的逻辑思维能力和创造力,能够独立开展研究工作,有较强的分析问题与解决问题的能力,对解决前沿难题充满激情; 5.具有良好的团队合作精神和快速学习能力,对技术有热情,追求卓越品质,能承受较大的工作压力。
岗位职责:
- 负责训练和优化开源Stable Diffusion模型, 提升模型的能力
- 收集、处理和分析大量数据,为模型训练提供合适的数据集。
- 根据项目需求,进行模型的集成,部署和训练,快速支持产品需求
- 评估模型在实际应用中的效果,并对其进行持续改进。
- 跟踪最新的AI技术发展趋势,不断学习新的技术和算法, 为产品带来创新
- 与团队成员密切合作,共同开发高质量的AI产品和解决方案。 岗位要求:
- 计算机科学、数据科学、统计学等相关专业学士或硕士学位。
- 具有扎实的机器学习、深度学习理论基础,熟悉主流深度学习框架(如TensorFlow、PyTorch等)。
- 全栈工程师,非常强的工程能力和动手能力,能快速部署开源模型,并且能优化模型的效果,熟练掌握Python等编程语言
- 具有良好的数据分析和处理能力,了解数据预处理方法。
- 具有良好的团队合作精神和沟通能力,能够承担一定的工作压力。
- 具有较强的的学习能力,问题解决能力和创新精神
岗位职责 1、预研和研发具有行业竞争力的人像算法产品,聚焦在AIGC、图像生成、图像超分、图像增强等核心AI算法的技术构建和模型开发; 2、深入研究图像处理算法问题,设计并优化算法以满足产品需求,主导项目上线; 3、跟进业界最新论文和技术,对算法进行产品化预研和技术突破。 任职要求: 1、硕士及以上学历,三年及以上工作经验; 2、CV&ML领域扎实的基础理论和丰富的实践经验,有算法设计、模型训练、网络结构优化以及效果调优的实际深度学习CV算法的落地经验; 3、有实际图像生成类算法开发经验,包括但不限于StableDiffusion系列AIGC大模型算法、图像超分、图像增强、图像生成、deblur等;熟悉人像美颜类算法等 4、熟练使用pytorch/tensorflow/Caffe等训练框架,深入理解其中一种的架构实现 5、精通python/C/C++开发,具有实际项目开发编程经验,具有高效的论文阅读和复现能力; 6、发表过高水平的CV、机器学习相关学术论文/专利者优先。
工作职责: 1、负责研发基于扩散模型的图生图、图像编辑技术应用在下游任务中,比如光影影调优化、虚化光斑等氛围感元素优化 2、设计、开发高保真AIGC控制类算法,包括且不局限于ControlNet、DreamBooth、Adapter类、Lora等方案、改善现有AIGC控制算法ID丢失等问题 3、有图像编辑经验了解ICEdit,Step1x edit等先进图像编辑框架 4、跟踪研究最新的AIGC技术、并拆解技术路线来进行落地,保证人像摄影的前瞻性和领先性 5、训练提升VAE、UNet/DIT等架构的表现力、并对模型裁剪、蒸馏使之有落地可能性 6、对接产品需求拆解算法原子化能力、对接工程团队设计算法架构便于开发和维护 任职要求: 1、计算机科学、人工智能、机器学习或相关领域,硕士及以上学历 2、精通生成对抗网络(GANs)、变分自编码器(VAEs)、Stable Diffusion等生成模型 3、有AIGC算法论文,在CVPR/ICCV等视觉会议或期刊发表论文,并有项目落地经验 4、精通Python/C++编程、 ACM奖牌获得者优先 5、精通扩散基础模型的训练和调试 6、有较强的钻研精神,对部分语言、系统、算法有深刻的探索和理解 有自我驱动力,勤奋好学
【WeShop唯象妙境团队介绍】 WeShop唯象妙境是蘑菇街旗下的AI产品,WeShop唯象妙境是蘑菇街旗下的AI产品。
1、跟进最前沿的Diffusion模型,在电商场景落地; 2、彻底的AI-Native的开发范式,高效利用LLM大幅提升各项业务指标; 3、大规模的信息抽取和信息自动化映射任务、文本/图像/视频多模态大模型匹配训练任务; 4、超大数据量带来的特殊算法/算法工程的挑战
职位描述: 1、跟踪最新的AIGC社区进展,结合业务场景落地算法模型; 2、语义信息抽取,完成数百亿页面文档的分类和信息提取; 3、大量阅读论文和复现Demo
职位要求: 1、能快速阅读深度学习论文,有过硬的代码功底,对技术非常有热情; 2、有较强的沟通能力, 能完成跨部门协作。
工作职责 1.聚焦电商全链路内容生成场景,研发基于大模型的AIGC技术,覆盖商品图文、主图视频、详情页、营销文案、虚拟模特、场景化陈列等内容的自动化生成。 2.负责基于SPU属性、卖点、用户评价,自动生成高质量标题、卖点描述、详情页文案、直播话术、小红书商笔等商品文案生成; 3.负责利用AIGC生成商品主图、场景图、短视频、3D展示图、营销海报,支持背景替换、风格迁移、多角度生成等图像与视频生成。 4.负责构建AIGC生成内容的自动评估模型(如相关性、吸引力、转化预测),用于内容质量评估与排序:
任职资格 1.电商和内容平台相关算法经验者优先,有大规模电商内容生成(文本/图像)、多模态相关项目落地经验,熟悉电商数据特点。 2.具有扎实的机器学习基础,了解前沿的Diffusion、LLM、VLLM算法,包括不限于StableDiffusion、Flux、Llama、QwenVL、GAN、VAE、图像及视频生成/编辑等; 3.具备优秀的研究和创新能力,在CVPR/ICCV/ECCV/NeurIPS/ICML/ICLR/AAAI/ACL/EMNLP/KDD等会议上发表过论文者优先;参加过ACM竞赛者优先;
1、算法研发: 参与建设大模型、多模态、文档理解、AI Agent、知识图谱,强化学习等人工智能技术与行业领域模型的深度融合,实现相关产品的创新与升级。 2、算法应用:参与建设相关技术在业务场景的落地,包括但不限于知识库问答、客服智能、语音智能、数据智能、文档智能、MultiAgent等; 3、深入跟踪调研大模型以及相关方向(包括但不限于NLP/CV/多模态/Agent/具身智能)的前沿技术。
职位要求 1、硕士及以上学历,计算机科学、人工智能、数据科学、数学或等相关专业; 2.优秀的代码能力、数据结构和基础算法功底; 熟练C/C++或Python,ACM、Top Coder、Kaggle等比赛获奖者优先; 3.熟悉并熟练使用目前主流的深度学习框架(例如pytorch或者tensorflow); 4.熟悉深度学习的基本方法,以及常见的视觉/语言模型的基本结构和设计原理;在大模型领域,熟悉相关数据建设,指令微调,模型优化 的应用者优先; 5.有领域TOP会议文章(NeurIPS、ICML、ICLR、CVPR、ICCV、ACL、KDD等)、相关实习经验或者ACM竞赛获奖者优先。 6.有良好的学习、沟通、逻辑思维和团队协作能力;
【部门介绍】 随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。
【工作内容】 1、负责原生多模态模型研究和开发,结合多模态能力(支持文本、图像、语音输入)实现复杂指令生成,包括但不限于文生图、图生图、文档生成、可控编辑等核心方向。 2、负责图像生成模型效果优化,探索扩散模型、自回归模型结构和策略优化等核心技术课题。 3、负责人类反馈与强化学习,聚焦于更加精细的RL算法设计,并基于万相用户反馈的RLHF图像生成质量提升。
【职位要求】
- 计算机科学、人工智能、机器学习等领域的博士/硕士毕业生,具备计算机视觉等领域的扎实理论基础。
- 掌握机器学习和深度学习基础知识,熟悉常用视觉生成算法,熟悉Pytorch、Tensorflow等至少一种深度学习框架。
- 具备良好的科研能力,有大规模视觉生成算法相关研究经历和具有影响力科研工作(高引论文、知名开源项目等)者优先,有成果发表在CVPR、ICCV、NeurIPS、ICLR、TPAMI等国际顶级会议、期刊者优先。
- 对生成方向具有技术热情,具备视觉生成大模型研发经验,有对话系统、多模态生成等落地项目经验者优先。
- 具备良好的技术洞察力和优秀的业务分析能力,能应对复杂的业务算法需求,能够与工程、产品等多学科团队紧密合作,推动研究成果快速落地并产生实际影响。
- 关注技术影响力,具有开源开放精神,对基础模型的前沿问题有持续热情,有追求,渴望做出有极大影响力的工作。
职位描述 1、负责基于扩散模型的文生视频、图生视频、视频增强等相关场景的算法研发工作,结合实际应用场景攻克技术难题,包括视频生成过程中的可控性、时空一致性等问题的优化。
2、负责大规模数据集构建,结合业务场景,利用多模态理解技术进行数据处理和过滤等。
3、跟踪AIGC领域的发展,不断创新,持续有效迭代模型效果。
职位要求 1、有AIGC相关研究经验者优先,包括但不限于基于扩散模型的文生视频、视频增强等。
2、3年以上计算机算法研发经验,熟练使用PyTorch等深度学习框架,精通C++和python编程语言。
3、熟悉经典的图像和视频增强技术,包括但不限于去噪、去模糊、超分辨率、去压缩伪影及视频插帧等。
4、在相关学术会议竞赛中取得显著成绩、在国际顶级会议/期刊上发表高质量论文者优先考虑。
职位描述 1、负责研发行业领先的AIGC素材创意生成技术,包括多模态理解、多模态检索、多模态生成等前沿技术,应用于电商、商业化、本地生活等场景的创意素材生成与智能创作; 2、负责大模型CPT,Post-training等技术的深入探索与研发,提升创意素材的内容质量; 3、负责研发AIGC素材创意生成平台,实现自动化、智能化的素材创意内容的生成与推荐。
任职要求 1、对CV、NLP、多模态等相关领域有深入的理解,在其中一个或多个方向有深入的研究经历,且有相关实际项目经验; 2、优秀的工程实践能力,熟悉pytorch/Tensorflow等深度学习框架,掌握大规模并行训练技术; 3、对学术前沿有浓厚兴趣,时刻跟进技术前沿,并善于利用各类技术解决复杂的实际问题,有良好的沟通表达能力; 4、在国际会议发表论文者优先,包括但不限于ICLR、CVPR、ICCV、ECCV、ACL NeurIPS、ICML等会议。
核心职责 :
- 算法研发与创新: 研究、实现和调优最新的AIGC算法(包括但不限于LLM, Diffusion, GANs等),应用于文本、图像、音频、视频等内容的生成、编辑与增强。
- 模型训练与优化: 负责大规模生成式模型的预训练、微调(Fine-tuning)、提示工程(Prompt Engineering)以及性能优化,提升模型效果、效率和稳定性。
- 工程落地与部署: 将训练好的模型进行部署上线,与工程团队协作完成模型的服务化、高性能推理和持续集成,满足产品低延迟、高可用的要求。
- 数据构建与管理: 构建和维护高质量的多模态训练数据集和评估基准,设计数据策略以持续提升模型能力。
- 前沿技术探索: 持续跟踪国际顶尖会议(如NeurIPS, ICML, CVPR, ACL等)的最新研究成果,并探索其在公司业务中的潜在应用场景。
任职要求 :
•【硬性要求】:
◦ 计算机科学、人工智能、数学或相关专业的硕士及以上学历。
◦ 3年以上机器学习/深度学习相关工作经验,至少1年专注于AIGC领域(CV/NLP方向均可)。
◦ 熟练掌握Python和主流深度学习框架(如PyTorch, TensorFlow)。
◦ 深入理解至少一种主流生成模型(如Transformer, Diffusion Models, GANs, VAE等)的原理和实现。
◦ 拥有大规模语言模型(LLM)或扩散模型(如Stable Diffusion)的微调、推理或部署经验。
◦ 具备优秀的问题解决能力、算法功底和代码实现能力。
• 【优先考虑 (加分项)】:
◦ 有在GPU集群上进行大规模分布式训练的经验。
◦ 熟悉模型压缩、量化、剪枝等加速推理技术。
◦ 有相关顶会论文发表(如CVPR, ICCV, ECCV, NeurIPS, ICML, ACL等)或知名开源项目贡献经验。
◦ 具备多模态(如图文-视频)生成模型的研究或项目经验。
◦ 熟悉云计算平台(如AWS, GCP, Azure)和容器化技术(Docker, Kubernetes)。
• 【软技能】:
◦ 强烈的自驱力和技术热情,对AIGC技术充满好奇。
◦ 优秀的沟通能力和团队协作精神,能够清晰地向技术和非技术背景的同事阐述复杂概念。
◦ 具备产品思维,关注技术带来的业务价值和用户体验。
岗位描述: 1、负责面向空间智能的AI算法研发工作,包括但不限于多模态大模型、AIGC等相关技术; 2、负责前沿技术的研发储备,结合实际业务场景,提供技术解决方案; 3、与工程、产品团队和业务部门合作,推动团队的算法研发和业务落地。
岗位要求: 1、计算机、数学或相关专业本科及以上学历,硕士博士优先; 2、具有扎实的代码基础,熟练掌握C++/Java/Python等至少一门语言,熟练掌握至少一项深度学习框架,如Tensorflow、PyTorch等; 3、有以下领域之一的技术积累: a.大语言模型或多模态语言模型,包括预训练、微调、对齐等技术; b.文生图/视频,包括扩散模型、ControlNet等技术; c.3D生成,包括几何生成、材质生成、高斯重建等技术; 4、具备前沿人工智能技术的跟踪和算法应用能力; 5、具有较强的动手能力,能快速验证算法可行性; 6、有较强的自我驱动能力、学习能力,并有强烈意愿将技术转化为实际产品,或者进行基础算法的创新研究; 7、在计算机视觉、自然语言处理、模式识别、机器学习等国际顶级会议或者期刊上发表论文、相关国际比赛获奖、及有相关专利者优先。
工作职责 1、优化Diffusion图像生成/DiT架构视频生成模型,提升内容质量与电商适配度。开发直播电商推荐算法,基于用户画像优化产品推荐精准度。 2、支持AIGC工具部署,降低计算成本,提升生成速度。分析直播电商数据,优化博主内容推荐与转化效果。 3、研发具有行业竞争力的AI图像算法产品,聚焦在AIGC、图像生成、图像超分、图像增强等核心AI算法的技术构建和模型开发。 4、深入研究图像处理算法问题,设计并优化算法以满足产品需求,主导项目上线;负责图像生成算法的研发和优化,包括模型设计、训练、验证和测试等环节。 5、跟进业界最新论文和技术,对算法进行产品化预研和技术突破。完成图像增强、人脸修复、人脸生成、deblur、inpainting等;人脸修饰类算法包括但不限于磨皮、祛斑痘、美白等,LowLevel算法,包括但不限于HDR、降噪、Deblur、超分、视频增强等;人脸检测,语义分割等算法优化。
任职要求 1、硕士及以上学历,计算机、人工智能或相关专业,5年以上图像生成算法经验。 2、熟练掌握Diffusion、DiT等模型架构,熟悉PyTorch、TensorFlow等框架。有图像增强、超分、人脸修复等算法开发经验,熟悉业界最新研究动态。 3、具备算法产品化经验,能优化计算效率和模型性能。
职位描述:
- 研究并应用 AI 生成技术(如扩散模型、多模态等)在游戏场景美术资源、材质、特效等内容生成中的创新应用;
- 负责开发基于 AI 的游戏场景生成、角色生成、风格迁移等算法;
- 结合 3D 生成技术,实现高质量的游戏美术资产智能生成与优化;
- 负责 AI 图像生成模型的训练、优化和部署,提升游戏制作效率;
- 关注 AI 在游戏图像生成领域的前沿研究,并结合游戏开发需求进行落地实践。
任职要求:
- 计算机图形学、人工智能、深度学习等相关专业硕士及以上学历,具备扎实的机器学习基础,2年以上工作经验;
- 熟悉扩散模型(Stable Diffusion系列、FLUX 等)、多模态理解、动作捕捉等模型;
- 具备计算机视觉相关经验,如图像分割、风格迁移、超分辨率等;
- 熟悉 PyTorch/TensorFlow,并具备 AI 生成模型的训练和优化经验;
- 具备良好的代码能力,熟练掌握 Python/C++,有 GPU 加速计算经验者优先;
- 对游戏开发流程和美术资源生产有基本理解,具备游戏行业相关经验者优先;
- 国际顶尖会议或期刊发表过相关论文或得到过国际比赛名次的优先。
岗位职责: 1、负责图像、视频生成算法模型的研发工作,包括模型架构设计、数据处理、训练方法优化、性能评估等; 2、跟踪业界最新技术进展,积极探索和实践新的技术方案; 3、参与视频生成算法模型的落地应用,并与其他团队协作完成项目开发; 4、撰写技术文档和论文,并进行学术分享与交流。
岗位要求: 1、硕士及学历,计算机科学、人工智能、数学、模式识别等相关专业毕业; 2、具有扎实的数学基础和编程能力,熟练使用Python、C++等编程语言; 3、具有深度学习理论和实践经验,熟悉主流深度学习框架,如PyTorch、Tensorflow等; 4、熟悉分布式训练技术,熟悉AIGC算法,如VAE、DiT等; 5、具有较强的科研能力和创新精神,能够独立开展研究工作; 6、具有良好的沟通能力和团队合作精神,能够与其他团队协作完成项目开发。
【工作职责】 1、负责视觉生成、多模态方向等相关算法研发与优化, 跟进自然语言、计算机视觉领域的前沿技术研究; 2、参与技术规划制定, 把握相关技术最新发展趋势; 3、与产品经理合作,结合用户需求和市场了解,解决实际工程问题,不断迭代优化产品(c端 app),保持产品技术业界领先水平; 【任职要求】 1、计算机、图像识别、模式识别、机器视觉等相关专业,博士学历优先,优秀选手可放宽到硕士; 2、优秀的分析问题和解决问题的能力,对新技术充满好奇心,善于提出解决方案并快速验证; 3、在国际顶级会议上发表过论文优先。
岗位职责 • AI模型研发与优化: 基于开源生成式AI视频模型上做微调、优化,以及组合多个模型,Pipeline,文生图,图生视频等手段,以实现高质量的视频生成、风格迁移、超分辨率、帧插值、目标替换,局部修改等功能。 • 算法与系统设计: 设计并实现高效的工程,算法或系统架构,确保视频AI模型在性能和效率方面的最佳表现。 • 数据管道与管理: 建立和维护视频数据处理管道,包括数据的收集、清洗、标注、增强以及高效存储。 • 技术前沿追踪: 密切关注生成式AI和计算机视觉领域的最新研究进展,并评估其在实际应用中的潜力,积极探索创新解决方案。 • 跨职能协作: 与产品经理、设计师、其他工程师和研究员紧密合作,将AI视频技术集成到产品中,并推动从概念到落地的全过程。 • 性能调优与部署: 负责模型的训练加速、推理优化和部署,确保在不同硬件平台上的高效运行。
任职要求 • 教育背景: 计算机科学、人工智能、机器学习、计算机视觉或相关领域的本科学位,或同等工作经验。 • 编程技能: 精通Python,具备扎实的软件工程实践能力。 • 深度学习框架: 熟练运用PyTorch、TensorFlow等主流深度学习框架进行模型开发和训练。 • AI视频/图像经验: 具有在生成式AI视频(如视频生成、视频编辑、光流估计、视频理解)或生成式图像(如图像生成、图像修复、风格迁移)项目上的实际开发经验。 • 计算机视觉基础: 理解计算机视觉基础知识,包括图像处理、特征提取、目标检测、语义分割等。 • 算法知识: 熟悉GANs、VAE、Diffusion Models、Transformer等生成模型原理及其应用。 • 问题解决能力: 优秀的分析问题和解决问题的能力,能够独立承担研究和开发任务。 • 英语能力: 能够流利阅读英文技术文档和论文。
岗位职责
- 动态漫画生成: 负责研究和实现从文本/图像/视频生成动态漫画的核心技术,攻克角色一致性、动作连贯性等难题。
- AIGC视觉模型研发: 开发或微调视觉生成模型,用于高质量海报、视频封面等营销物料的智能生成。
- 视频处理与增强: 研发智能视频处理算法,包括画质增强、智能擦除、视频风格化等。
- 前沿技术集成: 持续追踪并评估前沿视频生成模型(如Open-Sora, HunyuanVideo),并负责快速集成。
- 模型优化与部署: 负责生成模型的性能优化(如推理加速)和工程化部署。 任职资格
- 学历: 计算机、人工智能、图像处理等相关专业硕士及以上学历。
- 经验: 3年以上计算机视觉(CV)、图像/视频生成或AIGC多媒体领域的研发经验。
- 技术栈: 精通Python,熟练掌握PyTorch/TensorFlow;深入理解并实践过Diffusion Models, GANs等生成模型;拥有Text-to-Video项目经验;熟悉Stable Diffusion/ComfyUI生态。 加分项 拥有出色的AIGC作品集;具备角色/风格LoRA或Dreambooth的训练经验;有数字人、3D建模或动画相关项目经验。
-
利用AIGC相关算法 (StableDiffusion/ControlNet等), 实现创新的技术方案和业务方案,在B端场景落地应用,如AI创意/AI企划/AI造物等。
-
基于淘宝丰富的电商和垂直行业数据,负责大规模图像生成垂直行业模型的预训练,精调工作,包括高质量数据挖掘、模型训练、参数优化等。
-
配合工程同学,对预训练模型进行压缩、量化、推理性能等优化,进行部署并解决模型服务中的问题。
-
跟踪大规模图像生成领域前沿技术,提出创新思路来推动业务发展。
职位描述
-
计算机、人工智能、数学等相关专业,本科/硕士/博士;
-
具备扎实的计算机视觉/机器学习/深度学习理论功底和算法经验,有相关方向的顶会论文者优先;
-
熟悉PyTorch、TensorFlow等深度学习框架,有解决过较复杂的业务问题并带来业务提升者优先;
-
有较强的创新能力,能够解决高挑战性问题,自我驱动能力强,并且有独立完成任务的能力;同时,具有良好的沟通技能和抗压能力。
岗位职责 1. 负责首形科技在 大模型交互 方向的算法研发与优化,涵盖 视觉、语音、表情 等多模态输入输出。 2. 参与公司 人形机器人交互系统 的研发,推动大模型在真实物理载体上的应用落地。 3. 设计与实现多模态融合算法,提升机器人在对话、表情生成、情绪理解、场景交互中的自然度与智能水平。 4. 跟踪人工智能前沿技术(大模型、多模态学习、情感计算等),将前沿成果引入实际产品。 5. 与硬件、结构、前端等团队紧密协作,推动 算法-系统-硬件一体化 研发闭环。
岗位要求 1. 计算机、人工智能、机器学习、机器人学或相关专业硕士/博士优先。 2. 扎实的 深度学习 基础,熟练掌握 PyTorch框架。 3. 在以下至少一个方向有深入研究或项目经验: • 多模态大模型(视觉-语音-文本融合) • 情绪识别与情感计算 • 表情生成/驱动算法 • TTS/ASR 或语音合成 4. 熟悉 Transformer / Diffusion / VAE 等模型架构,有相关论文或开源项目加分。 5. 对 机器人交互、拟人化表达 有兴趣,有创业心态、学习能力强。
加分项 • 在顶会/期刊(NeurIPS, ICLR, CVPR, ICCV 等)发表论文。 • 有大模型(LLM/VLM)微调、推理加速、低成本部署经验。 • 有机器人或人机交互相关项目经验。
岗位职责 :
1、核心模型研发: 主导或参与服装领域多模态大模型的研发与优化。深入探索如何精准解析时尚视觉元素,实现对模特姿态、服装设计细节、材质纹理、光影美学及场景氛围等多维度信息的结构化理解与描述。 2、数据引擎构建:负责构建高效、自动化的数据处理流程。运用先进的CV算法(如目标检测、图像分割、质量评估等),对海量服装图片进行精细化筛选、标注与增强,为文生图(T2I)模型的训练与微调打造超高质量的数据。 3、前沿技术探索与应用: 持续追踪并引入业界最新的多模态及AIGC技术(如Qwen-VL,InternVL等)。通过对SOTA模型的快速评估、微调与创新应用,不断提升模型在服装生成与理解任务上的表现,并探索新的商业应用场景。
任职要求 : 必备条件 :
1、扎实的算法功底: 精通计算机视觉核心理论,熟悉CNN、Transformer等深度学习模型结构,并有丰富的实践经验。 2、丰富的CV项目经验: 在以下至少两个领域有深入实践:图像分类、目标检测、实例分割、图像美学/质量评估。 3、多模态大模型实战经验: 具备主流视觉语言大模型(如QwenVL, InternVL, Ovis等)的Finetune或Prompt Engineering实战经验,理解其内部工作原理。 4、熟练的编程能力: 精通Python,并熟练使用PyTorch/TensorFlow等至少一种主流深度学习框架。
加分项 : 1、有扩散模型(Diffusion Models)、GAN等图像生成模型的研发经验。 2、在CVPR, ICCV, ECCV等顶级会议或期刊上发表过相关论文。 3、良好的沟通能力和团队协作精神,对技术充满热情,具备出色的问题分析与解决能力。 4、对时尚、服装设计或美学有浓厚兴趣或独到见解。
岗位职责 1、Diffusion大模型调优 1)、研究并优化Stable Diffusion、DALL·E、Imagen等扩散模型,提升生成图像的分辨率、细节真实性和艺术表现力; 2)、探索低参微调(LoRA/Adapter)、蒸馏(Distillation)、量化(Quantization)等技术,优化模型推理效率; 2、训练与数据策略 1)、设计高质量训练数据清洗与标注方案,研究多模态对齐(Text-Image Alignment),减少生成偏差。 2)、优化训练策略(如混合精度训练、梯度裁剪、分布式训练),加速模型收敛。 3、前沿技术探索 1)跟进Latent Diffusion、Consistency Model、SDXL优化等方向,尝试新型架构改进生成质量。 2)研究可控生成(ControlNet、IP-Adapter),实现更精准的图像编辑与风格迁移。
任职要求 岗位要求 1、硕士及以上学历(博士优先),计算机/数学/AI相关专业,3年以上AIGC研发经验; 2、熟练掌握Diffusion模型原理,有Stable Diffusion、Midjourney、transformer底层优化或同类项目经验; 3、精通PyTorch/TensorFlow,熟悉分布式训练(Deepspeed/FSDP)和大模型微调技术。 4、在CVPR/ICML/NeurIPS等顶会发表过Diffusion/生成模型相关论文者优先。 5、对文生图、图生图,提高图片分辨率有深入研究。 加分项 1、熟悉超分(Super-Resolution)、图像修复(Inpainting)等技术,能提升生成图像细节。 2、有多模态(CLIP、LLM+Diffusion联合训练)经验,优化文本-图像对齐。 3、熟悉模型压缩与部署(ONNX/TensorRT),优化生成速度。 4、善于论文代码复现。
【你要做的事】 • 参与AIGC视频生成核心算法的设计与优化,包括扩散模型、视频Transformer、多模态建模等; • 解决跨帧一致性、运动控制、细节保真等技术难点,提升生成质量和稳定性; • 搭建和优化视频生成数据管线,负责视频剪辑、图文配对、指令生成、风格标注等处理流程; • 推动算法模型向真实产品落地,与前端/产品/平台团队密切配合完成闭环; • 跟进业界最新技术发展,结合业务需求进行本地创新。
【我们希望你具备】 • 熟悉扩散模型、Transformer、VAE、GAN等主流生成模型,有图像或视频生成经验; • 扎实的深度学习基础,熟练掌握 PyTorch,具备良好的调参、训练和问题排查能力; • 熟悉图像/视频数据的预处理、标注和清洗流程,具备构建高质量数据集的能力; • 有一定的系统思维,理解端到端建模与落地流程; • 有团队意识,具备较强的沟通协作与自我驱动能力。