第二章习题 #625
Unanswered
EverySeptember
asked this question in
💬 Exercises & Q&A
第二章习题
#625
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
习题1:
1.充分性论断:任何一个物理符号系统,都具备产生通用智能行为的充分手段
必要性论断:任何一个可以产生智能行为的系统,必然都是物理符号系统
2.知识获取瓶颈:人类不可能为所有情况进行硬编码
常识问题:人类的常识是一个很难被逻辑推论的事情,常识的模糊边界很难通过符号进行描述
3.不符合,大语言模型是通过大量预训练的数据来学习语言本身,它阅读符号、产生符号,但是不通过物理符号执行逻辑推导;
个人理解:大语言模型其实并不理解问题本身,而仅仅是在当前上下文环境下判断,上一个符号出现之后,下一个出现的应该是这个符号;比如,问“你是谁”,在他的训练素材里,大多数人都会回答“我是xxx”,那么大模型获取到“你是谁”这个上下文之后,他也会回答“我是xxx”
习题2:
1.1.MYCIN的最高目标是“确定致病菌”,但是现实情况往往更复杂,大多时候并不是致病菌造成的,只考虑致病菌情况很可能会造成误判
1.2.现实社会的医生,需要考取执业医师资格证并拥有数年经验才能取得患者的足够信任,对于一台机器,很难让患者直接接受
1.3.治疗方案,除了考虑致病因素,还需要考虑到患者的实际身体状况(健康度、过敏、副作用接受度等),MYCIN无法提供指导
1.4.法律合规性方面,无论是行医还是开处方,MYCIN显然不合规
2.考虑到医疗方向的特殊性,以医生为主,智能体辅助的设计更安全,患者接受度也更高
2.1.首先确定智能体的最终目标,是判断患者病因,并提供用药建议
2.2.它的手段,应该是根据患者描述的直观现象,诱导出其他可能的现象,以及疾病史、用药史、手术史等
2.3.它的职责,应该是协助医生问诊,提示医生覆盖更多考虑情况,引导可能的诊断方向
2.4.它必须有完善的逻辑推理功能,能够溯源逻辑推理过程
3.金融保险领域,规则引擎、风控平台等
习题3:
3.3.
a.语句匹配仍然是硬编码,一旦换一种说法,就完全匹配不出来
b.记忆功能全靠手动,如果想添加一个记忆点,就需要修改编码
c.没有任何学习能力,无法自动将记忆应用到对话中
3.4.不太懂如何使用数学语言描述,大概是语言组合复杂度成指数级上升?使用自然语言描述就是同一个概念有很多种不同的说法,同时一个句子中存在各种概念的组合,使得规则很难匹配到当前语句的重点是什么
习题4
1.整个系统会失效,GRASP作为底层执行器,一旦失效会将失败向上传递,直到顶层造成系统瘫痪。他的优势是每个智能体只需要完成简单的功能,本身实现不需要很复杂。缺点是每个工作都由专门的智能体负责,容易造成热点,性能瓶颈在单一功能智能体上;或者单一智能体功能瘫痪造成全系统瘫痪;以及单一智能体无法做到考虑全局最优,仅关注局部最优解,有时反而造成全局效率低下。
2.之前没有了解过多智能体系统,稍微了解了一下这些智能体编排框架,感觉与心智社会的关联和不同主要有以下几点
2.1.心智社会和多智能体系统都是在编排不同智能体合作完成同一任务,其框架都采用了自下而上式的方法,由一个主智能体完成功能编排,并由子智能体完成子任务
2.2.心智社会的细分智能体只有单一功能,而当前的多智能体系统中的子agent都是通用智能体;心智社会中的某个智能体失效,将造成全系统的瘫痪,多智能体系统因为是通用智能体,可以由其他智能体代替来完成目标任务
2.3.心智社会的顶层智能体没有完整编排能力,它只是了解子智能体的能力,可以将相应的任务交给对应的智能体执行,那么在他编排之前,需要人工先给他提供对应能力的智能体进行预编排
3.心智社会更适合在执行端,由现代大预言模型编排好执行任务后,给心智社会模型下达执行指令,然后监督执行过程并反馈执行结果
习题5
1.通过给予正向或负向奖励,要求AlphaGo在对弈结束时获得尽可能多的奖励,那么AlphaGo在对弈过程中就会通过不断试错,在获取正向奖励时就会更多的重复这个步骤,在获得负向奖励时就会尽可能避免这个步骤
2.强化学习擅长处理延迟奖励和长期后果、内置探索与利用的平衡机制、无需完美环境模型可直接从交互中学习、自适应与在线学习能力、能结合函数近似处理高维复杂场景、统一的决策与规划视角。(以上答案来自AI,说实话不是很懂,最终要的说是数学模型天然匹配,完全没有概念)
强化学习不要求数据有标签,依赖奖励回馈;监督学习需要提前给数据打上标签,依赖识别结果与标签的匹配度。
3.物体识别,目标标记:更适合使用监督学习。完成游戏、躲避障碍:更适合强化学习。
4.在大语言模型的训练阶段,强化学习应该是在微调阶段起作用;通过设置目标,让预训练的大语言模型通过强化学习针对特定任务进行再学习,以满足任务需要。
习题6
1.通过在互联网级别海量文本的语料库上进行自监督训练,这个数据量非人类编码所能企及。而且在模型规模达到某个阈值之后,涌现能力开始展现,课程中提到的上下文学习(仅需几个示例或无需示例,便可以理解)和思维链推理(在输出复杂问题前,先输出推理步骤来提升准确性)
2.a.小数据量任务训练不足:通过强化学习进行二次学习
b.数据错误:数据清洗
c.法律合规风险:数据脱敏
d.数据来源的时效性:持续训练,持续更新
3.会被取代,"预训练-微调"范式需要人工持续更新,在训练完成之后能力几乎无法完成自我提升,不具备实时自主学习能力。
习题7
1.类似于sonar,定义多个规则,使用正则进行规则匹配;规则数量爆炸,难以维护
2.首先,利用海量的代码库数据源,让智能体学会代码的语法结构,提供错题集,让智能体学会分辨异常代码,利用sonar等工具进行交叉比对验证(监督学习)
3.感知模块:代码扫描工具、OCR工具
规划模块:使用大模型对感知模块传递的数据进行分析与任务拆分
大语言模型:同样使用大模型,与规划模块可以使用同一个,也可以使用分布式架构,作为真正的执行者
外部工具:代码执行工具、扫描工具、搜索工具等等
执行层:将大语言模型生成的执行策略结构化为对工具的调用命令,保证可以传递给工具正确的参数,以及程序正常执行
循环往复,直到打成目标
4.符号主义时期,依靠硬编码规则实现,造成规则爆炸,难以扩展;后来深度学习时期,依靠海量数据来进行预训练,解决了符号主义时期的知识获取瓶颈问题,有了理论基础,可以给人做为参考,但执行还需要人工去执行;当前的大语言模型+智能体的时代,解决了执行能力的问题,大语言模型不再只是一个大型资料库,而是一个有了自主行动能力的真正智能体
Beta Was this translation helpful? Give feedback.
All reactions