English
全部
搜索
图片
视频
短视频
地图
资讯
更多
购物
航班
旅游
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
Dailymotion
Vimeo
Metacafe
Hulu
VEVO
Myspace
MTV
CBS
Fox
CNN
MSN
价格
全部
免费
付费
清除筛选条件
安全搜索:
中等
严格
中等(默认)
关闭
筛选器
7:37
Visualizing PPO Behind RLHF
已浏览 3850 次
2025年1月31日
YouTube
AGI Lambda
1:52
RLHF Explained: How Humans Train AI Values | AIGP Key Term
已浏览 1587 次
3 个月之前
YouTube
Dr. David, Privacy & AI Educator
1:00:38
Reinforcement Learning from Human Feedback: From Zero to c
…
已浏览 18.7万 次
2022年12月13日
YouTube
HuggingFace
28:51
Reinforcement Learning with Human Feedback
已浏览 276 次
2024年11月14日
YouTube
Open Data Science
1:00:38
HuggingFace科学家:基于人类反馈的强化学习(RLHF),从零到Chat
…
已浏览 377 次
2023年5月18日
bilibili
AInsight
12:07
吴恩达 RLHF(Reinforcement Learning from Feedback) 002 - H
…
已浏览 140 次
2024年1月6日
bilibili
女王の专属领地
1:03:19
【第七期】东大NLP实验室博士完整地剖析RLHF技术方法!
已浏览 501 次
2023年7月28日
zhihu.com
小牛翻译云平台
35:28
LLM后训练SFT、RLHF原理全面解析
已浏览 410 次
4 个月之前
bilibili
AI技术新视界
9:08
Reinforcement Learning from Human Feedback Explained (and
…
已浏览 4779 次
2023年12月13日
YouTube
What's AI by Louis-François Bouchard
14:28
RLHF真的只是RL吗? RLHF和模仿学习关系研究 | ICLR 2025
已浏览 5101 次
11 个月之前
bilibili
AITIME论道
25:40
Python Reinforcement Learning Tutorial for Beginners in 25 Minutes
已浏览 6.7万 次
2021年3月10日
YouTube
Nicholas Renotte
36:26
A friendly introduction to deep reinforcement learning, Q-network
…
已浏览 13.8万 次
2021年5月24日
YouTube
Serrano.Academy
11:29
LLM系列之RLHF讲解
已浏览 307 次
2024年7月8日
bilibili
东土唐大哥
Understanding RLHF From Scratch
已浏览 2 次
5 个月之前
substack.com
What Is Reinforcement Learning From Human Feedback (RLHF)? | I
…
2023年11月10日
ibm.com
2:44
What is Reinforcement Learning from Human Feedback (RLHF)? |
…
2023年4月20日
techtarget.com
3:27
1.1K views · 101 reactions | A new short course on Reinforcement...
已浏览 1147 次
3 周前
Facebook
DeepLearning.AI
21:32
HuggingFace TRL Part-1: Summarizing the PPO Jargon
已浏览 2016 次
2023年7月19日
YouTube
The LLM Show
12:38
Shortest Remaining Time First (SRTF) Scheduling Algorithm | SJ
…
已浏览 63.5万 次
2021年3月26日
YouTube
Start Practicing
16:46
Longest Palindromic Substring Manacher's Algorithm
已浏览 39.4万 次
2015年7月31日
YouTube
Tushar Roy - Coding Made Simple
21:14
挑战21分钟拆解SFT、RLHF、DPO的真实边界
已浏览 1245 次
2 个月之前
bilibili
AI大模型零基础教程
16:13
[中配] 基于人类反馈的强化学习(RLHF):Transformer 模型的训
…
已浏览 58 次
1 个月前
bilibili
外番の声
6:19
[AI播客]RLHF到RLVR:强化学习的范式演进与实践,突破探索从人类反
…
已浏览 332 次
4 个月之前
bilibili
烟岚九境
Generating Conversation: RLHF and LLM Evaluations with Nathan Lam
…
已浏览 1318 次
2023年9月6日
YouTube
RunLLM
20:28
RLHF: Training Language Models to Follow Instructions with Human F
…
已浏览 2127 次
2024年3月22日
YouTube
DataMListic
Reinforcement Learning from Human Feedback From Zero to Ch
…
已浏览 2.2万 次
2022年12月13日
YouTube
HuggingFace
Direct Preference Optimization: Your Language Model is Secretly
…
已浏览 3.2万 次
2023年12月22日
YouTube
AI Coffee Break with Letitia
🐐Llama 3 Fine-Tune with RLHF [Free Colab 👇🏽]
已浏览 2万 次
2023年8月6日
YouTube
Whispering AI
24:18
第三篇: 使用RLHF调整LLM(Tune an LLM with RLHF) 中英文字幕
已浏览 795 次
2023年12月25日
YouTube
Bob Lin
44:14
DPO V.S. RLHF 模型微调
已浏览 5020 次
2024年1月20日
YouTube
Alice in AI-land
观看更多视频
更多类似内容
反馈