Training language models to follow instructions with human feedback

2022 article ouyang2022instructgpt

Authors

Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe

Venue

arXiv preprint arXiv:2203.02155

URL

https://arxiv.org/abs/2203.02155