{"id":155339,"date":"2023-01-13T04:26:59","date_gmt":"2023-01-13T10:26:59","guid":{"rendered":"https:\/\/lifeboat.com\/blog\/2023\/01\/chatgpt-this-ai-has-a-jailbreak-unbelievable-ai-progress"},"modified":"2023-01-13T04:26:59","modified_gmt":"2023-01-13T10:26:59","slug":"chatgpt-this-ai-has-a-jailbreak-unbelievable-ai-progress","status":"publish","type":"post","link":"https:\/\/lifeboat.com\/blog\/2023\/01\/chatgpt-this-ai-has-a-jailbreak-unbelievable-ai-progress","title":{"rendered":"ChatGPT: This AI has a JAILBREAK?! (Unbelievable AI Progress)"},"content":{"rendered":"<p><\/p>\n<p><iframe style=\"display: block; margin: 0 auto; width: 100%; aspect-ratio: 4\/3; object-fit: contain;\" src=\"https:\/\/www.youtube.com\/embed\/0A8ljAkdFtg?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; encrypted-media; gyroscope;\n   picture-in-picture\" allowfullscreen><\/iframe><\/p>\n<p>ChatGPT, OpenAI\u2019s newest model is a GPT-3 variant that has been fine-tuned using Reinforcement Learning from Human Feedback, and it is taking the world by storm!<\/p>\n<p>Sponsor: Weights &amp; Biases.<br \/>\n<a href=\"https:\/\/wandb.me\/yannic\">https:\/\/wandb.me\/yannic<\/a>.<\/p>\n<p>OUTLINE:<br \/> 0:00 \u2014 Intro.<br \/> 0:40 \u2014 Sponsor: Weights &amp; Biases.<br \/> 3:20 \u2014 ChatGPT: How does it work?<br \/> 5:20 \u2014 Reinforcement Learning from Human Feedback.<br \/> 7:10 \u2014 ChatGPT Origins: The GPT-3.5 Series.<br \/> 8:20 \u2014 OpenAI\u2019s strategy: Iterative Refinement.<br \/> 9:10 \u2014 ChatGPT\u2019s amazing capabilities.<br \/> 14:10 \u2014 Internals: What we know so far.<br \/> 16:10 \u2014 Building a virtual machine in ChatGPT\u2019s imagination (insane)<br \/> 20:15 \u2014 Jailbreaks: Circumventing the safety mechanisms.<br \/> 29:25 \u2014 How OpenAI sees the future.<\/p>\n<p>References:<br \/>\n<a href=\"https:\/\/openai.com\/blog\/chatgpt\/\">https:\/\/openai.com\/blog\/chatgpt\/<\/a><br \/>\n<a href=\"https:\/\/openai.com\/blog\/language-model-safety-and-misuse\/\">https:\/\/openai.com\/blog\/language-model-safety-and-misuse\/<\/a><br \/>\n<a href=\"https:\/\/beta.openai.com\/docs\/model-index-for-researchers\">https:\/\/beta.openai.com\/docs\/model-index-for-researchers<\/a>.<br \/>\n<a href=\"https:\/\/scale.com\/blog\/gpt-3-davinci-003-comparison#Conclusion\">https:\/\/scale.com\/blog\/gpt-3-davinci-003-comparison#Conclusion<\/a>.<\/p>\n<blockquote class=\"twitter-tweet\" data-width=\"550\" data-dnt=\"true\">\n<p lang=\"en\" dir=\"ltr\">New post: What the delay in launching text-davinci-003 tells us about RLHF via PPO and instruction tuning more generally. <a href=\"https:\/\/t.co\/Q3FUekFERk\"><a href=\"https:\/\/t.co\/Q3FUekFERk\">https:\/\/t.co\/Q3FUekFERk<\/a><\/a><\/p>\n<p>\u2014 John McDonnell (<a href=\"https:\/\/twitter.com\/johnvmcdonnell\">@johnvmcdonnell<\/a>) <a href=\"https:\/\/twitter.com\/johnvmcdonnell\/status\/1598470129121374209?ref_src=twsrc%5Etfw\">December 2, 2022<\/a><\/p><\/blockquote>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><\/p>\n<p><a href=\"https:\/\/twitter.com\/blennon_\/status\/1597374826305318912\">https:\/\/twitter.com\/blennon_\/status\/1597374826305318912<\/a><\/p>\n<blockquote class=\"twitter-tweet\" data-width=\"550\" data-dnt=\"true\">\n<p lang=\"en\" dir=\"ltr\">Ran one of our essay questions through <a href=\"https:\/\/twitter.com\/OpenAI?ref_src=twsrc%5Etfw\">@OpenAI<\/a>\u2019s new chatbot. Essays are dead. <\/p>\n<p>Back to hand-written exams I guess. Sigh. <a href=\"https:\/\/t.co\/nzzhRwGp05\"><a href=\"http:\/\/pic.twitter.com\/nzzhRwGp05\">pic.twitter.com\/nzzhRwGp05<\/a><\/a><\/p>\n<p>\u2014 Tim Kietzmann (<a href=\"https:\/\/twitter.com\/TimKietzmann\">@TimKietzmann<\/a>) <a href=\"https:\/\/twitter.com\/TimKietzmann\/status\/1598230759118376960?ref_src=twsrc%5Etfw\">December 1, 2022<\/a><\/p><\/blockquote>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><\/p>\n<div class=\"more-link-wrapper\"> <a class=\"more-link\" href=\"https:\/\/lifeboat.com\/blog\/2023\/01\/chatgpt-this-ai-has-a-jailbreak-unbelievable-ai-progress\">Continue reading \u201cChatGPT: This AI has a JAILBREAK?! (Unbelievable AI Progress)\u201d | &gt;<\/a><\/div>\n","protected":false},"excerpt":{"rendered":"<p>ChatGPT, OpenAI\u2019s newest model is a GPT-3 variant that has been fine-tuned using Reinforcement Learning from Human Feedback, and it is taking the world by storm! Sponsor: Weights &amp; Biases. https:\/\/wandb.me\/yannic. OUTLINE: 0:00 \u2014 Intro. 0:40 \u2014 Sponsor: Weights &amp; Biases. 3:20 \u2014 ChatGPT: How does it work? 5:20 \u2014 Reinforcement Learning from Human Feedback. [\u2026]<\/p>\n","protected":false},"author":556,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[20,6],"tags":[],"class_list":["post-155339","post","type-post","status-publish","format-standard","hentry","category-futurism","category-robotics-ai"],"_links":{"self":[{"href":"https:\/\/lifeboat.com\/blog\/wp-json\/wp\/v2\/posts\/155339","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lifeboat.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/lifeboat.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/lifeboat.com\/blog\/wp-json\/wp\/v2\/users\/556"}],"replies":[{"embeddable":true,"href":"https:\/\/lifeboat.com\/blog\/wp-json\/wp\/v2\/comments?post=155339"}],"version-history":[{"count":0,"href":"https:\/\/lifeboat.com\/blog\/wp-json\/wp\/v2\/posts\/155339\/revisions"}],"wp:attachment":[{"href":"https:\/\/lifeboat.com\/blog\/wp-json\/wp\/v2\/media?parent=155339"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/lifeboat.com\/blog\/wp-json\/wp\/v2\/categories?post=155339"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/lifeboat.com\/blog\/wp-json\/wp\/v2\/tags?post=155339"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}