همبنیانگذار آنتروپیک: ساخت Claude Code، درسهایی از GPT-3 و طراحی سیستمهای مدلهای زبان بزرگ (LLM)
تام براون پس از مشارکت در ساخت GPT-3 در اوپنایآی، به همکاری در تأسیس آنتروپیک پرداخت. این مهندس خودآموخته که زمانی نمره B-minus در جبر خطی گرفته بود، به یکی از چهرههای کلیدی در دستیابی به پیشرفتهای انقلابی مقیاسپذیری هوش مصنوعی تبدیل شد. و حالا تلاشهایش به ثمر نشسته است.
امروز کلاد آنتروپیک به انتخاب اول توسعهدهندگان تبدیل شده است، و تیم او نظارت بر چیزی را بر عهده دارد که آن را "بزرگترین پروژه زیرساختی تاریخ بشریت" مینامد. در این اپیزود از پادکست لایتکون، او مسیر غیرمتعارف خود از بنیانگذاری در Y Combinator تا تبدیل شدن به پژوهشگر هوش مصنوعی، کشف قوانین مقیاسپذیری که همه چیز را تغییر داد، و توصیههایش برای مهندسان جوانی که امروز وارد عرصه هوش مصنوعی میشوند را به اشتراک میگذارد.
وقتی شروع کردیم، اصلاً فکر نمیکردیم موفق بشیم. اوپنایآی میلیاردها دلار بودجه داشت و همه این چهرههای شناختهشده، ولی ما هفت موسس بودیم که داشتیم تلاش میکردیم کاری بسازیم و نمیدانستیم نتیجه چی میشود. یک نکته جالب این است که بشر در حال ساخت بزرگترین زیرساخت تاریخ است. درباره روزهای ابتدایی آنتروپیک بگو. شما یک ماموریت کلی داشتید که نمیخواستید به بشریت آسیب بزنید، ولی اولین سال روی چه چیزی کار کردید و چطور محصول شکل گرفت؟
- خیلی خوشحالم اینجا هستم. من در ۲۱ سالگی از امآیتی وارد تکنولوژی شدم. دوستم چند تا استارتاپ راه انداخته بود و من اولین کارمندش بودم. میتوانستم برم تو شرکتهای بزرگ ولی ترجیح دادم کنار دوستان باشم تا یاد بگیرم که چطور بدون کسی به ما دستور بده کار کنیم. در اونجا یاد گرفتم که باید مثل گرگها دنبال غذا بگردیم و نگذاریم شرکت بمیرد، برخلاف مدرسه که همیشه به من میگفتند وظایف را انجام بدم بدون اینکه خودم تصمیم بگیرم. این طرز فکر خیلی بهم کمک کرد برای کارهای بزرگتر.
پس چطور از اون فضای استارتاپ دوستانه به راهاندازی شرکت خودت رسیدی؟
- بعد از یک دوره کار در استارتاپها، به مدرسه برگشتم و بعد رفتم Mopub، اولین مهندسش بودم. اونجا خیلی از برنامهنویسیام ضعیف بود، ولی تجربه خوبی گرفتم. بعد یکی از دوستانم من را قانع کرد که یک شرکت Y Combinator راه بندازیم. یک پروژه DevOps بود که قبل از وجود داکر، سعی کردیم یک هروکو بهتر بسازیم، ولی در واقع خودمان هم نمیدانستیم دقیقاً چی میسازیم.
وقتی میخوای کاری جدید انجام بدی، معمولاً این عدم وضوح طبیعی است.
- دقیقاً. اما نیمه راه هم هنوز نمیدانستم دقیقاً محصول چی خواهد بود یا ماموریتش چیه. بعد یک دوست معرفیام کرد به مایکل واکسمن که موسس Grouper بود، یک اپلیکیشن دوستیابی که بهصورت گروهی کار میکرد.
این قبل از عصر هوش مصنوعی بود؟
- بله. مردم به صورت دستی گروهها را match میکردند و همه میرفتند یک بار ملاقات کنند. هدف ما کمک به آدمای خجالتی بود که راحتتر بتوانند با دیگران حرف بزنند.
جالب است که چطوری با گرگ بروکمن هم آشنا شدی؟
- او یک دورهای هر هفته میرفت Grouper، خیلی فعال بود. من و گرگ رفیق شدیم که باعث شد بعدها با اوپنایآی هم ارتباط پیدا کنم.
شروع از فارغالتحصیلی امآیتی تا همموسس آنتروپیک. مسیرت چی بود؟
- راه طولانی بوده. بعد از Grouper در ۲۰۱۴ به اوپنایآی پیوستم. اوایل خیلی تلاش کردم بدون داشتن مهارت قوی ریاضی خودم را به کسایی برسونم که بتونم کمک کنم. ۶ ماه طول کشید تا مطالعه کنم.
این مطالعه به چه صورتی بود؟ مخصوصاً برای کسانی که نرمافزاری هستند و میخواهند به پژوهشگر هوش مصنوعی تبدیل شوند.
- یک قرارداد سه ماهه با توییچ گرفتم تا پول داشته باشم و بعد روی دورههای آنلاین، انجام پروژههای Kaggle و کتابهای ریاضی و آمار تمرکز کردم. GPU خریدم و روی آموزشهای تصویری کار کردم.
چطور اوپنایآی استخدامت کرد؟
- با گرگ تماس گرفتم، گفتم اگر حمایتی لازم دارید من آمادهام. از طریق معرفی گرگ این فرصت به من داده شد و چند ماه اول فقط کمک فنی برای محیط استارکرافت میدادم، تقریباً ۹ ماه اول کارهای ML انجام ندادم.
فضای اوپنایآی در آن زمان چطور بود؟
- اوایل در یک کارخانه شکلات در سانفرانسیسکو بودیم. پول بسیار زیادی از ایلان ماسک جمع شده بود. خیلی مطمئن بودیم که کارمان ادامه خواهد داشت.
سپس نوبت به کار روی GPT شد؟
- همینطور است. من دستهای از پروژههای ساخت زیرساخت آموزشی GPT3 را انجام دادم. انتقال از TPU به GPU بزرگترین تغییر بود که باعث شد بتوانیم GPT3 را مقیاسدهی کنیم.
قانونهای مقیاسپذیری چه نقشی داشت؟
- دیدن رابطه مستقیم و منظم بین هزینه محاسباتی و عملکرد مدل، خیلی تاثیرگذار بود. ثابت میکرد اگر پول بیشتری صرف کنیم، هوش مصنوعی بهتر میشود. این دیدگاه باعث شد حواسمان به افزایش مستمر مقیاس باشد.
چطور شد از GPT3 به شکلگیری آنتروپیک رسیدی؟
- دو تیم بزرگ در اوپنایآی بود؛ تیم ایمنی و تیم مقیاس. تیم ما که روی مقیاس و ایمنی کار میکرد، خیلی خوب با هم هماهنگ بود و تصمیم گرفتیم یک سازمان جدید بسازیم. با ۷ موسس و ۲۵ نفر دیگر از اوپنایآی شروع کردیم. هیچوقت مطمئن نبودیم موفق میشویم اما همهمان برای ماموریت آمده بودیم. این تعهد به ماموریت، فرهنگ سازمان ما را حفظ کرد حتی وقتی به ۲۰۰۰ نفر رسیدیم.
اولین محصول آنتروپیک کی آمد؟ حدود ۹ ماه قبل از ChatGPT داشتیم یک نسخه Slackbot از Claude1 داشتیم ولی مطمئن نبودیم آیا محصول را عرضه کنیم یا نه. بعد از ChatGPT در پاییز ۲۰۲۲، API و Claude را دوباره راهاندازی کردیم. تا مدل Claude 3.5 و مخصوصاً نسخه کدنویسی که خیلی محبوب شد، واقعاً موفق بودن شعور بازارمان معلوم نبود.
چرا کاربران مدلهای شما را برای کدنویسی خیلی بیشتر میپسندند؟
- ما روی کدنویسی سرمایهگذاری کردیم چون خواستیم مدلها در آن خوب باشند. همچنین ما تیمی نداریم که فقط برای بالا بردن امتیاز بنچمارکها تمرکز کند. ما بیشتر دنبال ارزیابیهای داخلی و استفاده واقعی هستیم.
چطور مدل خودتان را به عنوان یک کاربر در نظر میگیرید؟
- Claude یکی از کاربران اصلی است. ما ابزارهایی میسازیم که به Claude کمک کنند کارهایش را بهتر انجام بدهد. فکر میکنم درک اینکه مدل خودکار یک «کاربر» است، باعث شده محصولات بهتر ساخته شود.
توسعه Claude Code چگونه آغاز شد و چگونه موفق شد؟
- Claude Code در ابتدا ابزاری داخلی برای کمک به مهندسین خودمان بود. بعد از دیدن موفقیت آن، تصمیم گرفتیم رویش بیشتر کار کنیم. این یک سورپرایز بزرگ بود ولی نشان داد که میتوانیم محصولی بهتر از بازار بسازیم.
آنتروپیک از چند نوع GPU استفاده میکند، دلیلش چیست؟
- ما از GPU، TPU و تراانیوم استفاده میکنیم. این کار تیم بهینهسازی عملکرد را پیچیده میکند ولی امکانات بیشتری میدهد تا برای هر کار، بهترین چیپ را انتخاب کنیم. همچنین ظرفیت بیشتری برای محاسبه داریم چون همه مدلها در دسترس نیستند.
به جوانتر خودتان که الان آن مسیر را میرود چه توصیهای دارید؟
-
ریسکپذیر باش، روی کاری کار کن که دوستانت بهش افتخار کنند و نسخه ایدهآل خودت را خوشحال کند. دنبال اعتبارهای ظاهری نباش، مثل مدرک یا کار در شرکتهای مشهور، چون آنها کماهمیت شدند.
-
خیلی ممنون از وقتی که گذاشتید.