Pada tolok ukur matematika perbatasan oleh Epochai, O3 memecahkan 25,2 persen masalah, sementara tidak ada model lain yang melebihi 2 persen – menyarankan lompatan dalam kemampuan penalaran matematika dibandingkan model sebelumnya.
Tolok ukur vs nilai dunia nyata
Idealnya, aplikasi potensial untuk model AI tingkat PhD sejati akan mencakup menganalisis data penelitian medis, mendukung pemodelan iklim, dan menangani aspek rutin pekerjaan penelitian.
Titik harga tinggi yang dilaporkan oleh informasi, jika akurat, menunjukkan bahwa Openai percaya sistem ini dapat memberikan nilai substansial bagi bisnis. Publikasi tersebut mencatat bahwa SoftBank, seorang investor OpenAI, telah berkomitmen untuk menghabiskan $ 3 miliar untuk produk agen Openai tahun ini saja – mengindikasikan bunga bisnis yang signifikan meskipun ada biaya.
Sementara itu, Openai menghadapi tekanan keuangan yang dapat memengaruhi strategi penetapan harga premium. Perusahaan dilaporkan kehilangan sekitar $ 5 miliar tahun lalu yang mencakup biaya operasional dan pengeluaran lain terkait dengan menjalankan layanannya.
Berita tentang rencana penetapan harga stratosfer Openai datang setelah bertahun -tahun layanan AI yang relatif terjangkau yang telah mengkondisikan pengguna untuk mengharapkan kemampuan yang kuat dengan biaya yang relatif rendah. ChatGPT Plus tetap $ 20 per bulan dan Claude Pro berharga $ 30 setiap bulan – baik fraksi kecil dari tingkatan perusahaan yang diusulkan ini. Bahkan langganan ChatGPT Pro $ 200/bulan relatif kecil dibandingkan dengan biaya yang diusulkan baru. Apakah perbedaan kinerja antara tingkatan ini akan cocok dengan perbedaan harga seribu kali lipat adalah pertanyaan terbuka.
Terlepas dari penampilan tolok ukur mereka, model penalaran simulasi ini masih berjuang dengan confabulation-instansi di mana mereka menghasilkan informasi yang terdengar masuk akal tetapi secara faktual salah. Ini tetap menjadi perhatian kritis untuk aplikasi penelitian di mana akurasi dan keandalan adalah yang terpenting. Investasi bulanan $ 20.000 menimbulkan pertanyaan tentang apakah organisasi dapat mempercayai sistem ini untuk tidak memperkenalkan kesalahan halus ke dalam penelitian berisiko tinggi.
Menanggapi berita tersebut, beberapa orang menyindir di media sosial bahwa perusahaan dapat mempekerjakan seorang siswa PhD yang sebenarnya untuk jauh lebih murah. “Jika Anda lupa,” tulis pengembang XAI Hieu Pham dalam tweet viral, “sebagian besar mahasiswa PhD, termasuk bintang paling terang yang dapat melakukan pekerjaan yang lebih baik daripada LLM saat ini – tidak dibayar $ 20k / bulan.”
Sementara sistem ini menunjukkan kemampuan yang kuat pada tolok ukur tertentu, label “tingkat PhD” sebagian besar tetap merupakan istilah pemasaran. Model-model ini dapat memproses dan mensintesis informasi dengan kecepatan yang mengesankan, tetapi pertanyaan tetap tentang seberapa efektif mereka dapat menangani pemikiran kreatif, skeptisisme intelektual, dan penelitian asli yang mendefinisikan pekerjaan tingkat doktoral yang sebenarnya. Di sisi lain, mereka tidak akan pernah lelah atau membutuhkan asuransi kesehatan, dan mereka kemungkinan akan terus meningkatkan kemampuan dan menurunkan biaya dari waktu ke waktu.