Phi-3 Mini es el nuevo modelo de inteligencia artificial «ligero» desarrollado por Microsoft, capaz de funcionar en smartphones y otros dispositivos pequeños. Este modelo ha sido entrenado con 3,8 mil millones de parámetros en un conjunto de datos más pequeño que los modelos de lenguaje de gran escala como GPT-4.
Phi-3 Mini está disponible en Azure, Hugging Face y Ollama, y en el futuro se lanzarán Phi-3 Small (7 mil millones de parámetros) y Phi-3 Medium (14 mil millones). Estos parámetros indican la capacidad de comprensión de instrucciones complejas por parte del modelo.
El número 3 sugiere claramente que el modelo tiene predecesores, y de hecho, Microsoft ya había lanzado Phi-2 en diciembre. Según la empresa, Phi-3 ofrece un rendimiento superior y puede proporcionar respuestas cercanas a las de un modelo 10 veces más grande. Microsoft considera que Phi-3 Mini tiene capacidades similares a un LLM como GPT-3.5, «solo en un factor de forma más pequeño».
Incluso los competidores de Microsoft han creado modelos más pequeños, la mayoría de los cuales se centran en tareas más simples como resúmenes de documentos o asistencia en programación. Por ejemplo, Gemma 2B y 7B de Google son adecuados para la creación de chatbots simples y trabajos lingüísticos.
Claude 3 Haiku de Anthropic puede leer documentos de investigación con gráficos y resumirlos rápidamente, mientras que Llama 3 8B de Meta, recientemente lanzado, puede ser utilizado para algunos chatbots y para asistencia en programación.
Según Eric Boyd, vicepresidente corporativo de Microsoft Azure AI Platform, los desarrolladores entrenaron a Phi-3 inspirándose en la forma en que los niños aprenden de los cuentos antes de dormir, es decir, mediante palabras y frases con una estructura más simple que abordan temas amplios. «No hay suficientes libros para niños en circulación, así que tomamos una lista de más de 3.000 palabras y pedimos a un LLM que creara ‘libros para niños’ para entrenar a Phi», afirma Boyd.
Phi-3 es el resultado de lo aprendido en iteraciones anteriores. Con Phi-1, Microsoft se centró en la programación, mientras que con Phi-2 se centró en el razonamiento. Phi-3 es mejor tanto en programación como en razonamiento. Según NVIDIA, el modelo fue entrenado con 3,3 billones de tokens en solo 7 días con 512 GPU NVIDIA H100 Tensor Core.
Aunque la familia de modelos Phi-3 tiene cierto conocimiento general, no puede competir con GPT-4 u otro LLM: hay una gran diferencia en el tipo de respuestas que se pueden obtener de un LLM entrenado en toda la red de Internet en comparación con un modelo más pequeño como Phi-3.
Sin embargo, esto no significa que Phi-3 no pueda encontrar su espacio: a menudo, modelos más pequeños como Phi-3 funcionan mejor para aplicaciones empresariales con conjuntos de datos reducidos. Además, dado que estos modelos utilizan menos potencia de cálculo, suelen ser mucho más económicos, especialmente para aquellas empresas que no pueden permitirse tener LLM en la nube.
