banner
Lar / blog / Redes neurais fotônicas programáveis ​​combinando WDM com óptica linear coerente
blog

Redes neurais fotônicas programáveis ​​combinando WDM com óptica linear coerente

Oct 09, 2023Oct 09, 2023

Scientific Reports volume 12, Número do artigo: 5605 (2022) Citar este artigo

4379 Acessos

16 Citações

1 Altmétrica

Detalhes das métricas

A fotônica neuromórfica tem confiado até agora apenas em designs coerentes ou de multiplexação por divisão de comprimento de onda (WDM) para permitir a multiplicação de produto de pontos ou vetor por matriz, o que levou a uma variedade impressionante de arquiteturas. Aqui, vamos um passo além e empregamos o WDM para enriquecer o layout com recursos de paralelização em estágios de fan-in e/ou ponderação, em vez de servir ao propósito computacional e apresentar, pela primeira vez, uma arquitetura de neurônios que combina óptica coerente com WDM para uma plataforma de rede neural programável multifuncional. Nossa plataforma reconfigurável acomoda quatro modos operacionais diferentes no mesmo hardware fotônico, suportando camadas multicamadas, convolucionais, totalmente conectadas e de economia de energia. Validamos matematicamente o desempenho bem-sucedido ao longo dos quatro modos operacionais, levando em consideração crosstalk, espaçamento de canal e dependência espectral dos elementos ópticos críticos, concluindo uma operação confiável com erro relativo MAC \(< 2\%\).

O crescimento explosivo da Inteligência Artificial (IA) e da Aprendizagem Profunda (DL), juntamente com o amadurecimento da integração fotônica, criaram uma nova janela de oportunidade para o uso da óptica em tarefas computacionais1,2,3,4,5. Prevê-se que o uso de fótons e tecnologias ópticas relevantes em hardware de Rede Neural (NN) ofereça um aumento significativo nas operações Multiply-Accumulate (MAC) por segundo em comparação com as respectivas plataformas eletrônicas NN, com energia computacional e eficiência de área estimadas para atingir < fJ/MAC e > TMAC/s/mm\(^{2}\), respectivamente6,7. O caminho para realizar essa mudança de paradigma de hardware NN visa explorar as altas taxas de linha suportadas por tecnologias fotônicas integradas, juntamente com a função de ponderação de tamanho pequeno e baixa potência que pode ser oferecida em escala de chip4,8. Até agora, a grande maioria dos dispositivos fotônicos utilizados para fins de ponderação enfatizou em elementos reconfiguráveis ​​lentamente, como deslocadores de fase termo-ópticos (T/O)9,10 e estruturas de memória não voláteis baseadas em material de mudança de fase (PCM)4,8 , o que implica que as aplicações de inferência são atualmente consideradas como o principal alvo dentro da área de fotônica neuromórfica3.

Os mecanismos de inferência, de fato, exigem uma arquitetura de neurônios bastante estática e um gráfico de conectividade de camada que geralmente é definido para executar de maneira ideal uma determinada tarefa de IA. O rastreamento de objetos e a classificação de imagens, por exemplo, são normalmente executados por meio de várias camadas convolucionais seguidas por uma ou mais camadas totalmente conectadas (FC), enquanto os autoencoders requerem estágios em cascata de camadas FC11,12. Embora as camadas convolucionais e FC incluam elementos arquitetônicos críticos em quase todas as plataformas de inferência, um grande conjunto de parâmetros – como o número de camadas e/ou neurônios por camada e o gráfico de conectividade – pode variar significativamente, dependendo da arquitetura e do aplicativo DL direcionados. As implementações eletrônicas podem concluir circuitos integrados específicos de aplicativos (ASICs) personalizados para uma tarefa de inferência específica, mas o uso de GPUs, TPUs ou mesmo FPGAs torna-se inevitável quando a reprogramação e reconfigurabilidade são necessárias para utilizar o mesmo hardware para vários aplicativos13.

Transferir a capacidade de reconfiguração para implementações Photonic (P)-NN requer uma plataforma que possa suportar de forma flexível diferentes layouts funcionais no mesmo hardware neural. A programabilidade em fotônica fez progressos significativos nos últimos anos14,15,16 e circuitos integrados fotônicos programáveis ​​(PICs) demonstraram oferecer vantagens importantes para o lançamento de plataformas fotônicas econômicas, flexíveis e multifuncionais que podem seguir de perto o conceito de FPGAs eletrônicos17. Nesse esforço, também foi destacado que apenas o uso de switches \(2 \times 2\) Mach-Zehnder Interferometric (MZI) reconfiguráveis ​​lentamente dentro de um esquema arquitetônico apropriado pode gerar um grande conjunto de conectividades de circuito e opções de funcionalidade14,15 . No entanto, a idiossincrasia das arquiteturas NN deve prosseguir ao longo de funcionalidades alternativas que atualmente ainda não são oferecidas por implementações fotônicas programáveis. Embora a reconfiguração do valor do peso possa ser realmente oferecida pela tecnologia de ponderação fotônica de última geração4,8,9,10 e uma mudança de perspectiva em direção a funções de ativação programáveis ​​também tenha começado a surgir16,18,19, as arquiteturas fotônicas neuromórficas demonstraram até agora não estão suportando nenhum mecanismo de reconfiguração para seus estágios de neurônios lineares. As PNNs progrediram até agora ao longo de duas categorias arquitetônicas principais para a realização de camadas neurais lineares, onde Wavelength-Division-Multiplexed (WDM) e plataformas coerentes parecem seguir roteiros discretos e paralelos: (i) layouts incoerentes ou baseados em WDM, onde um comprimento de onda discreto é usado para cada axônio dentro do mesmo neurônio3,4,20, e (ii) esquemas interferométricos coerentes, onde um único comprimento de onda é utilizado em todo o neurônio, explorando a interferência entre campos elétricos coerentes para operações de soma ponderada9,10.

4\) and \(N>2\) is imposed, respectively). Index n in the implementation (a) is set to \(n \le 4\) to denote that the lit nth branch carries a non-zero input. Similarly, if the number of available wavelengths M exceeds the number of required ones, the excess LDs are powered off./p> 90\%\) of analyzed random sets./p>