基于GNN的推荐系统
使用GNN实现的用户音乐推荐系统 最近在Mr.Duang先生的催更下以及接到的毕设单子来看打算选择基于GNN实现的个性化推荐系统作为这次更新的内容(在这方面,后续可能还会更新一个股票预测和文本情感分析的项目 相关课程🔗:https://web.stanford.edu/class/cs224w/ 文献推荐📚:https://dl.acm.org/doi/pdf/10.1145/3568022 为什么需要(Anon酱)GNN? 许多现实世界的数据以连接图的形式存在,比如社交网络、交通网络和生物网络。我们较为熟悉的机器学习方法通常处理的是图片或者文本,而GNN可以直接处理图数据,捕捉节点之间的复杂关系。 GNN能够有效地捕获节点之间的相互作用和关系。例如,在社交网络中,朋友之间的关系可以影响一个人的行为,GNN能通过这些关系进行更准确的预测。 正是基于GNN的这些特性,我们可能将GNN用于我们的推荐系统之中,比如你的🐧🐧、🛰好友某天突然染上了少女乐队开始溜冰,那么很有可能B站也会往你的推荐列表里面掺🧊 GNN的基础模型 GNN通常处理的是二部图Bipartite...
SteamingLLM
只会开新坑不会填旧坑的屑Mr.Xau🕊️🕊️🕊️ 又打算分享一篇基于KV Cache优化经典工作 本人近期任务太多以后一定会填坑的(下次一定 🥺🥺🥺🥺🥺🥺🥺🥺🥺🥺🥺🥺🥺🥺🥺🥺🥺 StreamLLM 基于注意力汇聚现象的KV Cache策略 论文地址,Streaming这个词很有意思,不是我们玩的steam ,它可以是喷射的意思,也可以是涓涓细流的意思;我觉得从这篇工作的内容来看,翻译为娟娟溪流可能更加合适一点。那么这个娟娟细流到底指的是LLM中的什么,但是正所谓铁打的衙门流水的官,KV Cache中有没有铁打不变的东西呢?且听后文分析。 知识补充 主要是KV Cache的介绍:什么是KV Cache,为什么只缓存KV? 什么是KV Cache? 回忆一下Transformer中的注意力机制,在经典的Transformer中我们有向量化的语料输入Tokens序列,如果batch size=1, 的形状是 ,其中是输入序列的长度 一句话单词数 ,...
月之森点子系列:設計月之森編程語言
月之森点子王最近有点无聊 Soyo最近实在是有点无聊,空虚之中她想起来了她大学期间学的最差的一门专业课——编译原理;(虽然老师讲课水平就是一坨)但是她还是打算弥补一下相关知识的欠缺。 看看月之森點子王蓑魷如何從數學和符號分析的角度形式化分析程序語言? 什么是形式语言(形式文法? 在形式语言理论中, 文法 (formal grammar)是形式语言中字符串的一套产生式规则(production rule)。这些规则描述了如何用语言的字母表 "字母表...
月之森点子系列:HMM隐马尔科夫模型(Hidden Markov Model)
隐马尔可夫模型参考链接见这里 月之森点子王最近的困扰 Sakiko最近总是不回复Soyo的消息,Soyo表示很担心Sakiko的安全(存疑),常常夜不能寐。但是最近在从月之森同校的Mutsumi同学提供的消息来看,祥子最近去上海旅游了三天,去了三个地方,Sakiko第一天去三个地方的概率都是,之后按照聊天记录里的概率进行转移,并且从Mutsumi同学口中得知,Sakiko第一天没有购物,第二第三天都进行了购物(最不符合经济现状的一集); 看到Sakiko聊天记录的Soyo(蓑鱿即刻激发出了惊人的数学天赋,点子计从心来,她想起了她小学就学过的隐马尔可夫模型(HMM 非常适合解决追踪Sakiko三天的行踪🤩🤩🤩 Soyo不亏是月之森点子王,HMM确实很适合研究这种马尔科夫过程的隐状态预测。 什么是隐马尔科夫模型 隐马尔可夫模型(英语:Hidden...
斐波那契数列性质的一道题
记录一道斐波那契数列的算法题 ->原题链接见这里<- 注:感谢同济21级数拔 戴先生对一些数学证明的解答,使本人凭借微弱的数学基础也能完成本文的书写🥰 原题重述 题意简述,我们都知道经典的斐波那契数列满足如下性质: 我们记录对于斐波那契数列第n个可以整除k的下标从1开始为,因为可能很大,所以输出时候我们会将结果. solve the problem 根据补充条件的第一点,我们就可以确定一个循环节,然后在循环节中找到所有的整除的下标问题就解决了(关键在于Pisano周期有很多良好的性质来帮助我们设计一系列最佳算法,后续背景知识非常重要); 代码如下: 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768#include <bits/stdc++.h>using namespace std;using ll=long long;#define MODN...
LLM剪枝-SparseGPT方法
'SparseGPT' one-shot Pruning Strategy 【论文地址】SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot SparseGPT简介 SparseGPT是一种用于压缩Massive LLM的一次性(one-shot)、无须重训练(no need for retraining)的基于非结构化Pruning(剪枝)的模型压缩方法,发现了至少50%的稀疏性; SparseGPT提出的创新点何在?其实就是两点:ONE-SHOT && NO RETRAINING; 上图就是原来的模型减枝之后,我们仍然需要一个Sparse Retraining的过程来调整稀疏化之后的模型,SparseGPT提出的剪枝方法则是one-shot的,也就是无须后面retraining或者说调整的代价很小。 SparseGPT的基本原理 已有方法存在的问题: 一般的模型减枝(Pruning)都包含两步——Mask Selection 和...
一个attention降秩理论的证明
Attention is not all you need? 纯粹的注意力机制有什么问题? 论文地址-> pure attention loses rank doubly exponentially with depth <- 简介 原文链接如上所示,论文开门见山的提出来一个新观点:纯粹的注意力机制会导致矩阵的秩指数级别的下降;论文标题也很有意思Attention is not all you need,则是与LLM的开山之作Attention is all you need相呼应,这篇文章看似在挑战attention机制,实际上是在从一个全新的角度来阐述为什么attention为什么会表现优异。 回忆一下multi-head...
图论?绸带?算法?
...
记录一个有趣的题
...
毕业设计
经过和导师的沟通之后,最终选定大模型压缩作为我的毕业设计主题 实验室学长提供的思路和文献 基础常用的量化、剪枝、知识蒸馏等技术的原理本文不再赘述... 文献阅读阶段 dejavu 基于上下文稀疏性的动态剪枝 【2024.10.27】dejavu 基于MHA、mlp 上下文稀疏性(contextual sparsity)的动态预测剪枝 文献地址 简介 何为所谓上下文稀疏性?根据文章作者的想法,大语言模型虽然具有很深很深的层次结构和参数量,但是对于每一部分特定的输入发挥作用/被激活的却只有极少比例的参数(主要分为MHA类和MLP类两类验证)。这其实是相当符合直觉的假设,每次人脑做推理时对于给定的输入,大脑也只有少量神经元(突触)会被激活,而不是一思考整个大脑都被激活(什doge、 从上图中不难发现,模型中的上下文稀疏性相当显著。原文中的说法是:small、 input-dependent sets of attention heads and MLP parameters that yield approximately the same output as the...