学习笔记 | 生活平淡又惊奇

Python安装BERTopic的踩坑总结

Python安装BERTopic......

数据结构化处理为json格式

最近在整理毕业论文可视化的数据,这是一个JACS3.0学科分类系统的数据。......

MongoDB数据库的安装和启动

之前对MongoDB有一部分的学习了解,但因为自己没有使用的需求,就一直没有实际操作过这个数据库,直到最近导师需要我们复现的一个数据分析类的实验涉及到MongoDB这个数据库,我才打算深入操作进一步学习一下MongoDB......

语义迁移实验(爬虫+数据清洗+分词+去停用词+Word2Vec+PCA可视化)

这是最近在做的马太效应数字画像实验中语义迁移实验部分的流程和总结......

应用经验模式分解和互信息来分离信号中嵌入的随机和确定性分量

如果正在处理的时序数据不完全确定,我们可以做什么呢?最近看到了一篇论文:该论文提出了一个框架,在给定时间序列的情况下,将其分解为随机影响和确定性成分。......

将PCA应用到经验数据

将PCA应用到经验数据......

封闭式连续时间神经网络CfC

麻省理工学院(MIT)的研究者开发出了一种新型的神经网络,其不仅能在训练阶段学习,而且还能持续不断地适应。......

时序数据降噪处理

时序数据降噪处理......

Monetdb数据库的安装和启动

MonetdbMonetDB是一个开源的面向列的数据库管理系统。MonetDB被设计用来为较大规模数据(如几百万行和数百列的数据库表)提供高性能查询的支持。目前,该数据库系统已经被成功使用于对数据读取有高性能要求的应用,如数据挖掘、联机分析处理、文本检索、多媒体检索等。......

⭐降低汽油精制过程中的辛烷值损失(数据分析及机器学习建模)

这次的建模项目是某一年的华为杯研究生数学建模竞赛,相关的题目背景如下。主要讲的是汽油辛烷值的建模:汽油清洁化重点是降低汽油中的硫、烯烃含量,同时尽量保持其辛烷值。......

使用Pandas来写SQL查询

使用Pandas来写SQL查询......

SQL操作

数据库登录的注意事项、SQL操作、复杂范例......

Github的处理

上传文件到Github上;fork别人的代码后上传更新文件到一个新的branches;README.md提交图片......

⭐ 用户流失数据的发掘与分析(数据分析及机器学习建模)

找出影响电信用户流失的关键因素,并分析流失的原因,最终给出可落地的意见......

Oracle的安装

Oracle 11g安装指南(包括两个大坑以及默认用户密码登录检验)......

科研实验数据可视化配色收藏(不断更新)

数据可视化配色,多种配色方案可供选择 ......

JAVA多个版本安装

之前为了方便直接无脑安装了JAVA8,但是在最近安装一些软件的过程中发现只能兼容JAVA11以上的版本了,所以此处记录一下JAVA多个版本的安装下载对应版本的......

基于PCA的人脸识别系统

使用PCA进行人脸的特征识别......

奥密克戎防疫常态化下防疫措施研究(新冠话题建模)

一次建模比赛,记录一下实验的过程和对实验结果的解读......

NLP处理过程中各国语言的停用词stopwords收集

Stop words in different countries......

使用webdriver获取Google Book公开数据(很全的8个反爬小贴士)

使用selenium+webdriver获取数据......

⭐电动汽车目标客户销售策略研究(数据分析及机器学习建模)

对电动汽车的销售数据进行分析,使用机器学习和数据分析的模型算法了解了用户的满意度行为,同时能很好的预测客户的购买结果,能够为销售人员提出合理的销售策略建议......

Google Books Ngram Viewer网页的词频数据下载

使用代码高效获取Google Books Ngram Viewer网页的时间序列数据......

安装pip

3条命令快速装完pip......

时间序列建模(股票时序数据预测)

时间序列预测方法及代码整理......

词语级别语义相似度实验(Bert+BioBERT)

实验环境本实验基于huggingface/transforms-PyTorch框架进行词语级别的语义相似度计算。......

GBNC数据库时序数据可视化

GBNC数据库时序数据可视化......

计算语义相似度(理论和实验结果篇3-总结)

计算语义相似度理论和实验结果篇3-总结......

计算语义相似度(理论和实验结果篇2)

计算语义相似度理论和实验结果篇2......

K-means 的特征选择

在处理高维数据集时,可能会遇到聚类方法的问题。特征选择是监督学习的一种众所周知的技术,但对于无监督学习(如聚类)方法来说却少之又少。在这里使用一个相对简单的贪心算法来对 Kaggle 上的欧洲数据集执行变量选择。......

计算语义相似度(理论和实验结果篇1)

第一类模型:WordNet、Word2Vec、GloVe、fastText......

CRISP-DM:数据挖掘行业标准流程

数据挖掘是通过分析大量数据发现隐藏的、有价值的知识的过程。......

了解差异:人工智能、数据科学、数据挖掘、机器学习和深度学习

探讨这些术语之间的差异,阐明它们的独特特征、应用程序和关系......

使用腾讯云搭建Halo学习笔记网站

使用个人服务器搭建学习笔记平台......