CHY Blog

You are capable of wonderful things.

Numpy

Python中Numpy库的学习

本节主要记录Python中Numpy库的学习过程,以生信修炼手册和官方文档为基础。 基本知识 numpy中的多维数组称之为ndarray, 是由一系列相同数据类型的对象构成的集合。在numpy中,最基本的构建矩阵的方法是通过array函数。 import numpy a = numpy.assay([(1,2,3),(,4,5,6)]) # 创建矩阵 type(a) a.ndim # ...

ROC曲线

ROC曲线原理及代码实现

ROC曲线,全称受试者工作特征曲线(receiver operating characteristic curve),这个名字主要与ROC的发展历史有关。是用于比较两个分类模型好坏的可视化工具。 ROC曲线的横坐标为假阳性率/敏感性(False Positive Rate,FPR),纵坐标为真阳性率/准确率(True Positive Rate,TPR) N是真实负样本的个数,FP是N个负样...

SymSim

单细胞数据模拟(2)

本节主要学习另一个单细胞数据模拟软件SymSim。 SymSim与Splatter类似,可以用于模拟多种情况的数据(用于聚类、差异分析等等)。 Benchmark clustering methods; Benchmark methods for differentially expressed genes; Benchmark trajectory inference met...

Snakemake

生信分析流程搭建

安装snakemake conda install -c bioconda snakemake 简单snakemake脚本举例 # 首先创建两个文件夹 echo "Hello Hongyu" > 1.txt echo "Hi Hongyu" > 2.txt # 编写snakefile rule concat: input: expand("{file}...

Seurat

Seurat分析流程及注意点

本节主要收集一些Seurat分析流程图集以及了解到的分析过程中需要注意的问题。 分析注意点 单细胞差异分析需选用RNA assay; 多样本数据整合后,进行FindAllMarker分析同样需要使用RNA assay; 鉴定每个分群中的保守基因,需要使用Findconservedmarkers函数; 针对大型数据可以采用loom...

Splatter

单细胞数据模拟(1)

目前单细胞数据模拟软件主要有Splatter、powsimR、SymSim。本节主要介绍常用的Splatter软件。 单细胞数据模拟 # Splatter: 模拟单细胞RNA测序数据 # 安装加载Splatter BiocManager::install('splatter') library('splatter') browseVignettes("splatter") # 存在一个...

转录组数据上传

NCBI中SRA数据库上传数据

当数据上传时,如果数据量过大,会经常出现自动断掉的现象,这时只需重复执行上传命令即可。 ascp -i C:\Users\洪瑜\Desktop\aspera.txt -QT -l100m -k1 -d E:\data_paper\时间点 subasp@upload.ncbi.nlm.nih.gov:uploads/chyzjdyx_126.com_2KyBOx5q ascp -i C:\Us...

聚类算法

常用聚类算法以及聚类的度量指标

最近在探索单细胞 rare cell 鉴定相关软件,接触到很多聚类方面的知识,故参考其他学习笔记进行整合整理,原始内容详见参考链接。 常用聚类算法 通常情况下,算法先对原型进行初始化,然后对原型进行迭代更新求解。 K-means 算法 学习向量量化(Learning Vector Quantization,简称 LVQ) 高斯混合聚类 密度聚类 层次聚类(Hier...

SRA数据下载

多种方法下载SRA数据库中测序原始数据

记录从NCBI下载SRA测序数据的集中方法 ftp路径下载 # 第一种方法(目前链接存在一定问题) wget -c ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/+SRR+登陆号前三位数字+/SRR+完整登陆号 通过Accession number文件下载 # 第二种方法 # 通过NCBI网站下载SRR_A...

DBSCAN聚类

DBSCAN密度聚类算法学习

参考链接:https://zhuanlan.zhihu.com/p/88747614 DBSCAN,英文全称是 Density-Based Spatial Clustering of Applications with Noise,一种基于密度,对噪声鲁棒的空间聚类算法。 DBSCAN通常适合于对较低维度数据进行聚类分析。 DBSCAN基本概念: 基于密度 找到样本点的全部密集区域...